cs.CV articoli | Gist.Science

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Il paper introduce Kiwi-Edit, un nuovo approccio all'editing video basato su istruzioni e riferimenti visivi che supera le limitazioni attuali grazie a una pipeline di generazione dati scalabile, al dataset RefVIE e a un'architettura unificata che raggiunge lo stato dell'arte nel controllo preciso delle modifiche video.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

Il paper presenta Track4World, un modello feedforward che stima in modo efficiente la traiettoria 3D di ogni pixel di un video monoculare in un sistema di coordinate centrato sul mondo, superando i limiti delle metodologie precedenti nella ricostruzione 4D densa.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

Il paper presenta PVT-GDLA, un decoder Transformer basato su un'attenzione lineare differenziale e gateata che, integrando un encoder PVT, risolve i problemi di instabilità e diluizione delle mappe per ottenere una segmentazione medica ad alta fedeltà con complessità computazionale lineare e prestazioni superiori rispetto alle architetture esistenti.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

Il paper "MultiShadow" presenta un approccio basato su modelli di diffusione pre-addestrati per generare ombre fisicamente plausibili e coerenti per multipli oggetti inseriti in una scena, superando i limiti delle metodologie esistenti focalizzate su singoli oggetti.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

Il paper introduce IoUCert, un nuovo framework di verifica formale che supera le difficoltà legate alle trasformazioni non lineari e alla metrica IoU per garantire la robustezza di modelli di rilevamento oggetti basati su anchor come SSD e YOLO.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Gli autori propongono un framework di traduzione neurale non accoppiato basato sul ponte di Schrödinger, potenziato da un allineamento distributivo guidato da diffusione e da un regolarizzatore per la preservazione anatomica, per migliorare la qualità delle immagini risonanza magnetica a ultra-basso campo (64 mT) rendendole comparabili a quelle a 3 T senza richiedere dati di addestramento accoppiati.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

Il paper presenta TumorFlow, un quadro generativo condizionato da principi biofisici che sintetizza sequenze longitudinali realistiche di risonanza magnetica cerebrale per visualizzare la crescita e l'infiltrazione del glioblastoma, combinando modelli di crescita tumorale con tecniche di generazione avanzata per supportare la pianificazione terapeutica personalizzata.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

Il paper presenta NOVA3R, un approccio feed-forward basato su Transformer che, utilizzando un meccanismo di token di scena e un decoder di diffusione, ricostruisce amodalmente geometrie 3D complete e non allineate ai pixel a partire da immagini non posizionate, superando i limiti dei metodi tradizionali legati all'allineamento per raggio.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Questo lavoro propone un nuovo framework unificato che, sfruttando l'attenzione incrociata tra compiti e strategie di supervisione mista, risolve le sfide del rilevamento congiunto di lacune e spazi perivascolari ingranditi nella malattia dei piccoli vasi cerebrali, ottenendo prestazioni all'avanguardia e una robusta validazione su dataset su larga scala.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

Il paper introduce "Gaussian Wardrobe", un nuovo framework che utilizza una rappresentazione composita 3D basata su Gaussiani per digitalizzare avatar neurali separando il corpo dai vestiti, permettendo così la sintesi di pose realistiche e il trasferimento libero degli indumenti su nuovi soggetti.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Questo studio dimostra che l'allineamento linguistico, attraverso un nuovo metodo chiamato "Semantic Anchoring", risolve il collasso semantico nei modelli foundation per la patologia computazionale, migliorando significativamente la rilevazione del cancro sia in contesti interspecie che inter-tumorali senza necessità di riaddestramento.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Questo paper propone il framework "Dual Tuning" per quantificare i benefici del ragionamento nei task multimodali, definendo un "confine del pensiero" che guida la selezione strategica dei dati e delle tecniche di addestramento, sfidando così l'approccio universalmente basato sul ragionamento.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Il paper introduce SkillNet, un'infrastruttura aperta che crea, valuta e organizza competenze AI su larga scala attraverso un'ontologia unificata e un repository di oltre 200.000 competenze, migliorando significativamente le prestazioni degli agenti riducendo la necessità di reinventare soluzioni già esistenti.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Questo articolo presenta un approccio di deep learning multi-modale che integra dati video, pose umane e oggetti tramite meccanismi di attenzione incrociata per migliorare il riconoscimento delle attività quotidiane negli ambienti di vita assistita per anziani, dimostrando risultati promettenti sul dataset Toyota SmartHome.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Il paper introduce InverseNet, il primo benchmark cross-modale che quantifica l'impatto del disallineamento tra operatori fisici e modelli computazionali nelle immagini compressive, rivelando come la maggior parte dei metodi deep learning perda significativamente in robustezza e come la calibrazione cieca possa recuperare quasi interamente le prestazioni perse.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Questo studio analizza diverse strategie di fusione e raggruppamento per migliorare l'accuratezza della classificazione delle Zone Climatiche Locali (LCZ) utilizzando dati di telerilevamento multimodali, dimostrando che un modello ibrido di base combinato con il raggruppamento delle bande e la fusione dei livelli decisionali raggiunge la massima precisione del 76,6% sul dataset So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Il paper propone il "Dual-LoRA Controllable Diffusion", un framework unificato di diffusione guidato da centroidi che utilizza adattatori LoRA specifici per il compito per generare immagini di istopatologia realistiche e strutturalmente coerenti, migliorando significativamente sia il completamento locale che la sintesi globale rispetto agli stati dell'arte esistenti.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

Il paper introduce Partial Vision Mamba (PVM), un nuovo componente architetturale che adatta i principi delle convoluzioni parziali ai modelli a spazio di stato come Mamba, permettendo loro di gestire efficacemente dati con regioni mancanti o invalide in compiti di visione artificiale come il completamento della profondità e l'inpainting.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Il paper presenta PinPoint, un nuovo benchmark completo per la Ricerca di Immagini Composte (CIR) che introduce valutazioni su negativi espliciti, query multi-immagine e robustezza alle parafrasi, rivelando limiti significativi negli attuali metodi e proponendo una soluzione di riordinamento basata su MLLM per colmare tali lacune.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

Questo lavoro presenta il modello SGR3, un framework senza addestramento che utilizza modelli linguistici multimodali potenziati dal retrieval per generare scene graph 3D senza necessità di ricostruzione esplicita, ottenendo prestazioni competitive rispetto ai modelli basati su GNN.

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

← Precedente Successivo →