cs.CV articoli | Gist.Science

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

Il paper propone SemVID, un framework di pruning dei token senza addestramento che, preservando le evidenze critiche e la connettività inter-frame attraverso una specifica allocazione semantica, ottimizza l'efficienza e le prestazioni del grounding temporale video mantenendo un'alta accuratezza.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Il paper propone l'uso di primitive di Gabor, che modulano involucri gaussiani con esponenziali complessi per rappresentare efficacemente sia le strutture lisce che i confini netti, combinati con una decomposizione temporale a basso rango per ricostruire immagini di risonanza magnetica cardiaca cine accelerate, superando le prestazioni dei metodi esistenti come la compressione sensoriale e le rappresentazioni neurali implicite.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

Il documento presenta OWL, un nuovo approccio analitico basato sul tempo che utilizza segnali visivi di movimento per abilitare la ricostruzione 3D scalata e la mappatura in tempo reale senza richiedere conoscenze preliminari sull'ambiente o sul movimento della telecamera.

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Il paper presenta un nuovo framework longitudinale di inpainting per risonanze magnetiche cerebrali basato su modelli di diffusione 3D region-aware, che supera le tecniche esistenti garantendo maggiore fedeltà percettiva, stabilità temporale ed efficienza computazionale nell'analisi delle lesioni evolutive.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

Il paper introduce MultiHaystack, il primo benchmark su larga scala che valuta la capacità dei modelli linguistici multimodali di recuperare e ragionare su oltre 46.000 documenti, immagini e video, rivelando che le prestazioni crollano drasticamente quando è richiesto un recupero dell'evidenza da un corpus eterogeneo rispetto all'analisi diretta dei dati forniti.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

Il paper introduce un framework interpretabile per la geolocalizzazione audiovisiva che combina un benchmark globale, un'analisi semantica del suono tramite "atomi acustici" e un ragionamento multimodale ottimizzato, dimostrando come l'integrazione di segnali uditivi e visivi superi significativamente i metodi unimodali per una localizzazione globale di alta precisione.

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Il paper presenta Any2Full, un framework innovativo a stadio singolo che adatta un modello di stima della profondità monoculare preaddestrato tramite un codificatore di prompt consapevole della scala per ottenere una completazione della profondità robusta ed efficiente, superando i metodi esistenti in termini di accuratezza e velocità.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

Questo lavoro propone un framework leggero e interpretabile basato su estensioni tridimensionali dell'istogramma discriminativo del gradiente (DHoGM) per rilevare in modo efficiente e robusto gli artefatti da movimento nelle risonanze magnetiche cerebrali strutturali, ottenendo elevate prestazioni di generalizzazione su dati non visti senza richiedere costosi pre-processing.

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

Questo lavoro presenta una pipeline automatizzata che trasforma il dataset di addestramento ImageNet in un dataset multietichetta senza annotazioni umane, migliorando significativamente l'accuratezza di classificazione e la trasferibilità dei modelli grazie a una supervisione più fedele alla complessità delle scene visive reali.

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs

From Phase Grounding to Intelligent Surgical Narratives

Il paper propone un framework multimodale basato su CLIP che genera automaticamente linee temporali e narrazioni chirurgiche strutturate allineando i fotogrammi video con descrizioni testuali delle gestualità, riducendo così la necessità di annotazione manuale da parte dei chirurghi.

Ethan Peterson, Huixin Zhan2026-03-09💻 cs

Uni-LVC: A Unified Method for Intra- and Inter-Mode Learned Video Compression

Il paper presenta Uni-LVC, un metodo unificato per la compressione video appresa che integra la codifica intra e inter in un singolo modello, migliorando le prestazioni di compressione e adattandosi dinamicamente alla qualità dei riferimenti temporali grazie a un modulo di attenzione incrociata e una strategia di training multistadio.

Yichi Zhang, Ruoyu Yang, Fengqing Zhu2026-03-09💻 cs

Full Dynamic Range Sky-Modelling For Image Based Lighting

Il paper presenta Icarus, un modello di cielo meteo-indipendente basato sull'apprendimento profondo che supera i limiti delle soluzioni attuali generando mappe ambientali ad alta dinamica (FDR) fotorealistiche e controllabili dall'utente per un'illuminazione basata sull'immagine (IBL) di precisione senza precedenti.

Ian J. Maquignaz2026-03-09🤖 cs.LG

Bridging Domains through Subspace-Aware Model Merging

Il paper propone SCORE, un metodo di fusione di modelli che risolve i conflitti tra sottospazi causati da distribuzioni diverse proiettando le matrici dei task su una base ortogonale condivisa, migliorando così la generalizzazione di dominio rispetto alle tecniche esistenti.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

Il paper introduce LayerBind, un metodo training-free e plug-and-play per i Diffusion Transformers che garantisce un controllo preciso della disposizione regionale e dell'ordine di occlusione nelle immagini generate tramite testo, risolvendo i limiti di qualità e usabilità delle tecniche esistenti.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Il paper presenta BM25-V, un metodo di recupero immagini che applica il punteggio Okapi BM25 alle attivazioni sparse di parole visive derivate da un Auto-Encoder Sparse su feature di Vision Transformer, ottenendo un recupero ad alta precisione e interpretabilità che funge da efficiente primo stadio per il riordinamento denso senza necessità di addestramento aggiuntivo.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

Questo studio introduce un quadro diagnostico spettrale per analizzare gli upsampler di feature nelle pipeline di ricostruzione 2D-3D, rivelando che la coerenza strutturale spettrale è un predittore più affidabile della qualità della ricostruzione rispetto al semplice miglioramento dei dettagli spaziali.

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

Il paper presenta EventGeM, un sistema all'avanguardia per il riconoscimento dei luoghi basato su eventi che fonde caratteristiche globali e locali utilizzando modelli pre-addestrati (ViT e MaxViT) e stime di profondità per ottenere prestazioni di localizzazione superiori e in tempo reale su diverse piattaforme computazionali.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

Il paper propone LIPAR, un framework di pruning inter-frame senza addestramento che accelera la generazione video eliminando le ridondanze temporali e recuperando l'attenzione per mantenere la qualità visiva.

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Il paper presenta MaCS, un semplice framework di regolarizzazione che migliora la calibrazione e la robustezza dei modelli di visione artificiale imponendo un margine tra le classi e la coerenza delle previsioni su input perturbati, senza richiedere modifiche architetturali o dati aggiuntivi.

Salim Khazem2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Questo lavoro propone un framework architetturale unificato per l'imaging polarimetrico che, attraverso un elaborazione congiunta singola fase nei domini dell'immagine e di Stokes, supera le limitazioni dei metodi esistenti ottenendo prestazioni all'avanguardia nel recupero di parametri fisici coerenti da osservazioni degradate da rumore, sfocatura da movimento e artefatti di mosaico.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs

← Precedente Successivo →