Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

Il paper propone SemVID, un framework di pruning dei token senza addestramento che, preservando le evidenze critiche e la connettività inter-frame attraverso una specifica allocazione semantica, ottimizza l'efficienza e le prestazioni del grounding temporale video mantenendo un'alta accuratezza.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Il paper propone l'uso di primitive di Gabor, che modulano involucri gaussiani con esponenziali complessi per rappresentare efficacemente sia le strutture lisce che i confini netti, combinati con una decomposizione temporale a basso rango per ricostruire immagini di risonanza magnetica cardiaca cine accelerate, superando le prestazioni dei metodi esistenti come la compressione sensoriale e le rappresentazioni neurali implicite.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

Il paper introduce MultiHaystack, il primo benchmark su larga scala che valuta la capacità dei modelli linguistici multimodali di recuperare e ragionare su oltre 46.000 documenti, immagini e video, rivelando che le prestazioni crollano drasticamente quando è richiesto un recupero dell'evidenza da un corpus eterogeneo rispetto all'analisi diretta dei dati forniti.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Il paper presenta Any2Full, un framework innovativo a stadio singolo che adatta un modello di stima della profondità monoculare preaddestrato tramite un codificatore di prompt consapevole della scala per ottenere una completazione della profondità robusta ed efficiente, superando i metodi esistenti in termini di accuratezza e velocità.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

Questo lavoro propone un framework leggero e interpretabile basato su estensioni tridimensionali dell'istogramma discriminativo del gradiente (DHoGM) per rilevare in modo efficiente e robusto gli artefatti da movimento nelle risonanze magnetiche cerebrali strutturali, ottenendo elevate prestazioni di generalizzazione su dati non visti senza richiedere costosi pre-processing.

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

Il paper introduce LayerBind, un metodo training-free e plug-and-play per i Diffusion Transformers che garantisce un controllo preciso della disposizione regionale e dell'ordine di occlusione nelle immagini generate tramite testo, risolvendo i limiti di qualità e usabilità delle tecniche esistenti.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Il paper presenta BM25-V, un metodo di recupero immagini che applica il punteggio Okapi BM25 alle attivazioni sparse di parole visive derivate da un Auto-Encoder Sparse su feature di Vision Transformer, ottenendo un recupero ad alta precisione e interpretabilità che funge da efficiente primo stadio per il riordinamento denso senza necessità di addestramento aggiuntivo.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

Il paper presenta EventGeM, un sistema all'avanguardia per il riconoscimento dei luoghi basato su eventi che fonde caratteristiche globali e locali utilizzando modelli pre-addestrati (ViT e MaxViT) e stime di profondità per ottenere prestazioni di localizzazione superiori e in tempo reale su diverse piattaforme computazionali.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Questo lavoro propone un framework architetturale unificato per l'imaging polarimetrico che, attraverso un elaborazione congiunta singola fase nei domini dell'immagine e di Stokes, supera le limitazioni dei metodi esistenti ottenendo prestazioni all'avanguardia nel recupero di parametri fisici coerenti da osservazioni degradate da rumore, sfocatura da movimento e artefatti di mosaico.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs