Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

El artículo presenta SemVID, un marco de poda de tokens sin entrenamiento diseñado específicamente para la localización temporal en videos que, mediante la asignación semántica de evidencia basada en la retención de información crítica y la fuerza de conectividad, logra un equilibrio óptimo entre precisión y eficiencia al reducir drásticamente el número de tokens visuales necesarios.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Este artículo propone el uso de primitivas de Gabor, que modulan envolventes gaussianas con exponenciales complejas para representar eficientemente tanto estructuras suaves como bordes agudos en resonancia magnética cardíaca acelerada, superando a los métodos existentes mediante una representación continua y físicamente interpretable que explota la redundancia espaciotemporal.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Este trabajo presenta un nuevo marco de inpainting longitudinal pseudo-3D basado en modelos de difusión que, al integrar contexto temporal y un mecanismo de atención regional, supera a los métodos existentes en fidelidad perceptual, estabilidad temporal y eficiencia computacional para el análisis de resonancias magnéticas cerebrales con lesiones evolutivas.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

El artículo presenta MultiHaystack, el primer benchmark diseñado para evaluar la recuperación y el razonamiento multimodal a gran escala sobre un corpus heterogéneo de más de 46.000 documentos, imágenes y videos, revelando que el rendimiento de los modelos de lenguaje multimodales cae drásticamente cuando deben localizar evidencia relevante en lugar de recibirlos directamente.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

Este artículo presenta un marco de geolocalización audiovisual interpretable que supera las limitaciones de los enfoques unimodales mediante un nuevo conjunto de datos global (AVG) y un sistema de tres etapas que descompone el audio en "átomos acústicos", los integra con características visuales mediante razonamiento multimodal y predice la ubicación en una esfera mediante flujo de emparejamiento Riemanniano.

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

El artículo presenta Any2Full, un marco unificado de una sola etapa que adapta un modelo de estimación de profundidad monocromática preentrenado mediante un codificador de prompts consciente de la escala para lograr una completación de profundidad precisa, robusta y eficiente sin depender de alineaciones explícitas ni estrategias de dos etapas.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

Este trabajo propone un marco ligero e interpretable que extiende los histogramas discriminativos de magnitud de gradiente a espacios tridimensionales para detectar artefactos de movimiento en resonancias magnéticas cerebrales estructurales, logrando una alta precisión y generalización en sitios no vistos mediante una estrategia de decisión paralela que combina características 2D y 3D.

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

El artículo presenta LayerBind, un método libre de entrenamiento para controladores de difusión transformadores que logra una gestión precisa de regiones y oclusiones mediante la inicialización de instancias por capas y el cuidado semántico, permitiendo la edición flexible de layouts sin degradar la calidad de la imagen.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

El artículo presenta EventGeM, un sistema de reconocimiento de lugares basado en eventos que fusiona características globales y locales mediante transformadores de visión y estimación de profundidad para lograr un posicionamiento preciso en tiempo real y superar el estado del arte en diversas condiciones de iluminación.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

El artículo presenta MaCS, un marco de regularización simple y agnóstico a la arquitectura que mejora la calibración y la robustez de los modelos de visión mediante la combinación de una penalización de margen en el espacio de logits y un regularizador de consistencia, logrando mejores garantías teóricas y rendimiento empírico sin requerir datos adicionales ni cambios arquitectónicos.

Salim Khazem2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Este trabajo propone un marco arquitectónico unificado que, mediante un procesamiento conjunto de imagen y Stokes en una sola etapa, logra un rendimiento superior en la restauración de imágenes polarimétricas degradadas por ruido, desenfoque o mosaicos, garantizando la consistencia física de los parámetros polarimétricos sin necesidad de rediseñar la red para cada tipo de degradación.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs