Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Este estudio evalúa métodos de aprendizaje profundo, incluyendo redes neuronales convolucionales, transformadores de visión y modelos fundacionales, aplicados a imágenes ultra granulares para la detección de retinopatía diabética y edema macular diabético, demostrando un rendimiento sólido y la eficacia de la fusión de características y las representaciones en el dominio de la frecuencia.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

El artículo presenta SiMO, un nuevo enfoque de percepción colaborativa multimodal que supera las limitaciones de los métodos existentes al garantizar un funcionamiento óptimo incluso cuando falla un sensor clave, mediante una fusión adaptable de características y una estrategia de entrenamiento que preserva la independencia de cada modalidad.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

El artículo presenta DynamicVGGT, un marco unificado de alimentación directa que extiende la percepción 3D estática a la reconstrucción dinámica 4D para la conducción autónoma mediante la predicción conjunta de mapas de puntos, un módulo de atención temporal consciente del movimiento y una cabeza de *Gaussian Splatting* 3D dinámica para modelar con precisión el movimiento y la coherencia temporal en escenas complejas.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Este trabajo presenta un método libre de aprendizaje para el seguimiento de pose 6D de objetos que fusiona el flujo óptico basado en eventos para la propagación de la pose con una corrección local basada en plantillas, logrando un rendimiento comparable o superior a los algoritmos actuales en escenarios dinámicos de alta velocidad donde las cámaras RGB-D y las redes profundas tienen limitaciones.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

El artículo presenta OSCAR, un método basado en representaciones implícitas neuronales que reconstruye la geometría 3D completa de la anatomía vertebral a partir de observaciones parciales de ultrasonido mediante un espacio latente acoplado que modela la apariencia de la imagen y la forma anatómica, logrando una mejora del 80% en la puntuación HD95 sin necesidad de etiquetas anatómicas durante la inferencia.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

El artículo presenta HDR-NSFF, un marco unificado que transforma la fusión de imágenes de alto rango dinámico (HDR) de un enfoque 2D a un modelado espaciotemporal 4D para reconstruir radiancias HDR coherentes y sin artefactos a partir de videos monoculares con exposiciones alternadas, superando las limitaciones de los métodos convencionales mediante la integración de campos de flujo neuronal, priores generativos y un nuevo conjunto de datos real.

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

El artículo presenta SlowBA, un ataque de puerta trasera novedoso que compromete la eficiencia de los agentes de interfaz gráfica basados en modelos de lenguaje y visión al inducir cadenas de razonamiento excesivamente largas mediante patrones de activación específicos, aumentando significativamente la latencia de respuesta sin sacrificar la precisión de la tarea.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Este estudio compara el rendimiento de humanos y modelos de IA en el reconocimiento de acciones egocéntricas utilizando recortes mínimos identificables (MIRCs) y revela que, mientras los humanos dependen de señales semánticas críticas como las interacciones mano-objeto, los modelos de IA muestran una degradación más gradual basada en características contextuales y de bajo nivel, lo que explica la brecha de rendimiento en condiciones desafiantes.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Este trabajo presenta un marco general para evaluar la calidad de los mapas de calor en el aprendizaje de múltiples instancias (MIL) para patología computacional, demostrando mediante un extenso benchmark que métodos como la propagación de relevancia capa a capa (LRP) y los gradientes integrados (IG) superan a las técnicas basadas en atención, permitiendo así validaciones biológicas más fiables y el descubrimiento de nuevas estrategias de predicción.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Δ\DeltaVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

El artículo presenta Δ\DeltaVLA, un marco de modelos visión-lenguaje-acción guiado por priores que mejora la generación de acciones robóticas al modelar las variaciones del conocimiento del mundo en lugar de predecir estados futuros absolutos, logrando un rendimiento superior y mayor eficiencia mediante la extracción de priores, la cuantización latente de variaciones y la atención condicional.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs