FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

El artículo presenta FoSS, un marco de doble rama que integra el razonamiento en el dominio de la frecuencia con modelos de espacio de estado selectivos para lograr predicciones de trayectoria de vanguardia en la conducción autónoma, equilibrando con eficiencia la captura de dependencias a largo plazo y la incertidumbre multimodal mientras reduce significativamente los costos computacionales y de parámetros.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

Este trabajo propone un marco de aprendizaje multitarea para el análisis de ultrasonidos mamarios que supera las limitaciones de los enfoques convencionales mediante una interacción bidireccional a múltiples niveles entre decodificadores y un mecanismo de coordinación adaptativa basado en la incertidumbre, logrando así una segmentación y clasificación de lesiones más precisas y robustas.

Abdullah Al Shafi, Md Kawsar Mahmud Khan Zunayed, Safin Ahmmed + 2 more2026-03-03🤖 cs.AI

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Este estudio demuestra que el aprendizaje por refuerzo (RL) mejora principalmente la precisión y eficiencia de muestreo de los modelos de visión y lenguaje médicos cuando ya existe una base sólida de razonamiento obtenida mediante ajuste fino supervisado (SFT), proponiendo una estrategia de entrenamiento que combina ambos enfoques para lograr un alto rendimiento en diversos benchmarks médicos.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

Este trabajo presenta una evaluación comparativa que demuestra que, aunque los modelos de visión de vocabulario abierto ofrecen ventajas para la adaptación a nuevos desastres, el aprendizaje supervisado sigue siendo el enfoque más fiable para la segmentación semántica y la detección de objetos en escenas post-desastre cuando existen anotaciones específicas y se requiere precisión en objetos pequeños y bordes complejos.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

El artículo presenta SeaVIS, el primer marco en línea para la segmentación de instancias audio-visuales que supera las limitaciones de los métodos anteriores mediante un módulo de fusión de atención cruzada causal y una estrategia de aprendizaje contrastivo guiado por audio para mejorar la asociación de instancias sonoras en flujos de video continuos.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Este estudio demuestra que la utilidad de la mezcla global de tokens en la restauración de imágenes por resonancia magnética depende de la tarea específica, ya que los modelos basados en CNN con puertas locales resultan competitivos en reconstrucción y superresolución donde la física impone restricciones globales, mientras que los modelos de mezcla global son superiores en tareas de eliminación de ruido heterocedástico que requieren estimar la fiabilidad espacial variable.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

El artículo presenta VidDoS, el primer marco universal de ataque de denegación de servicio energético-latencia diseñado específicamente para modelos de lenguaje grandes basados en video, el cual utiliza desencadenantes agnósticos a la instancia para inflar drásticamente la latencia de inferencia y provocar violaciones de seguridad críticas en aplicaciones como la conducción autónoma.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

El artículo presenta MM-Mem, una arquitectura de memoria multimodal piramidal inspirada en la teoría de la huella difusa que utiliza un cuello de botella de información semántica para distilar eficientemente recuerdos detallados en esquemas abstractos, mejorando así la comprensión de videos de larga duración mediante una recuperación jerárquica y dinámica.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

El artículo presenta UltraStar, un nuevo enfoque que mejora la navegación automatizada en ecocardiografía mediante un modelo de grafo estelar semánticamente consciente que reformula la tarea como una localización global basada en anclajes espaciales, superando así las limitaciones de los métodos existentes al manejar trayectorias históricas ruidosas y largas.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs