Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

Este trabajo presenta una evaluación comparativa que demuestra que, aunque los modelos de visión de vocabulario abierto ofrecen ventajas para la adaptación a nuevos desastres, el aprendizaje supervisado sigue siendo el enfoque más fiable para la segmentación semántica y la detección de objetos en escenas post-desastre cuando existen anotaciones específicas y se requiere precisión en objetos pequeños y bordes complejos.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

El artículo presenta SeaVIS, el primer marco en línea para la segmentación de instancias audio-visuales que supera las limitaciones de los métodos anteriores mediante un módulo de fusión de atención cruzada causal y una estrategia de aprendizaje contrastivo guiado por audio para mejorar la asociación de instancias sonoras en flujos de video continuos.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Este estudio demuestra que la utilidad de la mezcla global de tokens en la restauración de imágenes por resonancia magnética depende de la tarea específica, ya que los modelos basados en CNN con puertas locales resultan competitivos en reconstrucción y superresolución donde la física impone restricciones globales, mientras que los modelos de mezcla global son superiores en tareas de eliminación de ruido heterocedástico que requieren estimar la fiabilidad espacial variable.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

El artículo presenta VidDoS, el primer marco universal de ataque de denegación de servicio energético-latencia diseñado específicamente para modelos de lenguaje grandes basados en video, el cual utiliza desencadenantes agnósticos a la instancia para inflar drásticamente la latencia de inferencia y provocar violaciones de seguridad críticas en aplicaciones como la conducción autónoma.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

El artículo presenta MM-Mem, una arquitectura de memoria multimodal piramidal inspirada en la teoría de la huella difusa que utiliza un cuello de botella de información semántica para distilar eficientemente recuerdos detallados en esquemas abstractos, mejorando así la comprensión de videos de larga duración mediante una recuperación jerárquica y dinámica.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

El artículo presenta UltraStar, un nuevo enfoque que mejora la navegación automatizada en ecocardiografía mediante un modelo de grafo estelar semánticamente consciente que reformula la tarea como una localización global basada en anclajes espaciales, superando así las limitaciones de los métodos existentes al manejar trayectorias históricas ruidosas y largas.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

El artículo presenta WildCross, un nuevo benchmark de gran escala que aborda la brecha en la percepción robótica para entornos naturales no estructurados mediante un conjunto de datos multimodal con más de 476.000 frames RGB, anotaciones de profundidad métrica y normales de superficie alineados con escaneos LiDAR y poses 6DoF para tareas de reconocimiento de lugares y estimación de profundidad.

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

El artículo presenta SCATR, un modelo de seguimiento basado en LiDAR que mitiga la supresión de nuevas instancias mediante dos estrategias de entrenamiento innovadoras, asignación de segunda oportunidad y eliminación de consultas de seguimiento, logrando así un rendimiento superior que cierra la brecha histórica entre los métodos de seguimiento por atención y por detección.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

El artículo presenta PhotoBench, el primer benchmark construido a partir de álbumes personales auténticos que supera las limitaciones de la coincidencia visual tradicional al evaluar la capacidad de los sistemas para realizar razonamiento multimodal basado en múltiples fuentes e intenciones personalizadas, revelando así la necesidad de arquitecturas de agentes robustas para la recuperación de fotos.

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI