LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

El artículo presenta LST-SLAM, un sistema de localización y mapeo simultáneo (SLAM) estereoscópico térmico diseñado para entornos dinámicos a gran escala que, mediante el aprendizaje de características auto-supervisado, el seguimiento de movimiento de doble nivel y restricciones híbridas semántico-geométricas, supera significativamente a sistemas existentes en robustez y precisión.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

Multimodal MRI Report Findings Supervised Brain Lesion Segmentation with Substructures

Este artículo presenta MS-RSuper, un marco de aprendizaje supervisado por informes que mejora la segmentación de lesiones cerebrales en resonancia magnética multimodal mediante la integración jerárquica de hallazgos cuantitativos y cualitativos inciertos, superando las limitaciones de los métodos anteriores al alinear las señales cualitativas con subestructuras específicas y aplicar restricciones unilaterales adaptadas a la incertidumbre.

Yubin Ge, Yongsong Huang, Xiaofeng Liu2026-02-25⚡ eess

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Este trabajo presenta CHAIN, un nuevo benchmark interactivo en 3D basado en física que evalúa la capacidad de los modelos visión-lingüísticos para razonar sobre restricciones estructurales y causales al planificar secuencias de acciones, revelando que los modelos actuales aún tienen dificultades significativas para internalizar la estructura física y ejecutar planes de largo alcance de manera fiable.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

El artículo presenta CLIPGlasses, un marco plug-and-play que mejora la comprensión de descripciones visuales negadas en CLIP sin fine-tuning, mediante módulos de lente y marco que disuelven la semántica negada y penalizan las alineaciones incorrectas para lograr un rendimiento superior en generalización cruzada y condiciones de bajos recursos.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

El artículo presenta VAUQ, un marco de cuantificación de incertidumbre consciente de la visión para la autoevaluación de Modelos de Lenguaje e Imagen Grandes (LVLM) que, mediante un puntaje de información de imagen y una estrategia de enmascaramiento, ofrece una función de puntuación sin entrenamiento que supera a los métodos existentes al medir la dependencia de la evidencia visual para detectar alucinaciones.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Este artículo presenta UDVideoQA, un nuevo conjunto de datos y benchmark para la respuesta a preguntas en videos de tráfico que, mediante el uso de técnicas de privacidad y una taxonomía de razonamiento jerárquico, evalúa y mejora la capacidad de los modelos de lenguaje visuales para realizar inferencias espaciotemporales complejas en entornos urbanos dinámicos.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs