LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

El artículo presenta LST-SLAM, un sistema de localización y mapeo simultáneo (SLAM) estereoscópico térmico diseñado para entornos dinámicos a gran escala que, mediante el aprendizaje de características auto-supervisado, el seguimiento de movimiento de doble nivel y restricciones híbridas semántico-geométricas, supera significativamente a sistemas existentes en robustez y precisión.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

Multimodal MRI Report Findings Supervised Brain Lesion Segmentation with Substructures

Este artículo presenta MS-RSuper, un marco de aprendizaje supervisado por informes que mejora la segmentación de lesiones cerebrales en resonancia magnética multimodal mediante la integración jerárquica de hallazgos cuantitativos y cualitativos inciertos, superando las limitaciones de los métodos anteriores al alinear las señales cualitativas con subestructuras específicas y aplicar restricciones unilaterales adaptadas a la incertidumbre.

Yubin Ge, Yongsong Huang, Xiaofeng Liu2026-02-25⚡ eess

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Este trabajo presenta CHAIN, un nuevo benchmark interactivo en 3D basado en física que evalúa la capacidad de los modelos visión-lingüísticos para razonar sobre restricciones estructurales y causales al planificar secuencias de acciones, revelando que los modelos actuales aún tienen dificultades significativas para internalizar la estructura física y ejecutar planes de largo alcance de manera fiable.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

El artículo presenta CLIPGlasses, un marco plug-and-play que mejora la comprensión de descripciones visuales negadas en CLIP sin fine-tuning, mediante módulos de lente y marco que disuelven la semántica negada y penalizan las alineaciones incorrectas para lograr un rendimiento superior en generalización cruzada y condiciones de bajos recursos.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

El artículo presenta VAUQ, un marco de cuantificación de incertidumbre consciente de la visión para la autoevaluación de Modelos de Lenguaje e Imagen Grandes (LVLM) que, mediante un puntaje de información de imagen y una estrategia de enmascaramiento, ofrece una función de puntuación sin entrenamiento que supera a los métodos existentes al medir la dependencia de la evidencia visual para detectar alucinaciones.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Este artículo presenta UDVideoQA, un nuevo conjunto de datos y benchmark para la respuesta a preguntas en videos de tráfico que, mediante el uso de técnicas de privacidad y una taxonomía de razonamiento jerárquico, evalúa y mejora la capacidad de los modelos de lenguaje visuales para realizar inferencias espaciotemporales complejas en entornos urbanos dinámicos.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Este trabajo presenta SynthRender, un marco de código abierto para generación de imágenes sintéticas con aleatorización de dominio guiada, junto con el conjunto de datos IRIS, demostrando que la combinación de activos 3D creados a partir de imágenes reales y técnicas de transferencia bidireccional Sim-Real permite lograr un alto rendimiento en la percepción de objetos industriales sin necesidad de archivos 3D propietarios ni costosas anotaciones manuales.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs