Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion

El artículo presenta "Hybrid Fusion", un marco híbrido eficiente que combina una red U-Net aprendible con un kernel de fusión clásico para lograr entrenamiento completo de resolución en solo un minuto, eliminando la brecha entre entrenamiento e inferencia y logrando un rendimiento de vanguardia con generalización cero-shot en diversas tareas de fusión de imágenes.

Ran Zhang, Xuanhua He, Liu Liu2026-02-25💻 cs

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

Este trabajo presenta SpatiaLQA, un nuevo benchmark con más de 9.600 pares de preguntas y respuestas derivadas de escenas reales para evaluar el razonamiento lógico espacial en modelos de visión y lenguaje, demostrando que los modelos actuales tienen dificultades en esta tarea y proponiendo un método de razonamiento asistido por grafos de escena recursivos para mejorar su rendimiento.

Yuechen Xie, Xiaoyan Zhang, Yicheng Shan + 6 more2026-02-25🤖 cs.LG

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

El artículo presenta LST-SLAM, un sistema de localización y mapeo simultáneo (SLAM) estereoscópico térmico diseñado para entornos dinámicos a gran escala que, mediante el aprendizaje de características auto-supervisado, el seguimiento de movimiento de doble nivel y restricciones híbridas semántico-geométricas, supera significativamente a sistemas existentes en robustez y precisión.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

Multimodal MRI Report Findings Supervised Brain Lesion Segmentation with Substructures

Este artículo presenta MS-RSuper, un marco de aprendizaje supervisado por informes que mejora la segmentación de lesiones cerebrales en resonancia magnética multimodal mediante la integración jerárquica de hallazgos cuantitativos y cualitativos inciertos, superando las limitaciones de los métodos anteriores al alinear las señales cualitativas con subestructuras específicas y aplicar restricciones unilaterales adaptadas a la incertidumbre.

Yubin Ge, Yongsong Huang, Xiaofeng Liu2026-02-25⚡ eess

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Este trabajo presenta CHAIN, un nuevo benchmark interactivo en 3D basado en física que evalúa la capacidad de los modelos visión-lingüísticos para razonar sobre restricciones estructurales y causales al planificar secuencias de acciones, revelando que los modelos actuales aún tienen dificultades significativas para internalizar la estructura física y ejecutar planes de largo alcance de manera fiable.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

El artículo presenta CLIPGlasses, un marco plug-and-play que mejora la comprensión de descripciones visuales negadas en CLIP sin fine-tuning, mediante módulos de lente y marco que disuelven la semántica negada y penalizan las alineaciones incorrectas para lograr un rendimiento superior en generalización cruzada y condiciones de bajos recursos.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

El artículo presenta VAUQ, un marco de cuantificación de incertidumbre consciente de la visión para la autoevaluación de Modelos de Lenguaje e Imagen Grandes (LVLM) que, mediante un puntaje de información de imagen y una estrategia de enmascaramiento, ofrece una función de puntuación sin entrenamiento que supera a los métodos existentes al medir la dependencia de la evidencia visual para detectar alucinaciones.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL