4D Monocular Surgical Reconstruction under Arbitrary Camera Motions

El artículo presenta Local-EndoGS, un marco de reconstrucción 4D de alto rendimiento para secuencias endoscópicas monocular con movimientos de cámara arbitrarios, que supera las limitaciones de los métodos actuales mediante una representación global progresiva basada en ventanas y una estrategia robusta de inicialización que integra geometría multivista y priores de profundidad monocular.

Jiwei Shan, Zeyu Cai, Cheng-Tai Hsieh + 5 more2026-02-20💻 cs

QuPAINT: Physics-Aware Instruction Tuning Approach to Quantum Material Discovery

Este trabajo presenta QuPAINT, un marco multimodal que combina un generador de datos sintéticos basado en física (Synthia), un conjunto de instrucciones a gran escala (QMat-Instruct) y un mecanismo de atención informado por física para mejorar la detección y caracterización de materiales cuánticos bidimensionales en imágenes de microscopía óptica, validado mediante el nuevo benchmark QF-Bench.

Xuan-Bac Nguyen, Hoang-Quan Nguyen, Sankalp Pandey + 4 more2026-02-20💻 cs

LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs

El artículo presenta LATA, un método de adaptación transductiva libre de entrenamiento y etiquetas que utiliza un grafo de vecinos más cercanos y una puntuación conformal consciente de fallos para mejorar la eficiencia y el equilibrio de las clases en las predicciones de modelos de visión-lingüística médica, garantizando al mismo tiempo una cobertura válida bajo cambios de dominio.

Behzad Bozorgtabar, Dwarikanath Mahapatra, Sudipta Roy + 3 more2026-02-20💻 cs

FR-GESTURE: An RGBD Dataset For Gesture-based Human-Robot Interaction In First Responder Operations

Este artículo presenta FR-GESTURE, el primer conjunto de datos RGBD diseñado específicamente para el control de vehículos terrestres no tripulados mediante gestos en operaciones de primeros respondedores, el cual incluye 3312 pares de imágenes capturadas bajo diversas condiciones y se pone a disposición pública para fomentar la investigación en interacción humano-robot.

Konstantinos Foteinos, Georgios Angelidis, Aggelos Psiris + 3 more2026-02-20💻 cs

Adapting Actively on the Fly: Relevance-Guided Online Meta-Learning with Latent Concepts for Geospatial Discovery

Este artículo propone un marco unificado de descubrimiento geoespacial que integra aprendizaje activo y meta-aprendizaje en línea, guiado por la relevancia de conceptos latentes para optimizar el muestreo y la generalización en entornos dinámicos con datos escasos, demostrando su eficacia en la detección de contaminantes PFAS.

Jowaria Khan, Anindya Sarkar, Yevgeniy Vorobeychik + 1 more2026-02-20🤖 cs.AI

When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Este trabajo introduce LIBERO-CF, el primer benchmark contrafactual para evaluar la capacidad de los modelos Visión-Lenguaje-Acción (VLAs) de seguir instrucciones en lugar de depender de atajos visuales, y propone la Guía de Acción Contrafactual (CAG), un método de inferencia sin entrenamiento que mejora significativamente la precisión del seguimiento lingüístico y el éxito de las tareas al combinar una política estándar con un módulo de visión-acción no condicionado al lenguaje.

Yu Fang, Yuchun Feng, Dong Jing + 5 more2026-02-20💻 cs

Less is More: Skim Transformer for Light Field Image Super-resolution

El artículo presenta SkimLFSR, una arquitectura eficiente basada en el principio "menos es más" que utiliza un Transformador de Muestreo (Skim Transformer) con múltiples ramas para procesar subconjuntos seleccionados de imágenes de apertura subaperturada, logrando así un rendimiento superior en la superresolución de imágenes de campo de luz con una reducción significativa de parámetros y una mayor adaptabilidad.

Zeke Zexi Hu, Haodong Chen, Hui Ye + 4 more2026-02-19⚡ eess

A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation

Esta revisión sintetiza los conceptos fundamentales de la cuantificación de incertidumbre bayesiana en la segmentación de imágenes probabilística, estableciendo un marco unificado que analiza su impacto en tareas clave, identifica desafíos críticos y ofrece directrices prácticas para el desarrollo de modelos más robustos y confiables.

M. M. A. Valiuddin, R. J. G. van Sloun, C. G. A. Viviers + 2 more2026-02-19⚡ eess