VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

El artículo presenta VAUQ, un marco de cuantificación de incertidumbre consciente de la visión para la autoevaluación de Modelos de Lenguaje e Imagen Grandes (LVLM) que, mediante un puntaje de información de imagen y una estrategia de enmascaramiento, ofrece una función de puntuación sin entrenamiento que supera a los métodos existentes al medir la dependencia de la evidencia visual para detectar alucinaciones.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Este artículo presenta UDVideoQA, un nuevo conjunto de datos y benchmark para la respuesta a preguntas en videos de tráfico que, mediante el uso de técnicas de privacidad y una taxonomía de razonamiento jerárquico, evalúa y mejora la capacidad de los modelos de lenguaje visuales para realizar inferencias espaciotemporales complejas en entornos urbanos dinámicos.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Este trabajo presenta SynthRender, un marco de código abierto para generación de imágenes sintéticas con aleatorización de dominio guiada, junto con el conjunto de datos IRIS, demostrando que la combinación de activos 3D creados a partir de imágenes reales y técnicas de transferencia bidireccional Sim-Real permite lograr un alto rendimiento en la percepción de objetos industriales sin necesidad de archivos 3D propietarios ni costosas anotaciones manuales.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

El artículo presenta SPRITETOMESH, una pipeline automática que combina segmentación aprendida y algoritmos de contorno para convertir sprites 2D en mallas triangulares listas para animación esquelética en menos de 3 segundos, superando significativamente el proceso manual y demostrando que la predicción directa de vértices mediante redes neuronales no es viable debido a la naturaleza artística de la colocación de vértices.

Bastien Gimbert2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

El artículo presenta XMorph, un marco de inteligencia artificial explicable y eficiente que combina un mecanismo de normalización de bordes ponderado por información con un módulo dual de IA explicable asistido por LLM para lograr una clasificación precisa (96,0%) y clínicamente interpretable de gliomas, meningiomas y tumores pituitarios.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

El artículo presenta Mask-HybridGNet, un marco de segmentación médica basado en grafos que entrena modelos utilizando únicamente máscaras de píxeles estándar para generar automáticamente correspondencias anatómicas emergentes y mantener la integridad topológica sin necesidad de anotaciones manuales de puntos de referencia.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs

Human Video Generation from a Single Image with 3D Pose and View Control

Este artículo presenta HVG, un modelo de difusión de video latente que genera videos humanos de alta calidad y coherentes en el tiempo y el espacio a partir de una sola imagen, permitiendo el control preciso de la pose 3D y la vista mediante diseños clave como la modulación de pose articulada, la alineación de vista y temporal, y el muestreo progresivo espaciotemporal.

Tiantian Wang, Chun-Han Yao, Tao Hu + 3 more2026-02-25💻 cs