SGG-R3^{\rm 3}: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

El paper presenta SGG-R³, un marco de razonamiento estructurado que combina ajuste fino supervisado con aprendizaje por refuerzo y optimización de políticas de secuencia grupal para generar gráficos de escena completos y sin sesgos, abordando eficazmente la dispersión de relaciones y las distribuciones de cola larga mediante estrategias de aumento de relaciones y un esquema de recompensa de doble granularidad.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Este trabajo presenta EcoG-Bench, un nuevo diagnóstico bilingüe y egocéntrico que evalúa la capacidad de los modelos de lenguaje multimodales para vincular el habla con gestos deícticos en el tiempo y el espacio, revelando una brecha significativa entre el rendimiento humano y el de las IA debido a limitaciones en las interfaces multimodales actuales.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

Este artículo presenta un marco de seguimiento de instrumentos quirúrgicos independiente del dispositivo que fusiona múltiples modalidades de detección en un grafo de escena dinámico para mantener la precisión y la visualización de realidad aumentada incluso en entornos de quirófano con frecuentes oclusiones.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

El artículo presenta AutoReg3D, un detector de objetos 3D basado en LiDAR que reformula la detección como generación de secuencias mediante un enfoque autoregresivo de orden causal (de cerca a lejos), eliminando la necesidad de componentes manuales como anclajes y supresión no máxima (NMS) mientras habilita la integración de avances en modelos de lenguaje para la percepción 3D.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

El artículo presenta ViSA, un marco mejorado para la navegación aérea visión-lenguaje que utiliza un razonamiento visual-espacial de tres fases para permitir que los modelos de lenguaje visual realicen inferencias directas en planos de imagen sin entrenamiento adicional, logrando una mejora del 70,3% en la tasa de éxito frente a los métodos actuales.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Este artículo presenta TickTockVQA, un nuevo conjunto de datos anotado por humanos con relojes analógicos en escenarios reales, junto con un marco de ajuste fino llamado Swap-DPO, para abordar las deficiencias actuales de los modelos de visión-lingüística en la lectura precisa de relojes y el razonamiento espacial-temporal.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

Este artículo presenta un marco de fusión de imágenes guiado por diccionarios que, mediante el aprendizaje de una representación compartida y la inferencia en el dominio de coeficientes, genera información infrarroja faltante a partir de imágenes visibles para mejorar la calidad perceptual y el rendimiento de detección sin recurrir a la generación en el espacio de píxeles.

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Este artículo presenta MambaDance, un nuevo enfoque de generación de danza que sustituye a los transformadores por un modelo de difusión basado en Mamba e incorpora una representación de ritmo basada en Gaussianas para producir movimientos sincronizados con la música que capturan eficazmente las características secuenciales y rítmicas del baile.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Este trabajo propone un marco en cascada de dos etapas que genera videos de movimientos humanos complejos a partir de descripciones de texto mediante un modelo autoregresivo texto-huesos y un modelo de difusión video-huesos con DINO-ALF, complementado con un nuevo dataset sintético para superar las limitaciones actuales en la generación de acrobacias y movimientos dinámicos.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

El artículo presenta QualiTeacher, un marco innovador que transforma las pseudo-etiquetas imperfectas en señales de supervisión condicionadas a la calidad, permitiendo que los modelos de restauración de imágenes aprendan un manifold graduado que evita artefactos y supera la calidad de sus propias etiquetas.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este trabajo presenta un marco multimodal robusto basado en Transformers con atención cruzada segura y dropout de modalidades, que combina pérdidas focales y votación suave por ventanas deslizantes para superar los desafíos de oclusiones, datos faltantes y desequilibrio de clases en el reconocimiento de emociones del desafío ABAW, logrando un 60,79 % de precisión en el conjunto de validación Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

El artículo presenta "See & Switch", un marco interactivo de programación robótica que utiliza percepción visual para seleccionar dinámicamente ramas en gráficos de tareas y detectar contextos anómalos, logrando una alta precisión en la ejecución y recuperación de habilidades dexterosas sin depender de señales manuales o de baja dimensión.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Este artículo presenta una arquitectura de clasificación innovadora impulsada por un Modelo de Lenguaje y Visión Grande (LVLM) que mejora la geolocalización de imágenes de drones mediante el modelado relacional conjunto y una función de pérdida consciente de las relaciones, logrando así una precisión de recuperación superior al capturar correlaciones visuales y semánticas profundas entre las vistas aéreas y satelitales.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

Evaluating Generative Models via One-Dimensional Code Distributions

Este trabajo propone métricas de evaluación basadas en tokens visuales discretos, como la Distancia de Histograma del Libro de Códigos (CHD) y la Puntuación del Modelo de Mezcla de Códigos (CMMS), junto con el benchmark VisForm, para superar las limitaciones de las métricas tradicionales y lograr una correlación superior con los juicios humanos sobre la calidad perceptual de los modelos generativos.

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs