Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Este artículo presenta ICBench, un nuevo benchmark para diagnosticar la "ceguera lingüística" en modelos VLA que priorizan la visión sobre las instrucciones, y propone IGAR, un mecanismo de recalibración de atención sin entrenamiento que restaura la alineación lingüística y mejora la fiabilidad de los robots ante instrucciones contradictorias.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

MOSIV: Multi-Object System Identification from Videos

Este artículo presenta MOSIV, un nuevo marco que identifica parámetros de materiales continuos para múltiples objetos en videos mediante un simulador diferenciable y objetivos geométricos, superando a los métodos anteriores en precisión y fidelidad de simulación a largo plazo.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

El artículo presenta StruVis, un marco innovador que mejora la generación de imágenes a partir de texto mediante el razonamiento basado en representaciones visuales estructuradas en formato textual, superando las limitaciones de los enfoques existentes al ofrecer una guía visual eficiente y agnóstica al generador.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

El artículo presenta Occlusion-Aware SORT (OA-SORT), un marco de seguimiento multiobjeto libre de entrenamiento y fácil de integrar que aborda la confusión posicional causada por oclusiones parciales mediante módulos específicos para analizar el estado de oclusión y estabilizar las estimaciones, logrando mejoras significativas en diversos conjuntos de datos.

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

El artículo presenta GvU, un marco de aprendizaje por refuerzo auto-supervisado que utiliza la capacidad de comprensión interna de los modelos multimodales unificados como recompensa intrínseca para cerrar la brecha entre su comprensión visual y su generación de imágenes.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

El artículo presenta GenHOI, una ligera mejora para modelos de generación de video preentrenados que utiliza la inyección de objetos equilibrada temporalmente y selectiva espacialmente para lograr interacciones mano-objeto físicamente plausibles y consistentes en escenas complejas del mundo real.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

El artículo presenta Curious-VLA, un marco de dos etapas que supera las limitaciones de políticas estrechas en los modelos VLA de conducción mediante la expansión de trayectorias factibles y un muestreo adaptativo, logrando así resultados de vanguardia en el benchmark Navsim al desbloquear el potencial exploratorio del aprendizaje por refuerzo.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Este estudio analiza las activaciones intermedias de modelos visión-lenguaje ligeros para identificar que sus fallos en escenarios de conducción autónoma se deben tanto a la falta de codificación lineal de ciertos conceptos visuales (fallo perceptual) como a la incapacidad de alinear la información visual presente con la semántica lingüística (fallo cognitivo), revelando además que la distancia del objeto degrada rápidamente la separabilidad de estos conceptos.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

Este trabajo presenta un pipeline que transforma registros históricos omnidireccionales de RGB y LiDAR en inicializaciones robustas para la representación 3D mediante Gaussian Splatting, superando desafíos de distorsión y sobrecarga computacional mediante conversión a cubemap, muestreo estratificado y registro global para generar gemelos digitales de alta fidelidad.

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

Este artículo propone la tarea de generación de rostros parlantes emocionalmente continuos (EC-TFG) y presenta el modelo TIE-TFG, que utiliza modelado de fluctuación emocional temporalmente intensiva para sintetizar videos realistas donde las expresiones faciales cambian de manera fluida y natural en sincronía con un texto y una descripción emocional variable.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

DeepSight es el primer modelo de lenguaje multimodal dedicado a la comprensión de escenas en 3D que supera las limitaciones de los enfoques actuales al utilizar mapas de profundidad monocromáticos, un nuevo conjunto de datos instruido por IA y un codificador ViT modificado para mejorar significativamente el razonamiento espacial y la percepción de profundidad.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

El artículo presenta FedARKS, un nuevo marco de aprendizaje federado para la reidentificación de personas que supera las limitaciones de los métodos actuales mediante la selección e integración de conocimiento robusto y discriminativo, permitiendo capturar detalles locales invariantes al dominio y ponderar la contribución de los clientes según su calidad para mejorar la generalización y proteger la privacidad.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs