HandelBot: Real-World Piano Playing via Fast Adaptation of Dexterous Robot Policies

El artículo presenta HandelBot, un marco que combina una política entrenada en simulación con una adaptación rápida mediante dos etapas (refinamiento estructurado y aprendizaje por refuerzo residual), permitiendo a un robot dextro tocar el piano con precisión bimanual en solo 30 minutos de datos físicos y superando a la implementación directa en simulación en un factor de 1.8x.

Amber Xie, Haozhi Qi, Dorsa Sadigh2026-03-13💻 cs

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

El artículo presenta ELIT, un mecanismo compatible con los transformadores de difusión (DiT) que introduce una interfaz latente elástica para desacoplar el tamaño de la imagen de la carga computacional, permitiendo ajustar dinámicamente la calidad y la latencia mediante un número variable de tokens latentes sin modificar la arquitectura base ni la función de objetivo.

Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov + 6 more2026-03-13💻 cs

DVD: Deterministic Video Depth Estimation with Generative Priors

DVD es un marco innovador que adapta determinísticamente modelos de difusión de video preentrenados para lograr estimación de profundidad de alta precisión en un solo paso, superando las limitaciones de los enfoques existentes mediante un diseño que equilibra estabilidad global y detalles finos, y que alcanza un rendimiento superior sin supervisión utilizando 163 veces menos datos específicos de la tarea.

Hongfei Zhang, Harold Haodong Chen, Chenfei Liao + 12 more2026-03-13💻 cs

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

El artículo presenta AutoGaze, un módulo ligero que elimina redundancias espaciotemporales en videos mediante la selección autoregresiva de parches críticos, logrando una reducción significativa de tokens visuales y acelerando el procesamiento de modelos de lenguaje multimodal para videos largos y de alta resolución, todo ello respaldado por el nuevo benchmark HLVid.

Baifeng Shi, Stephanie Fu, Long Lian + 10 more2026-03-13💻 cs

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

El artículo presenta DreamVideo-Omni, un marco unificado que utiliza un entrenamiento progresivo en dos etapas, combinando inyección jerárquica de movimiento y aprendizaje por refuerzo de identidad latente, para lograr una personalización de video de múltiples sujetos con control preciso sobre la identidad y el movimiento en todas sus escalas.

Yujie Wei, Xinyu Liu, Shiwei Zhang + 12 more2026-03-13💻 cs

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

El artículo presenta Video Streaming Thinking (VST), un nuevo paradigma para modelos de lenguaje de video en línea que permite el razonamiento simultáneo a la visualización mediante un pipeline de entrenamiento post-adaptado y datos sintetizados, logrando una comprensión coherente en tiempo real con una latencia significativamente reducida y un alto rendimiento en benchmarks de streaming y offline.

Yiran Guan, Liang Yin, Dingkang Liang + 5 more2026-03-13💻 cs

Ψ0Ψ_0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

El modelo de fundación abierto Ψ0\Psi_0 logra un rendimiento superior en tareas de locomanipulación de humanoides mediante un paradigma de entrenamiento en dos etapas que decopla el aprendizaje, pre-entrenando en videos humanos egocéntricos de alta calidad y ajustando posteriormente con datos reales de robots, superando así a enfoques anteriores que utilizan volúmenes de datos mucho mayores.

Songlin Wei, Hongyi Jing, Boqian Li + 12 more2026-03-13💻 cs

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Este artículo presenta MM-CondChain, un nuevo benchmark y una tubería de síntesis programáticamente verificable diseñados para evaluar el razonamiento composicional profundo y visualmente fundamentado en modelos de lenguaje multimodal, revelando que incluso los modelos más avanzados enfrentan dificultades significativas en tareas que requieren cadenas de condiciones complejas y ramificadas.

Haozhan Shen, Shilin Yan, Hongwei Xue + 5 more2026-03-13💻 cs

In Pursuit of Many: A Review of Modern Multiple Object Tracking Systems

Esta revisión sintetiza los avances recientes en el seguimiento de múltiples objetos (MOT), abarcando su evolución histórica, las principales arquitecturas modernas como los transformadores y modelos fundacionales, las tendencias en benchmarks y métricas, así como los desafíos prácticos y direcciones futuras para su implementación en el mundo real.

Mk Bashar, Samia Islam, Kashifa Kawaakib Hussain, Md. Bakhtiar Hasan, A. B. M. Ashikur Rahman, Md. Hasanul Kabir2026-03-12💻 cs