DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

El artículo presenta DISPLAY, un marco de generación de videos de interacción humano-objeto que logra un control intuitivo y alta fidelidad mediante una guía de movimiento dispersa (coordenadas de muñeca y cajas delimitadoras de objetos) y una estrategia de entrenamiento auxiliar multi-tarea para superar las limitaciones de flexibilidad y consistencia física de los métodos existentes.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Este artículo presenta un estudio comparativo en ROS de cinco enfoques de localización cooperativa que revela que, aunque StCL y Standard-CL ofrecen la mayor precisión, CI es el método más equilibrado al garantizar consistencia y precisión, mientras que DCL destaca por su estabilidad ante datos atípicos en entornos sin características.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

La segunda edición de la pista de Generación Aumentada por Recuperación (RAG) de TREC 2025 avanza en el desarrollo de sistemas confiables y contextualmente conscientes mediante la introducción de consultas narrativas complejas, el uso del corpus MS MARCO V2.1 y una evaluación multifacética que prioriza la transparencia y la fundamentación factual.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Este trabajo presenta CourtSI, el primer conjunto de datos a gran escala y su correspondiente benchmark para evaluar y mejorar la inteligencia espacial de los modelos de visión y lenguaje en escenarios deportivos, demostrando que el ajuste fino en este dominio cierra la brecha de rendimiento humano-AI y mejora la capacidad de generalización de los modelos.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

El paper presenta WikiCLIP, un marco eficiente y efectivo para el reconocimiento de entidades visuales en dominios abiertos que supera a los métodos generativos existentes al combinar representaciones de entidades enriquecidas por modelos de lenguaje con un adaptador guiado por visión y un mecanismo de síntesis de negativos difíciles, logrando mejoras significativas en rendimiento y reduciendo la latencia de inferencia en casi 100 veces.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

El artículo demuestra que la optimización directa de la distancia de chamfer falla estructuralmente debido a un colapso de muchos a uno causado por gradientes locales, y propone que la introducción de acoplamiento no local, como en deformaciones de base compartida o priores MPM diferenciables, es esencial para suprimir este colapso y lograr una reconstrucción de formas 3D exitosa.

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Este trabajo propone un método interpretable para la recuperación de movimiento a partir de texto que utiliza representaciones de imágenes de ángulos articulares y una interacción tardía token-parche para superar las limitaciones de las representaciones globales y lograr correspondencias finas y precisas entre descripciones lingüísticas y secuencias de movimiento 3D.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Este artículo presenta un marco novedoso de adaptación de dominio no supervisada basado en la discrepancia de disparidad de márgenes (MDD) que mejora la segmentación del hígado en imágenes de tomografía computarizada cónica (CBCT) intervencionista al aprovechar datos anotados de TC, logrando un rendimiento de vanguardia tanto en escenarios no supervisados como de pocos ejemplos.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Este trabajo propone un marco de poda de tokens fundamentado en la geometría de espacios hiperesféricos y la estimación de celdas de Voronoi para reducir la sobrecarga de almacenamiento en modelos de recuperación de interacción tardía como ColBERT, manteniendo al mismo tiempo la calidad de la recuperación y ofreciendo una mayor interpretabilidad.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

Este artículo presenta KDMR, un marco novedoso de reasignación de movimiento cinodinámico que utiliza optimización de trayectorias de cuerpo completo con restricciones de dinámica y contacto para generar locomoción de humanoides físicamente viables, superando las limitaciones de los métodos puramente cinemáticos y mejorando la estabilidad y eficiencia de las políticas de control posteriores.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

ReCoSplat es un modelo de Splatting Gaussiano autoregresivo que utiliza un módulo Render-and-Compare para estabilizar la reconstrucción de escenas ante errores de pose y una estrategia de compresión de caché híbrida para manejar secuencias largas, logrando así un rendimiento superior en la síntesis de nuevas vistas en línea.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

El artículo presenta TiPToP, un sistema modular de código abierto que combina modelos de visión preentrenados con un planificador de tareas y movimientos para resolver tareas de manipulación robótica complejas a partir de imágenes y lenguaje natural, logrando un rendimiento comparable o superior a modelos entrenados con grandes volúmenes de datos de demostración sin requerir datos específicos del robot.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-Pérez2026-03-11💻 cs