ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

El artículo presenta ULTRA, un marco unificado que combina un algoritmo de reorientación neural impulsado por física y un controlador multimodal para permitir que los humanoides realicen locomoción y manipulación coordinadas de todo el cuerpo de forma autónoma a partir de especificaciones de tareas escasas y percepción visual egocéntrica, superando las limitaciones de los métodos tradicionales que dependen de referencias de movimiento predefinidas.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

MIBURI: Towards Expressive Interactive Gesture Synthesis

El artículo presenta MIBURI, un marco causal en línea pionero que genera gestos corporales completos y expresiones faciales sincronizadas en tiempo real para agentes conversacionales, superando las limitaciones de rigidez y latencia de las soluciones existentes mediante el uso de codecs de movimiento jerárquicos y una generación autoregresiva basada en embeddings de lenguaje.

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

Towards Accurate One-Stage Object Detection with AP-Loss

Este artículo propone un nuevo marco para la detección de objetos en una sola etapa que reemplaza la tarea de clasificación por una de clasificación de ordenamiento utilizando la pérdida de precisión media (AP-loss), combinada con un algoritmo de optimización novedoso que supera las dificultades de no diferenciabilidad y no convexidad, logrando así mejoras significativas en el rendimiento sin alterar las arquitecturas de red existentes.

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

Este artículo propone un marco novedoso para la detección de objetos en una sola etapa que reemplaza la tarea de clasificación por una de clasificación de ordenamiento utilizando la pérdida de Precisión Media (AP-loss), la cual se optimiza mediante un algoritmo híbrido que combina el aprendizaje del perceptrón y la retropropagación para mitigar el desequilibrio entre clases y lograr un rendimiento superior al estado del arte.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

Este trabajo presenta RFAConv, una nueva convolución de atención que aborda las limitaciones de los mecanismos de atención espacial existentes al priorizar las características del campo receptivo para optimizar el intercambio de parámetros en kernels grandes, logrando mejoras significativas en el rendimiento de las redes neuronales con un costo computacional casi nulo.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Velocity Disambiguation for Video Frame Interpolation

Este artículo propone un método de interpolación de video que mejora la calidad de los fotogramas generados al sustituir la indexación temporal implícita por una indexación de distancia explícita y una estrategia de estimación iterativa, lo que permite disambiguar movimientos complejos, reducir el desenfoque y habilitar la manipulación temporal independiente de objetos para tareas de edición.

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Este trabajo propone un modelo causal parcial latente para datos multimodales que supera las limitaciones de los grafos acíclicos dirigidos, demostrando teóricamente que el aprendizaje contrastivo multimodal (MMCL) descubre variables latentes acopladas identificables y validando empíricamente que estas representaciones disociadas mejoran el aprendizaje con pocos ejemplos y la generalización de dominio en modelos preentrenados como CLIP.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

El artículo presenta PO-GUISE+, un transformador de video multi-tarea que optimiza la eficiencia computacional para el reconocimiento de acciones de conducción distraída mediante la selección de tokens guiada por la pose y los objetos, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos y plataformas embebidas.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs