EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

El artículo presenta EgoDex, el conjunto de datos más grande y diverso hasta la fecha de manipulación hábil humana grabada con visión egocéntrica mediante Apple Vision Pro, que incluye 829 horas de video con anotaciones de pose de manos en 3D para 194 tareas cotidianas, con el objetivo de abordar la escasez de datos en el aprendizaje por imitación y fomentar avances en robótica y visión por computadora.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

El artículo presenta ViTaPEs, una arquitectura basada en transformadores que introduce un mecanismo de inyección posicional en dos etapas (local y global) para alinear eficazmente las modalidades visual y táctil, logrando un rendimiento superior en tareas de reconocimiento y generalización cero en escenarios no vistos sin depender de modelos preentrenados.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers

Este trabajo mejora la resiliencia de los cuadricópteros en entornos subterráneos al combinar un controlador basado en aprendizaje con uno de seguridad, utilizando un monitor en tiempo real que detecta situaciones fuera de distribución para alternar entre ambos y garantizar así tanto la rapidez en la navegación como la prevención de colisiones.

Isaac Ronald Ward, Mark Paral, Kristopher Riordan + 1 more2026-03-10⚡ eess

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Este trabajo propone un método de aprendizaje basado en hiperredes y análisis de alcanzabilidad Hamilton-Jacobi para generar funciones de barrera neuronal condicionadas a la observación que recuperan aproximadamente los conjuntos seguros máximos, garantizan que el conjunto seguro no intersecte con el conjunto de fallos observado y demuestran una mayor tasa de éxito y generalización en robots terrestres y cuadricópteros frente a métodos basales.

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

El artículo presenta CroSTAta, un transformador que utiliza un mecanismo de atención a transiciones de estado cruzadas para mejorar la robustez y el rendimiento en la manipulación robótica al modelar explícitamente patrones temporales como fallos y recuperaciones, superando significativamente a los métodos de atención estándar y redes recurrentes.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Este trabajo propone un paradigma de preentrenamiento basado en un modelo inverso de dinámica propioceptiva entrenado con datos de exploración agnósticos a la tarea para inicializar redes actor-crítico, logrando mejoras significativas en la eficiencia de muestras y el rendimiento en diversas tareas de locomoción robótica en comparación con la inicialización aleatoria.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

El artículo presenta TimeSpot, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para inferir atributos geográficos y temporales a partir de imágenes del mundo real, revelando que, aunque el ajuste fino mejora los resultados, los modelos actuales aún carecen de un razonamiento geo-temporal robusto y físicamente fundamentado.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Este artículo presenta un enfoque de planificación jerárquica que combina datos de satélites geoestacionarios para la visión a largo plazo con sensores a bordo para el refinamiento a corto plazo, logrando mejorar el rendimiento de la orientación dinámica de observaciones satelitales hasta en un 41% en escenarios con objetivos dispersos.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Este artículo presenta un enfoque de aprendizaje por refuerzo que extiende el rango operativo seguro de la navegación neuronal en multitudes densas mediante un codificado de observación invariante a la densidad y una recompensa informada por la física, logrando una generalización cero-shot que supera tanto el bloqueo de los métodos analíticos como las colisiones de los métodos basados en aprendizaje existentes.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Esta encuesta presenta un marco de evaluación exhaustivo que, al analizar cientos de modelos fundamentales robóticos, revela que su madurez industrial es actualmente limitada y desigual, destacando la necesidad de integrar sistemáticamente la seguridad, la viabilidad en tiempo real y la robustez en pilas de despliegue audibles para lograr una adopción exitosa.

David Kube, Simon Hadwiger, Tobias Meisen2026-03-10💻 cs