Towards Exploratory and Focused Manipulation with Bimanual Active Perception: A New Problem, Benchmark and Strategy

Este trabajo presenta el nuevo problema de Manipulación Exploratoria y Enfocada (EFM), junto con el benchmark EFM-10 y la estrategia de Percepción Activa Bimanual (BAP), para abordar la falta de información visual en tareas de manipulación complejas mediante la recolección activa de datos y el aprendizaje por imitación.

Yuxin He, Ruihao Zhang, Tianao Shen + 2 more2026-03-06💻 cs

Viewpoint Matters: Dynamically Optimizing Viewpoints with Masked Autoencoder for Visual Manipulation

El artículo presenta MAE-Select, un marco novedoso que optimiza dinámicamente la selección de puntos de vista en sistemas robóticos de cámara única mediante representaciones de autoencoders enmascarados preentrenados, superando las limitaciones de las configuraciones fijas y, en algunos casos, igualando o excediendo el rendimiento de los sistemas multicámara.

Pengfei Yi, Yifan Han, Junyan Li + 2 more2026-03-06💻 cs

Scout-Rover cooperation: online terrain strength mapping and traversal risk estimation for planetary-analog explorations

Este artículo presenta un marco de cooperación entre un robot scout de patas y un rover sobre ruedas que utiliza la interacción locomotora del scout para mapear en línea la resistencia del terreno y estimar el riesgo de tránsito, permitiendo una navegación segura y eficiente en entornos planetarios deformables como dunas y cráteres.

Shipeng Liu, J. Diego Caporale, Yifeng Zhang + 17 more2026-03-06💻 cs

Interpretable Multimodal Gesture Recognition for Drone and Mobile Robot Teleoperation via Log-Likelihood Ratio Fusion

Este artículo presenta un marco de reconocimiento de gestos multimodal interpretable que fusiona datos inerciales y capacitivos mediante una razón de verosimilitud logarítmica para lograr una teleoperación robusta y eficiente de drones y robots móviles, superando las limitaciones de los métodos basados en visión.

Seungyeol Baek, Jaspreet Singh, Lala Shakti Swarup Ray + 3 more2026-03-06💻 cs

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

El marco Act-Observe-Rewrite (AOR) demuestra que un agente multimodal basado en un modelo de lenguaje puede aprender a manipular objetos físicos mediante la síntesis y reescritura iterativa de código de control ejecutable guiado por observaciones visuales, logrando altas tasas de éxito en tareas robóticas sin necesidad de demostraciones, ingeniería de recompensas o actualizaciones de gradiente.

Vaishak Kumar2026-03-06💻 cs

Efficient Autonomous Navigation of a Quadruped Robot in Underground Mines on Edge Hardware

Este artículo presenta un sistema de navegación autónoma totalmente funcional para un robot cuadrúpedo en minas subterráneas que opera sin GPU ni conectividad de red, logrando una tasa de éxito del 100% en pruebas de campo mediante la integración de odometría LiDAR-inercial, planificación de caminos y control en tiempo real en hardware de borde de bajo consumo.

Yixiang Gao, Kwame Awuah-Offei2026-03-06💻 cs

PTLD: Sim-to-real Privileged Tactile Latent Distillation for Dexterous Manipulation

El artículo presenta PTLD, un enfoque novedoso de destilación de latentes táctiles privilegiados que permite aprender habilidades de manipulación dextra en el mundo real sin necesidad de simular sensores táctiles, logrando mejoras significativas en tareas de reorientación de objetos en comparación con políticas que solo utilizan la propiocepción.

Rosy Chen, Mustafa Mukadam, Michael Kaess + 4 more2026-03-06💻 cs