cs.RO artículos | Gist.Science

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

El artículo presenta EgoDex, el conjunto de datos más grande y diverso hasta la fecha de manipulación hábil humana grabada con visión egocéntrica mediante Apple Vision Pro, que incluye 829 horas de video con anotaciones de pose de manos en 3D para 194 tareas cotidianas, con el objetivo de abordar la escasez de datos en el aprendizaje por imitación y fomentar avances en robótica y visión por computadora.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

El artículo presenta ViTaPEs, una arquitectura basada en transformadores que introduce un mecanismo de inyección posicional en dos etapas (local y global) para alinear eficazmente las modalidades visual y táctil, logrando un rendimiento superior en tareas de reconocimiento y generalización cero en escenarios no vistos sin depender de modelos preentrenados.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

El artículo presenta ActivePusher, un marco novedoso que combina modelado de física residual y aprendizaje activo basado en incertidumbre para mejorar la eficiencia de los datos y la fiabilidad de la planificación en tareas de manipulación no prensil, como el empuje, tanto en simulación como en entornos reales.

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos Chamzas2026-03-10🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

DemoDiffusion es un método que permite a los robots imitar tareas de manipulación a partir de una sola demostración humana, combinando la reasignación cinemática de la trayectoria con una política de difusión preentrenada para adaptar el movimiento al contexto robótico sin necesidad de datos emparejados ni entrenamiento específico.

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani2026-03-10🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

El artículo propone un método de verificación auto-ancorada (SGV) que mitiga el sesgo de acuerdo en los modelos de lenguaje multimodal (MLLM), mejorando significativamente la detección de errores y el rendimiento de agentes autónomos en tareas complejas como la navegación web y la robótica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers

Este trabajo mejora la resiliencia de los cuadricópteros en entornos subterráneos al combinar un controlador basado en aprendizaje con uno de seguridad, utilizando un monitor en tiempo real que detecta situaciones fuera de distribución para alternar entre ambos y garantizar así tanto la rapidez en la navegación como la prevención de colisiones.

Isaac Ronald Ward, Mark Paral, Kristopher Riordan + 1 more2026-03-10⚡ eess

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Este estudio presenta un sistema innovador basado en visión por computadora que clasifica la distracción y el deterioro de los conductores mediante la observación externa, utilizando detección de objetos y análisis de trayectoria para identificar comportamientos inseguros sin depender de la comunicación entre vehículos.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Este trabajo propone un método de aprendizaje basado en hiperredes y análisis de alcanzabilidad Hamilton-Jacobi para generar funciones de barrera neuronal condicionadas a la observación que recuperan aproximadamente los conjuntos seguros máximos, garantizan que el conjunto seguro no intersecte con el conjunto de fallos observado y demuestran una mayor tasa de éxito y generalización en robots terrestres y cuadricópteros frente a métodos basales.

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Este artículo presenta FINS, un marco ligero que reconstruye superficies implícitas y campos de distancia firmes a partir de una sola imagen en segundos, superando a los métodos actuales en velocidad y precisión para aplicaciones de generación de movimiento en robótica.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

El artículo presenta CroSTAta, un transformador que utiliza un mecanismo de atención a transiciones de estado cruzadas para mejorar la robustez y el rendimiento en la manipulación robótica al modelar explícitamente patrones temporales como fallos y recuperaciones, superando significativamente a los métodos de atención estándar y redes recurrentes.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Este trabajo propone un paradigma de preentrenamiento basado en un modelo inverso de dinámica propioceptiva entrenado con datos de exploración agnósticos a la tarea para inicializar redes actor-crítico, logrando mejoras significativas en la eficiencia de muestras y el rendimiento en diversas tareas de locomoción robótica en comparación con la inicialización aleatoria.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

Vectorized Online POMDP Planning

Este artículo presenta VOPP, un planificador en línea de POMDP vectorizado que aprovecha la paralelización masiva mediante computaciones totalmente vectorizadas para eliminar cuellos de botella de sincronización, logrando una eficiencia de cálculo 20 veces superior a los solvers paralelos existentes y superando a los solvers secuenciales con un presupuesto de planificación 1000 veces menor.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

Este trabajo presenta el modelo FlyGM, que utiliza la arquitectura exacta del conectoma cerebral de una mosca de la fruta para controlar el movimiento corporal completo mediante aprendizaje por refuerzo, demostrando una mayor eficiencia y rendimiento en comparación con arquitecturas neuronales aleatorias o estándar.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan Sui2026-03-10🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

El artículo presenta TimeSpot, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para inferir atributos geográficos y temporales a partir de imágenes del mundo real, revelando que, aunque el ajuste fino mejora los resultados, los modelos actuales aún carecen de un razonamiento geo-temporal robusto y físicamente fundamentado.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

Este artículo presenta un marco robusto de detección de un solo disparo para volantes de bádminton en robots móviles, que incluye un nuevo conjunto de datos anotado semi-automáticamente y un modelo YOLOv8 optimizado para funcionar eficazmente en entornos dinámicos y egocéntricos.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Este artículo presenta el "kiri-spoon", un utensilio de alimentación basado en un diseño de pivote tipo tenaza que, gracias a su estructura modular y adaptable, permite tanto a personas con temblores esenciales o Parkinson como a robots agarrar y transportar alimentos de forma segura para prevenir derrames.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. Losey2026-03-10💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Este artículo presenta un enfoque de planificación jerárquica que combina datos de satélites geoestacionarios para la visión a largo plazo con sensores a bordo para el refinamiento a corto plazo, logrando mejorar el rendimiento de la orientación dinámica de observaciones satelitales hasta en un 41% en escenarios con objetivos dispersos.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Este artículo presenta un enfoque de aprendizaje por refuerzo que extiende el rango operativo seguro de la navegación neuronal en multitudes densas mediante un codificado de observación invariante a la densidad y una recompensa informada por la física, logrando una generalización cero-shot que supera tanto el bloqueo de los métodos analíticos como las colisiones de los métodos basados en aprendizaje existentes.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

El artículo propone un marco de generación con restricciones que ajusta finamente modelos generativos preentrenados para producir muestras realistas dentro de regiones factibles complejas, logrando un nuevo equilibrio entre el cumplimiento de las restricciones y la calidad de la generación.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank Wood2026-03-10🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Esta encuesta presenta un marco de evaluación exhaustivo que, al analizar cientos de modelos fundamentales robóticos, revela que su madurez industrial es actualmente limitada y desigual, destacando la necesidad de integrar sistemáticamente la seguridad, la viabilidad en tiempo real y la robustez en pilas de despliegue audibles para lograr una adopción exitosa.

David Kube, Simon Hadwiger, Tobias Meisen2026-03-10💻 cs

← Anterior Siguiente →