cs.RO artículos | Gist.Science

Fine-Tuning Robot Policies While Maintaining User Privacy

Este artículo presenta PRoP, un marco agnóstico al modelo que permite a los robots personalizar sus políticas mediante claves únicas para transformar los pesos de la red, garantizando así que las preferencias del usuario permanezcan privadas frente a agentes externos sin alterar la arquitectura original.

Benjamin A. Christie, Sagar Parekh, Dylan P. Losey2026-03-05💻 cs

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

Los autores presentan un solucionador local rápido y con certificado de optimalidad global para la estimación de forma y pose de objetos a nivel de categoría, el cual utiliza un modelo de forma activa lineal y un método de iteración de campo autoconsistente para resolver el problema en menos de un milisegundo.

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

RehearseVLA: Simulated Post-Training for VLAs with Physically-Consistent World Model

El artículo presenta RehearseVLA, un marco de post-entrenamiento basado en aprendizaje por refuerzo que utiliza un simulador de mundo virtual físicamente consistente y un reflejo instantáneo guiado por modelos de visión-lingüística para superar las limitaciones de datos, seguridad y eficiencia en el entrenamiento de modelos Visión-Lenguaje-Acción en entornos reales.

Junjin Xiao, Yandan Yang, Xinyuan Chang + 5 more2026-03-05💻 cs

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

El artículo presenta ELMUR, una arquitectura de transformador con memoria externa estructurada que supera las limitaciones de los modelos actuales al permitir a los agentes robóticos retener y aprovechar dependencias a largo plazo en entornos parcialmente observables, logrando un rendimiento superior en tareas de manipulación y navegación de horizonte extenso.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

El artículo presenta TIGeR, un marco innovador que transforma los Modelos Visuales-Lingüísticos en "computadoras geométricas" mediante la integración de herramientas de cálculo externo y un nuevo dataset, logrando así una precisión a nivel de centímetro esencial para la manipulación robótica en el mundo real.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments

LaViRA es un marco de navegación visión-lenguaje en entornos continuos (VLN-CE) de cero disparos que supera las limitaciones de generalización y razonamiento de los métodos actuales mediante una jerarquía de acciones de coarse-to-fine que integra la planificación lingüística, el anclaje perceptivo visual y el control robótico utilizando modelos de lenguaje multimodal de diferentes escalas.

Hongyu Ding, Ziming Xu, Yudong Fang + 6 more2026-03-05💻 cs

SoraNav: Adaptive UAV Task-Centric Navigation via Zeroshot VLM Reasoning

El artículo presenta SoraNav, un marco innovador que permite la navegación autónoma de drones basada en instrucciones de lenguaje natural mediante el razonamiento de modelos visuales-lingüísticos cero-shot, superando las limitaciones espaciales y semánticas actuales mediante anotaciones visuales multimodales y una estrategia de toma de decisiones adaptativa que mejora significativamente el éxito y la eficiencia en entornos 3D complejos.

Hongyu Song, Rishabh Dev Yadav, Cheng Guo + 1 more2026-03-05💻 cs

Dynamic-ICP: Doppler-Aware Iterative Closest Point Registration for Dynamic Scenes

El artículo presenta Dynamic-ICP, un marco de registro basado en ICP que aprovecha las velocidades Doppler de los puntos individuales para estimar el movimiento del vehículo, filtrar objetos dinámicos y alinear escaneos de LiDAR FMCW en entornos altamente dinámicos, logrando una mayor estabilidad y precisión sin necesidad de sensores externos.

Dong Wang, Daniel Casado Herraez, Stefan May + 1 more2026-03-05💻 cs

Metric, inertially aligned monocular state estimation via kinetodynamic priors

Este artículo presenta un método de estimación de estado monocular que extiende las técnicas de cuerpos rígidos a sistemas robóticos flexibles mediante la integración de modelos cinetodinámicos y curvas B-spline, logrando así una estimación de pose robusta y la recuperación de la escala métrica y la gravedad.

Jiaxin Liu, Min Li, Wanting Xu + 3 more2026-03-05💻 cs

CERNet: Class-Embedding Predictive-Coding RNN for Unified Robot Motion, Recognition, and Confidence Estimation

Este artículo presenta CERNet, un modelo unificado basado en redes neuronales recurrentes de codificación predictiva que permite a los robots generar movimientos, reconocer intenciones en tiempo real y estimar la confianza de sus inferencias mediante un vector de incrustación de clase dinámico.

Hiroki Sawada, Alexandre Pitti, Mathias Quoy2026-03-05💻 cs

Agile Flight Emerges from Multi-Agent Competitive Racing

Este trabajo demuestra que la competencia multiagente con recompensas esparsas de victoria genera políticas de vuelo ágil y estratégicas que superan a los métodos de entrenamiento individual en simulación, logrando una transferencia más fiable al mundo real y una mayor generalización ante oponentes no vistos.

Vineet Pasumarti, Lorenzo Bianchi, Antonio Loquercio2026-03-05🤖 cs.AI

TOLEBI: Learning Fault-Tolerant Bipedal Locomotion via Online Status Estimation and Fallibility Rewards

Este artículo presenta TOLEBI, un marco de aprendizaje basado en refuerzo que permite la locomoción bípeda tolerante a fallos mediante la estimación en línea del estado de las articulaciones y recompensas por falibilidad, validado tanto en simulación como en el robot humanoide real TOCABI.

Hokyun Lee, Woo-Jeong Baek, Junhyeok Cha + 1 more2026-03-05💻 cs

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

Este trabajo presenta un sistema de manipulación aérea totalmente autónomo que integra percepción a bordo mejorada y control híbrido para realizar tareas de contacto precisas sin depender de sistemas de captura de movimiento externos.

Yuanzhu Zhan, Yufei Jiang, Muqing Cao + 1 more2026-03-05💻 cs

H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

El artículo presenta H-WM, un modelo de mundo jerárquico que unifica la predicción de estados lógicos y visuales para guiar la planificación de tareas y movimientos en robótica, mejorando la robustez y reduciendo la acumulación de errores en secuencias de tareas a largo plazo.

Jinbang Huang, Wenyuan Chen, Zhiyuan Li + 9 more2026-03-05💻 cs

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

El artículo presenta PhysMem, un marco de memoria que permite a los planificadores de robots basados en modelos visuales-lingüísticos aprender principios físicos mediante la interacción en tiempo de prueba mediante la generación y verificación de hipótesis antes de su aplicación, mejorando significativamente el éxito en tareas de manipulación sin actualizar los parámetros del modelo.

Haoyang Li, Yang You, Hao Su + 1 more2026-03-05🤖 cs.AI

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

FlowCorrect es un enfoque modular de aprendizaje por imitación que permite la adaptación interactiva y eficiente de políticas de manipulación generativas en tiempo de despliegue mediante correcciones humanas esparsas, logrando una alta tasa de éxito en tareas de robótica real sin necesidad de reentrenar el modelo base.

Edgar Welte, Yitian Shi, Rosa Wolf + 2 more2026-03-05🤖 cs.LG

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics

Este artículo presenta LiteVLA-Edge, un pipeline de modelos de Visión-Lenguaje-Acción optimizado para inferencia totalmente local en hardware embebido mediante cuantización y aceleración GPU, logrando una latencia de 150,5 ms que demuestra la viabilidad del control reactivo condicionado por lenguaje en robótica integrada.

Justin Williams, Kishor Datta Gupta, Roy George + 1 more2026-03-05🤖 cs.AI

Multi-Agent-Based Simulation of Archaeological Mobility in Uneven Landscapes

Este artículo presenta un marco de simulación basado en agentes múltiples que integra datos topográficos reales y aprendizaje por refuerzo para modelar la movilidad arqueológica en terrenos irregulares, permitiendo analizar cómo la morfología del paisaje y la heterogeneidad de los agentes influyen en las estrategias de transporte y movimiento del pasado.

Chairi Kiourt, Vassilis Evangelidis, Dimitris Grigoropoulos2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

El artículo presenta Phys4D, un pipeline de tres etapas que transforma modelos de difusión de video en representaciones 4D consistentes con la física mediante preentrenamiento, ajuste fino supervisado y aprendizaje por refuerzo, logrando una mayor coherencia física y temporal sin sacrificar el rendimiento generativo.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Real-time loosely coupled GNSS and IMU integration via Factor Graph Optimization

Este artículo propone una arquitectura de integración en tiempo real y acoplamiento suelto entre GNSS e IMU mediante Optimización de Grafos de Factores, demostrando en entornos urbanos que, aunque se sacrifica ligeramente la precisión de posicionamiento, se logra una mayor disponibilidad del servicio y eficiencia computacional en comparación con los métodos por lotes.

Radu-Andrei Cioaca, Cristian Rusu, Paul Irofti + 3 more2026-03-05🤖 cs.LG

← Anterior Siguiente →