cs.RO artículos | Gist.Science

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

El artículo presenta GST-VLA, un modelo de visión-lenguaje-acción que mejora la percepción geométrica y el razonamiento espacial mediante un tokenizador de Gaussiana 3D y un proceso de pensamiento encadenado consciente de la profundidad, logrando un rendimiento superior en tareas de manipulación robótica.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties

Este artículo propone un marco de planificación de movimiento con límites de riesgo que integra un operador de Koopman estocástico profundo, verificación jerárquica mediante programación de sumas de cuadrados y un controlador MPPI para generar trayectorias seguras y eficientes en manipuladores robóticos que operan bajo incertidumbres no gaussianas y entornos no convexos.

Fei Meng, Zijiang Yang, Xinyu Mao, Haobo Liang, Max Q. -H. MengWed, 11 Ma💻 cs

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Este artículo propone un marco unificado y una taxonomía para los modelos de mundo latentes en la conducción automatizada que organizan las representaciones latentes y los mecanismos internos, estableciendo directrices de evaluación y desafíos de investigación para lograr sistemas más robustos, generalizables y eficientes.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

El artículo presenta PM-Nav, un marco de navegación guiado por mapas previos que transforma entornos en mapas semánticos y utiliza un razonamiento jerárquico para superar los desafíos de navegación en edificios funcionales, logrando mejoras significativas en comparación con métodos existentes tanto en simulación como en el mundo real.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

El artículo presenta DexHiL, un marco innovador de aprendizaje con intervención humana que integra el control del brazo y la mano para el post-entrenamiento de modelos Visión-Lenguaje-Acción, logrando una mejora significativa del 25% en las tasas de éxito de manipulación diestra en comparación con métodos de ajuste fino tradicionales.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

Walking on Rough Terrain with Any Number of Legs

Este artículo presenta una arquitectura de control computacionalmente eficiente y adaptable para robots multi-patas con seis o más extremidades que navegan terrenos irregulares, la cual combina la estabilidad mecánica con estados de máquina segmentales acoplados para generar locomoción tanto en contacto con el suelo como en ausencia del mismo.

Zhuoyang Chen, Xinyuan Wang, Shai RevzenWed, 11 Ma💻 cs

SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation

SPAN-Nav es un modelo fundacional de extremo a extremo que mejora la navegación visión-idioma mediante la inyección de conciencia espacial 3D universal en el razonamiento de acciones, utilizando un token espacial compacto y un conjunto de datos masivo para lograr un rendimiento superior y una generalización robusta en diversos entornos.

Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

El documento presenta ZeroWBC, un marco innovador que permite a los humanoides aprender control visuomotor natural directamente de videos en primera persona sin necesidad de costosos datos de teleoperación, superando las limitaciones de movimientos rígidos y logrando una interacción versátil en entornos reales.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

Este trabajo presenta STONE, un conjunto de datos multi-modal a gran escala para la navegación de robots fuera de carretera que ofrece mapas de travesabilidad 3D generados automáticamente y percepciones sincronizadas de LiDAR, cámaras y radares para diversos entornos, estableciendo además un nuevo estándar de referencia para la predicción de travesabilidad.

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won ChoiWed, 11 Ma💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

Este artículo presenta un marco de planificación de movimiento robusto para carreras autónomas multiagente que combina la identificación de brechas topológicas mediante GPs estocásticos y un MPC acelerado con un solver PTC, logrando una mejora significativa en tiempos de maniobra, tasas de adelantamiento y latencia computacional en la plataforma F1TENTH.

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei XieWed, 11 Ma💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

El artículo presenta WESPR, un marco de trabajo rápido que integra la percepción geométrica y datos meteorológicos para predecir campos de viento locales y adaptar la planificación de trayectorias y el control de drones en tiempo real, logrando mejoras significativas en la estabilidad y precisión de vuelo frente a condiciones turbulentas.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap TokekarWed, 11 Ma💻 cs

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Este trabajo presenta un marco de simulación escalable basado en un modelo musculoesquelético completo y controlado por aprendizaje por refuerzo que permite el análisis cuantitativo y la co-optimización simultánea del diseño mecánico y la política de control en la interacción física humano-robot, facilitando la evaluación de métricas biomecánicas internas como las fuerzas musculares.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

TRIP-Bag: A Portable Teleoperation System for Plug-and-Play Robotic Arms and Leaders

El artículo presenta TRIP-Bag, un sistema de teleoperación portátil y de fácil configuración que permite la recolección rápida y fiable de datos de alta fidelidad para el aprendizaje de robots, superando las limitaciones de los enfoques existentes al eliminar la brecha de embodiment y facilitar su uso fuera del laboratorio.

Noboru Myers, Sankalp Yamsani, Obin Kwon, Joohyung KimWed, 11 Ma💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Este artículo presenta MORLAX y MO-Playground, un algoritmo de aprendizaje por refuerzo multiobjetivo nativo de GPU y un entorno de simulación acelerado que permiten aproximar conjuntos de Pareto en minutos con una aceleración de 25 a 270 veces respecto a los enfoques tradicionales basados en CPU, facilitando así la resolución de problemas complejos de robótica multiobjetivo como la locomoción de un robot humanoide.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan TuckerWed, 11 Ma💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

El artículo presenta RAE-NWM, un modelo de mundo para navegación que opera en un espacio de representación visual densa basado en características DINOv2 y utiliza un transformador de difusión condicional para mejorar la estabilidad estructural y la precisión de las acciones en comparación con los métodos latentes tradicionales.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Este trabajo introduce un marco de navegación visión-lenguaje a gran escala derivado de videos web que, mediante representaciones geométricas implícitas para extraer información espacial directamente de imágenes RGB sin reconstrucción 3D, supera las limitaciones de los datos simulados y establece nuevos récords de rendimiento en múltiples benchmarks.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

El marco See, Plan, Rewind (SPR) mejora la manipulación robótica al medir el progreso mediante hitos espaciales, permitiendo la planificación de trayectorias y la recuperación automática de errores mediante un ciclo cerrado que supera a los modelos existentes en robustez y generalización.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

CORAL: Scalable Multi-Task Robot Learning via LoRA Experts

El artículo presenta CORAL, un marco escalable para el aprendizaje robótico multi-tarea que utiliza expertos LoRA especializados y aislados por tarea para mitigar la interferencia entre gradientes y evitar el olvido catastrófico, logrando un rendimiento superior en robots reales y simulados sin sobrecarga de inferencia.

Yuankai Luo, Woping Chen, Tong Liang, Zhenguo LiWed, 11 Ma💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

El artículo presenta NLiPsCalib, un marco de calibración eficiente y consistente con la física que utiliza estereofotometría de luz cercana para lograr una reconstrucción 3D de alta fidelidad en sensores visuotáctiles curvos mediante contactos simples con objetos cotidianos, eliminando la necesidad de dispositivos de calibración costosos y laboriosos.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

SPAARS es un marco de aprendizaje curricular para el aprendizaje por refuerzo offline-a-online que mejora la seguridad y la eficiencia de las muestras al explorar inicialmente en un espacio latente de baja dimensión y luego transferir el control al espacio de acciones crudo, superando así las limitaciones de rendimiento de los métodos basados en decodificadores.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI

← Anterior Siguiente →