GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Le papier présente GST-VLA, un modèle d'action vision-langage qui améliore la précision des tâches robotiques en intégrant des tokens spatiaux gaussiens 3D structurés pour une géométrie métrique et un raisonnement en chaîne de pensée conscient de la profondeur, atteignant ainsi des performances record sur les benchmarks LIBERO et SimplerEnv.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties

Cet article présente un cadre de planification de mouvement à risque borné intégrant un opérateur de Koopman stochastique profond et une vérification hiérarchique par programmation de sommes de carrés pour générer des trajectoires sûres et efficaces pour des manipulateurs robotiques évoluant dans des environnements incertains et non convexes.

Fei Meng, Zijiang Yang, Xinyu Mao, Haobo Liang, Max Q. -H. MengWed, 11 Ma💻 cs

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Le papier présente DexHiL, un cadre innovant d'apprentissage avec humain dans la boucle conçu pour le post-entraînement de modèles vision-langage-action, permettant une téléopération coordonnée bras-main et améliorant significativement les taux de réussite dans la manipulation dexterse par rapport aux méthodes de fine-tuning offline.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation

Le papier présente SPAN-Nav, un modèle fondamental de bout en bout qui améliore la navigation vision-langage en intégrant une conscience spatiale 3D généralisée via un token compact et un entraînement multi-tâches sur un vaste jeu de données, atteignant ainsi des performances de pointe sur divers benchmarks et dans des scénarios réels.

Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

ZeroWBC est un cadre novateur qui permet d'apprendre directement à partir de vidéos humaines à la première personne un contrôle visuomoteur naturel pour les robots humanoïdes, éliminant ainsi le besoin de données de téléopération coûteuses et permettant des interactions complexes avec l'environnement.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

Ce papier présente STONE, un ensemble de données multi-modal à grande échelle pour la navigation hors route, qui fournit des cartes de traversabilité 3D générées automatiquement sans annotation manuelle grâce à une fusion de LiDAR, de caméras et de radars, tout en établissant un nouveau benchmark pour la prédiction de traversabilité.

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won ChoiWed, 11 Ma💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

Ce papier propose un cadre de planification robuste pour la course autonome multi-agents, combinant l'identification topologique des opportunités de dépassement via des processus gaussiens et un MPC accéléré par un solveur PTC, permettant des manœuvres plus rapides et plus sûres avec une latence réduite sur la plateforme F1TENTH.

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei XieWed, 11 Ma💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

Le papier présente WESPR, un cadre rapide qui intègre la perception géométrique et les données météorologiques locales pour prédire les champs de vent induits par l'environnement, permettant ainsi à un drone quadricoptère d'adapter proactivement sa planification de trajectoire et son contrôle pour améliorer la stabilité et réduire les déviations dans des conditions turbulentes.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap TokekarWed, 11 Ma💻 cs

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Ce travail propose un cadre de simulation évolutive intégrant un modèle musculo-squelettique humain piloté par l'apprentissage par renforcement pour permettre l'analyse quantitative et l'optimisation conjointe de la conception mécanique et du contrôle des robots interactifs, comme en témoigne son application réussie à l'amélioration des exosquelettes.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Ce papier présente MORLAX, un algorithme d'apprentissage par renforcement multi-objectif natif pour GPU, et MO-Playground, un environnement d'entraînement accéléré par GPU, qui permettent ensemble d'approximer des ensembles de Pareto pour des problèmes robotiques complexes avec une accélération de 25 à 270 fois par rapport aux approches CPU traditionnelles.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan TuckerWed, 11 Ma💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Le papier propose RAE-NWM, un modèle de monde de navigation qui opère dans un espace de représentation visuelle dense (DINOv2) plutôt que dans un espace latent compressé, afin de préserver les informations structurelles fines et d'améliorer la précision du contrôle et de la planification grâce à l'utilisation d'un transformateur de diffusion conditionnel.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Cet article propose un cadre d'apprentissage à grande échelle pour la navigation vision-langage, tirant parti de vidéos web et de représentations géométriques implicites extraites directement des images RGB pour surmonter les limites des simulateurs et atteindre des performances de pointe avec une généralisation zéro-shot.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Le papier présente SPR, un cadre vision-langage-action progressif qui améliore la robustesse de la manipulation robotique en ancrant les instructions dans des sous-objectifs spatiaux et en permettant une récupération automatique des échecs via un cycle de rétroaction, surpassant ainsi les méthodes de référence sur les benchmarks LIBERO.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

Le papier présente NLiPsCalib, un cadre de calibration efficace et physiquement cohérent pour les capteurs visuotactiles courbes, qui utilise la stéréophotométrie à source lumineuse proche (NLiPs) pour permettre une reconstruction 3D haute fidélité via une procédure de calibration simplifiée avec des objets quotidiens.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Le papier présente SPAARS, un cadre d'apprentissage par renforcement offline-to-online qui améliore la sécurité et l'efficacité de l'échantillonnage en initiant l'exploration dans un espace latent restreint avant de basculer vers l'espace d'action brut, surmontant ainsi les limitations de reconstruction des méthodes précédentes et surpassant les performances des modèles de base sur plusieurs tâches robotiques.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI