RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Le papier présente RL-100, un cadre d'apprentissage par renforcement réel basé sur des politiques visuo-motrices par diffusion qui unifie imitation et renforcement pour atteindre une fiabilité de 100 % sur huit tâches robotiques complexes, surpassant les opérateurs experts et démontrant une robustesse exceptionnelle en déploiement zéro-shot.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Ce papier présente FALCON, une nouvelle approche qui améliore les modèles vision-langage-action en injectant des tokens spatiaux 3D riches, dérivés de modèles de fondation spatiale, directement dans la tête d'action pour combler le fossé de raisonnement spatial et atteindre des performances de pointe sur des tâches simulées et réelles.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

Cet article remet en question l'hypothèse selon laquelle la replanification réactive nécessite la mise à jour de plans existants, démontrant qu'il est plus efficace de résoudre le problème comme une série de problèmes indépendants grâce à des algorithmes de planification presque sûrement asymptotiquement optimaux (ASAO) tels que EIT* et AORRTC.

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. GammellWed, 11 Ma💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

L'article présente SynHLMA, un cadre novateur générant des séquences de manipulation manuelle d'objets articulés à partir d'instructions langagières en utilisant une représentation discrète des interactions main-objet et un modèle d'apprentissage aligné sur le langage pour assurer la cohérence fonctionnelle et dynamique.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan GuoWed, 11 Ma🤖 cs.AI

EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

L'article présente EgoMI, un cadre d'apprentissage par imitation qui comble le fossé d'incarnation entre humains et robots en capturant des trajectoires coordonnées des mains et de la tête active, permettant ainsi à des robots semi-humanoïdes d'acquérir des compétences de manipulation robustes grâce à une politique enrichie par la mémoire pour gérer les changements dynamiques de point de vue.

Justin Yu, Yide Shentu, Di Wu, Pieter Abbeel, Ken Goldberg, Philipp WuWed, 11 Ma💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Le papier présente AFRO, un cadre d'apprentissage auto-supervisé qui génère des représentations 3D dynamiques pour la robotique en modélisant les transitions d'état via un processus de diffusion, éliminant ainsi le besoin de reconstruction géométrique explicite et améliorant significativement les taux de réussite dans des tâches de manipulation réelles et simulées.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations

Le papier propose UniBYD, un cadre unifié intégrant une représentation morphologique unifiée et un apprentissage par renforcement dynamique pour dépasser la simple imitation humaine et apprendre des politiques de manipulation robustes adaptées à diverses morphologies robotiques, validé par le nouveau benchmark UniManip qui démontre une amélioration significative des taux de réussite.

Tingyu Yuan, Biaoliang Guan, Wen Ye, Ziyan Tian, Yi Yang, Weijie Zhou, Zhaowen Li, Yan Huang, Peng Wang, Chaoyang Zhao, Jinqiao WangWed, 11 Ma💻 cs

Magnetically Driven Elastic Microswimmers: Exploiting Hysteretic Collapse for Autonomous Propulsion and Independent Control

Ce papier présente un micro-nageur élastique magnétique composé de trois billes dont la propulsion autonome et le contrôle indépendant sont obtenus par l'exploitation d'un effondrement hystérétique réversible induit par un champ magnétique oscillant, permettant ainsi des applications potentielles en interventions médicales mini-invasives.

Theo Lequy, Andreas M. MenzelWed, 11 Ma🔬 physics.app-ph

A 26-Gram Butterfly-Inspired Robot Achieving Autonomous Tailless Flight

Le papier présente AirPulse, un robot volant autonome de 26 grammes inspiré du papillon qui, grâce à une architecture de contrôle hiérarchique et des ailes conformes, réalise pour la première fois un vol stabilisé en boucle fermée en imitant les ondulations corporelles et les battements de basse fréquence caractéristiques de la locomotion lepidoptérienne.

Weibin Gu, Chenrui Feng, Lian Liu, Chen Yang, Xingchi Jiao, Yuhe Ding, Xiaofei Shi, Chao Gao, Alessandro Rizzo, Guyue ZhouWed, 11 Ma💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Le papier présente Pri4R, une méthode simple et efficace qui améliore les modèles Vision-Language-Action en leur apprenant implicitement la dynamique du monde via l'entraînement sur des trajectoires de points 3D privilégiées, sans ajouter de surcoût computationnel ni modifier l'architecture lors de l'inférence.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong KimWed, 11 Ma🤖 cs.AI

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

Le papier présente SPREAD, un cadre d'apprentissage par imitation à vie qui utilise la décomposition en valeurs singulières pour préserver la géométrie des représentations de tâches dans des sous-espaces de faible rang et une distillation guidée par la confiance, permettant ainsi de surmonter l'oubli catastrophique et d'atteindre des performances de pointe sur le benchmark LIBERO.

Kaushik Roy, Giovanni D'urso, Nicholas Lawrance, Brendan Tidd, Peyman MoghadamWed, 11 Ma🤖 cs.LG

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Le papier présente Scale-Plan, un cadre évolutif assisté par les grands modèles de langage qui génère des représentations de problèmes compactes et pertinentes pour surmonter les défis de la planification à long terme dans les systèmes multi-robots hétérogènes, tout en introduisant le benchmark MAT2-THOR pour évaluer ces systèmes avec fiabilité.

Piyush Gupta, Sangjae Bae, Jiachen Li, David IseleWed, 11 Ma🤖 cs.AI

HMR-1: Hierarchical Massage Robot with Vision-Language-Model for Embodied Healthcare

Ce papier présente HMR-1, un robot de massage hiérarchique intégrant un modèle vision-langage pour l'identification des points d'acupuncture et le contrôle des mouvements, soutenu par le nouveau jeu de données multimodal MedMassage-12K et un benchmark d'évaluation pour les soins de santé incarnés.

Rongtao Xu, Mingming Yu, Xiaofeng Han, Yu Zhang, Kaiyi Hu, Zhe Feng, Zenghuang Fu, Changwei Wang, Weiliang Meng, Xiaopeng ZhangWed, 11 Ma💻 cs