RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

本文提出了名为 RL-100 的实世界机器人强化学习框架,该框架基于扩散视觉运动策略,通过统一模仿学习与强化学习并结合一致性蒸馏技术,在八个多样化的真实机器人任务中实现了 100% 的成功率,展现出卓越的零样本泛化能力、抗扰动鲁棒性及与人类专家相当甚至更优的操作效率。

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本文提出了名为 FALCON 的新范式,通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头,有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足,从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

该论文挑战了动态环境中增量规划必须复用旧有信息的传统假设,提出利用快速几乎必然渐近最优(ASAO)算法将增量规划问题转化为一系列独立求解任务,从而在无需显式复用计划的情况下更高效地应对环境变化并生成高质量路径。

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. GammellWed, 11 Ma💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

本文提出了名为 SynHLMA 的新框架,利用离散的人机交互表示和语言模型,实现了根据自然语言指令生成可变形关节物体的手部操作序列,并在生成、预测及插值任务中展现出优于现有技术的性能,同时支持机器人模仿学习抓取应用。

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan GuoWed, 11 Ma🤖 cs.AI

From Demonstrations to Safe Deployment: Path-Consistent Safety Filtering for Diffusion Policies

该论文提出了一种名为 PACS 的路径一致性安全过滤方法,通过基于集合可达性分析对扩散策略生成的轨迹进行一致性制动,在动态环境中为机器人提供形式化安全保证的同时,有效避免了传统安全机制因偏离训练分布而导致的任务性能下降。

Ralf Römer, Julian Balletshofer, Jakob Thumm, Marco Pavone, Angela P. Schoellig, Matthias AlthoffWed, 11 Ma⚡ eess

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

本文提出了名为 AFRO 的自监督框架,通过在不依赖动作或重建监督的情况下,利用生成扩散过程联合建模正向与逆向动力学,成功解决了现有 3D 视觉预训练方法在机器人操作任务中因缺乏状态 - 动作动态建模而表现不佳的问题,显著提升了多任务下的操作成功率并展现出良好的可扩展性。

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations

本文提出了 UniBYD 统一框架,通过结合统一形态表示、动态 PPO 算法及混合马尔可夫影子引擎,实现了从模仿人类演示到适应多样化机器人形态的强化学习策略探索,并在首个跨本体操作基准 UniManip 上取得了显著性能提升。

Tingyu Yuan, Biaoliang Guan, Wen Ye, Ziyan Tian, Yi Yang, Weijie Zhou, Zhaowen Li, Yan Huang, Peng Wang, Chaoyang Zhao, Jinqiao WangWed, 11 Ma💻 cs

Magnetically Driven Elastic Microswimmers: Exploiting Hysteretic Collapse for Autonomous Propulsion and Independent Control

本文提出了一种由三个磁性珠子和两个弹性连接组成的磁驱动弹性微游泳器,其利用外部振荡磁场诱导的滞后性非互易折叠与展开机制实现净推进,并通过优化几何结构与磁场参数实现了对不同微游泳器的独立控制,为靶向药物输送等微创医疗应用提供了可行方案。

Theo Lequy, Andreas M. MenzelWed, 11 Ma🔬 physics.app-ph

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Pri4R 提出了一种简单有效的训练方法,通过利用特权 4D 信息(3D 点轨迹预测)作为辅助任务,使视觉 - 语言 - 动作(VLA)模型在无需增加推理开销的情况下,隐式地习得世界动力学规律,从而显著提升了其在复杂操作任务中的物理感知与控制能力。

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong KimWed, 11 Ma🤖 cs.AI

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Scale-Plan 是一个可扩展的框架,它利用大语言模型从自然语言指令中提取紧凑的任务相关表示,通过构建动作图并引导结构化搜索来过滤无关信息,从而有效解决异构多机器人系统在复杂长时程任务规划中的可扩展性与可靠性问题,并在其提出的 MAT2-THOR 基准测试中显著优于现有方法。

Piyush Gupta, Sangjae Bae, Jiachen Li, David IseleWed, 11 Ma🤖 cs.AI

HMR-1: Hierarchical Massage Robot with Vision-Language-Model for Embodied Healthcare

该论文针对康复医疗中缺乏标准化评估和开源多模态数据集的痛点,构建了包含 1.2 万张图像和 17 万问答对的 MedMassage-12K 数据集,并提出了一种结合视觉语言模型进行穴位定位与轨迹规划的分层按摩机器人框架,通过物理实验验证了其在具身医疗中的有效性。

Rongtao Xu, Mingming Yu, Xiaofeng Han, Yu Zhang, Kaiyi Hu, Zhe Feng, Zenghuang Fu, Changwei Wang, Weiliang Meng, Xiaopeng ZhangWed, 11 Ma💻 cs