Embedding Morphology into Transformers for Cross-Robot Policy Learning

该论文提出了一种通过引入运动学 Token、拓扑感知注意力偏置及关节属性条件化三种机制,将机器人形态学嵌入 Transformer 架构的感知形态策略,从而显著提升了跨机器人及单机器人场景下的策略鲁棒性与性能。

Kei Suzuki, Jing Liu, Ye Wang, Chiori Hori, Matthew Brand, Diego Romeres, Toshiaki Koike-Akino

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个机器人领域的核心难题:如何让同一个“大脑”(AI 策略)能灵活地指挥不同长相、不同身体结构的机器人?

想象一下,如果你给一个人类大脑下达指令“拿杯子”,它知道怎么用手臂、手指去抓。但如果突然把这个大脑装进一个只有轮子没有手臂的机器人,或者一个有六条腿的蜘蛛机器人身上,这个大脑就会懵圈,因为它以前只学会了“人类手臂”的肌肉记忆,不知道轮子或蜘蛛腿该怎么动。

目前的顶级机器人 AI(比如论文里提到的 π0.5\pi0.5)就像是一个**“身体盲”的超级天才**。它看视频、听指令,然后直接输出动作。但它不知道机器人身体是怎么连接的(比如肩膀连着大臂,大臂连着小臂),它只能靠猜。这导致它换个机器人身体就失灵,或者在同一个机器人身上也表现得不够稳健。

这篇论文提出了一种给 AI“大脑”做**“身体植入手术”**的方法,让它在思考时就能“感觉”到身体的结构。他们用了三个巧妙的招数:

1. 给每个关节发一张“专属身份证”(运动学 Token)

  • 以前的做法:AI 把机器人所有关节的动作打包成一个模糊的“动作包”扔给大脑。就像你让厨师做菜,只告诉他“做一顿饭”,却没告诉他米、油、盐分别在哪。
  • 现在的做法:AI 把动作拆开,给每个关节(比如左肩、右肘)都发一张**“专属身份证”**。
  • 比喻:就像以前是**“大锅炖”,现在变成了“分餐制”**。大脑能清楚地看到:“哦,这是左肘关节,它需要动 5 度;这是右腕关节,它需要转 10 度。”这样,无论机器人是 3 个关节还是 10 个关节,大脑都能按“人头”(关节)来分配任务,而不是瞎猜。

2. 画一张“社交关系网”(拓扑感知注意力)

  • 以前的做法:AI 里的所有关节都可以随意“聊天”。左肘可以直接跟右脚踝说话,完全不顾它们中间隔了多远。这在物理上是不可能的,就像你试图直接跟地球另一端的邻居握手,中间没路。
  • 现在的做法:AI 被强制画了一张**“社交关系网”**(拓扑图)。
    • 硬规则(Hard-Mask):只有“邻居”才能聊天。比如,肩膀只能跟大臂说话,大臂只能跟小臂说话。这强迫 AI 学习像真实身体一样的**“接力赛”**模式:信息从肩膀传到大臂,再传到小臂。
    • 混合模式(Mix-Mask):有时候让它们只跟邻居聊(处理局部细节),有时候让它们全员开大会(处理整体协调)。
  • 比喻:以前是**“全员大乱炖”,谁跟谁都能聊;现在是“按部门开会”**。只有物理上相连的关节才能直接交换信息,这大大减少了 AI 的胡思乱想,让它更懂“身体逻辑”。

3. 给每个关节贴上“功能标签”(关节属性条件)

  • 以前的做法:即使知道了关节是连着的,AI 也不知道这个关节是干什么的。比如,两个关节都是旋转的,但一个只能转 180 度,另一个能转 360 度;或者一个是推杆(直线运动),一个是关节(旋转运动)。
  • 现在的做法:给每个关节贴上详细的**“功能标签”**。
    • 标签包括:它是转动的还是推拉的?它的极限在哪里?它有多硬(刚度)?
  • 比喻:这就像给每个员工发**“岗位说明书”。以前 AI 只知道“张三”和“李四”是同事(连在一起),现在它知道“张三”是“大力士”(只能推拉),而“李四”是“旋转大师”**(只能转动)。这样 AI 就不会让大力士去干旋转的活,也不会让旋转大师去推重物。

实验结果:真的有用吗?

研究人员在三种完全不同的机器人身上做了测试:

  1. DROID (Franka Panda):像人类手臂的机械臂。
  2. Unitree G1 Dex1:像人形机器人的腿和手。
  3. SO101:另一种不同结构的机械臂。

结果非常惊人:

  • 单机器人测试:即使只在一个机器人上训练,加上这些“身体植入”后,成功率也大幅提升(比如从 20% 提升到 47%)。
  • 跨机器人测试:这是最难的。用同一套代码训练,让它同时学会指挥 Panda 和 SO101。以前的方法会“精神分裂”,现在的方法因为懂了“身体结构”,能轻松切换,成功率远超旧方法。

总结

这就好比给 AI 装上了**“本体感”**。

  • 以前的 AI 是**“盲人摸象”**,只能靠猜身体怎么动。
  • 现在的 AI 是**“拥有身体感知的指挥家”**,它清楚知道每个“乐手”(关节)的位置、能力和限制。

这项技术的意义在于,未来我们不需要为每种新机器人重新从头训练 AI。只要把机器人的“身体说明书”(结构、关节类型)喂给这个通用的 AI 大脑,它就能立刻上手工作。这大大降低了机器人普及的门槛,让机器人能更灵活地适应各种新环境和新任务。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →