LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

本文提出了 LAR-MoE 框架,通过两阶段训练将无监督技能发现与策略学习解耦,利用潜在空间对齐路由机制在无需标注的情况下实现专家专业化,从而显著提升了机器人在异构任务中的模仿学习性能。

Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LAR-MoE 的新方法,旨在让机器人通过“看”人类的操作视频来学习复杂的技能(比如做手术或抓取物体),而不需要人类手把手地告诉它每一步该做什么。

为了让你更容易理解,我们可以把机器人想象成一个刚入行的“全能实习生”,而这项技术就是他的**“超级导师系统”**。

1. 核心难题:实习生容易“平均化”

想象一下,如果你给一个实习生看一段视频,视频里包含了“拿杯子”、“倒水”、“擦桌子”三个动作。

  • 传统方法的问题:传统的机器人模型就像是一个试图把这三个动作“平均”起来的实习生。它可能会学会一种奇怪的混合动作:手伸向杯子,但没拿稳,然后开始擦桌子,结果水洒了一地。因为它试图用一套通用的规则去应对所有情况,导致在需要精细操作(如手术)时表现很差。
  • 专家混合(MoE)的尝试:为了解决这个问题,科学家之前引入了“专家混合”(Mixture of Experts, MoE)架构。这就像给实习生配了一个专家顾问团
    • 专家 A 擅长“拿东西”。
    • 专家 B 擅长“倒水”。
    • 专家 C 擅长“擦桌子”。
    • 还有一个调度员(Router),负责决定什么时候叫哪个专家出来干活。

但是,新问题出现了:如果没人告诉调度员什么时候该叫谁,调度员就会很困惑。它可能会一直叫专家 A 出来,或者随机乱叫,导致其他专家“失业”(专家崩溃),或者大家又混在一起干活,失去了“专家”的意义。通常,这需要人类专家手动给视频打上标签(比如“现在是拿杯子阶段”),但这在手术等复杂场景中太昂贵、太耗时了。

2. LAR-MoE 的解决方案:让机器人自己“悟”出规律

LAR-MoE 的聪明之处在于,它不需要人类打标签,而是让机器人自己**“悟”**出任务的内在结构。它分两步走:

第一步:师徒共修(无监督预训练)

  • 比喻:想象有一个**“老师”和一个“学生”**。
    • 老师:看过整个视频(包括画面和未来的动作),知道接下来要做什么。
    • 学生:只看当前的画面,然后猜测老师接下来会做什么。
  • 过程:学生努力猜老师的动作,老师则根据学生的猜测进行指导。通过这种“猜谜游戏”,学生慢慢学会了一种**“潜空间语言”**(Latent Space)。
  • 结果:学生不需要知道具体的动作名称(如“抓取”),但它能敏锐地感觉到:“哦,现在的画面特征和‘抓取’阶段很像”,或者“现在的特征和‘拉伸’阶段很像”。它自动把复杂的任务在脑海里划分成了不同的“阶段”。

第二步:按图索骥(潜空间对齐路由)

  • 比喻:现在,那个调度员(路由网络)手里多了一张**“藏宝图”**(就是学生学到的潜空间结构)。
  • 过程:当机器人看到当前的画面时,调度员不再瞎猜,而是先问学生:“现在的画面在藏宝图的哪个位置?”
    • 如果位置在“抓取区”,调度员就立刻叫专家 A出来。
    • 如果位置在“拉伸区”,就立刻叫专家 B出来。
  • 关键创新:论文中增加了一种**“对齐正则化”。这就像给调度员定了一条规矩:“你叫专家出来的顺序,必须和你心里那张藏宝图上的距离保持一致。”**
    • 如果两个画面在藏宝图上离得很近,调度员就应该叫同一个专家。
    • 如果离得很远,就应该切换专家。
    • 这防止了调度员“偷懒”只叫一个专家,也防止了专家之间的混乱。

3. 实际效果:手术台上的“零样本”奇迹

为了验证这个方法,研究人员在两个地方做了实验:

  1. 虚拟世界(LIBERO 基准测试)

    • 结果:这个只有 1.5 亿参数(相当于一个小模型)的机器人,在任务成功率上达到了 95.2%
    • 对比:它打败了很多拥有 35 亿甚至 80 亿参数 的巨型模型。这就像是一个只有初中学历的“天才学生”,靠着自己悟出的学习方法,考过了那些死记硬背的“博士”。
  2. 真实世界(手术机器人)

    • 任务:让机器人像外科医生一样,抓住并拉伸一段肠道(在猪的尸体上进行)。
    • 挑战:这是一个非常精细、分阶段的任务(指示 -> 抓取 -> 等待 -> 拉伸 -> 保持张力)。
    • 亮点:
      • 无需标签:机器人完全没看过人类标注的“阶段标签”,只看了 120 次演示视频就学会了。
      • 自动分阶段:如图 3 所示,机器人自动切换专家的时机,竟然和人类专家手动划分的阶段高度吻合!它自己“悟”出了什么时候该抓,什么时候该拉。
      • 举一反三(零样本迁移):在塑料模型(Phantom)上训练好后,直接拿去真实的猪肠子上做,不需要重新训练,竟然也成功了 45%。这说明它学到的不是死板的动作,而是真正的“技能逻辑”。

总结

LAR-MoE 就像给机器人装了一个**“直觉系统”**。
它不再依赖人类繁琐地告诉它“第一步做什么,第二步做什么”,而是通过观察,自己发现任务中隐藏的规律(潜空间),并据此自动分配不同的“专家”来处理不同的子任务。

  • 以前:机器人像是一个只会死记硬背的复读机,换个环境就傻眼。
  • 现在:机器人像是一个有悟性的学徒,能自己理解任务的节奏,灵活调用不同的技能,甚至在没见过的真实环境中也能上手干活。

这项技术让机器人学习复杂技能(尤其是医疗手术)变得更加高效、低成本,且更具通用性。