DeReCo: Decoupling Representation and Coordination Learning for Object-Adaptive Decentralized Multi-Robot Cooperative Transport

本文提出了名为 DeReCo 的框架,通过解耦表征学习与协调学习并采用三阶段训练策略,有效解决了去中心化多机器人协作搬运中因部分可观测性和非平稳性导致的训练不稳定与泛化难题,显著提升了样本效率及跨物体场景的适应能力。

Kazuki Shibata, Ryosuke Sota, Shandil Dhiresh Bosch, Yuki Kadokawa, Tsurumine Yoshihisa, Takamitsu Matsubara

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DeReCo 的新方法,旨在解决一个非常有趣但很难的机器人问题:让多个机器人像人类搬运工一样,合作搬运各种形状、重量和材质都不同的物体,而且它们之间不能“开小会”(去中心化),只能靠自己的眼睛和感觉来行动。

为了让你更容易理解,我们可以把这件事想象成两个盲人搬运工在搬运各种奇怪的家具

1. 核心难题:为什么这很难?

想象一下,你和一个朋友(两个机器人)被蒙住眼睛,只有一点点触觉和视觉(局部观察)。你们面前有一堆家具:有的像沉重的铁块(重且滑),有的像轻飘飘的泡沫(轻且涩),有的形状很怪(比如六边形或三角形)。

你们面临两个巨大的挑战:

  • 挑战一:猜谜游戏(部分可观测性)
    你们看不见家具的全貌,也拿不到说明书(不知道具体多重、多滑)。你们必须通过摸一摸、推一推,猜出“这到底是什么东西”。如果猜错了(比如以为很轻,结果很重),你们就会配合失误。
  • 挑战二:步调一致(多智能体协调)
    你们俩必须配合得天衣无缝。如果一个人用力大,一个人用力小,或者一个人往左一个人往右,东西就会掉。但在训练过程中,你们俩的策略都在不断变化,就像两个人在跳舞,但音乐(环境)一直在变,很难找到固定的舞步。

以前的做法(旧方法):
以前的机器人训练就像让这两个盲人一边猜谜,一边学跳舞,而且是一起学的

  • 如果猜谜猜错了,跳舞就会乱套。
  • 如果跳舞乱了,猜谜的线索也会变得混乱。
  • 结果就是:训练效率极低,机器人学得很慢,而且一旦遇到没见过的家具(比如一个从未见过的八角形箱子),它们就彻底懵了。

2. 新方案:DeReCo(分步走策略)

这篇论文提出的 DeReCo 方法,就像是一个聪明的教练,把“猜谜”和“跳舞”这两件事拆开来教,分三个阶段进行:

第一阶段:开“上帝视角”特训(集中式训练)

  • 比喻: 教练先给两个机器人戴上“透视眼镜”(特权信息),直接告诉它们:“这是铁块,重 5 公斤,很滑;那是木头,轻,很涩。”
  • 做什么: 机器人不需要猜,直接专心练习如何配合搬运。因为信息准确,它们很快就能学会完美的舞蹈步调(协调策略)。
  • 目的: 先把“怎么配合”这件事练得炉火纯青,排除“猜谜”带来的干扰。

第二阶段:练“读心术”(重建表征)

  • 比喻: 现在把“透视眼镜”摘掉。教练拿出第一阶段机器人搬运时的录像,让机器人看着录像里的动作(局部观察),去反推当时那个东西到底是什么。
  • 做什么: 训练一个专门的“翻译官”(自适应编码器)。这个翻译官的任务是:只通过机器人看到的局部画面(比如摩擦力、位置变化),就能猜出物体的重量和形状。
  • 目的: 让机器人学会在没有“说明书”的情况下,也能通过观察猜出物体的特性。

第三阶段:实战演练(去中心化执行)

  • 比喻: 把“透视眼镜”彻底扔掉,把练好的“翻译官”装进机器人的大脑里。
  • 做什么: 机器人现在既不需要透视眼镜,也不需要猜谜。它们一边用“翻译官”猜物体特性,一边用第一阶段练好的“舞步”去搬运。
  • 目的: 实现真正的盲人搬运:面对任何没见过的家具,都能猜出特性并完美配合搬运。

3. 实验结果:真的有用吗?

研究人员在电脑模拟和真实的机器人(HSR)上做了实验:

  • 模拟世界: 它们用三种形状(如长条、圆柱、板子)训练,然后去搬运六种从未见过的形状(如六边形、三角形、半椭圆等)。
    • 结果: 旧方法在面对新形状时经常失败(东西掉了或推不到目的地),而 DeReCo 就像个老练的搬运工,面对新家具也能稳稳当当,成功率极高。
  • 真实世界: 他们用真实的机器人搬运了两个没见过的物体(一个板子和一个框架)。
    • 结果: 旧方法在搬运过程中框架翻倒了,而 DeReCo 成功把两个物体都运到了指定位置。

总结

这篇论文的核心思想就是**“先学配合,再学猜谜,最后合二为一”**。

通过把“理解物体”和“团队协作”这两件难事拆开解决,DeReCo 让机器人变得更聪明、更灵活。就像教学生一样,不要让他们一边解复杂的数学题(猜物体),一边还要写复杂的作文(协调动作),而是先练好作文,再练好数学,最后结合起来,学生就能轻松应对各种考试(搬运各种新物体)了。

这项技术对于未来让机器人在仓库、家庭或灾难现场灵活搬运各种杂物,具有非常重要的意义。