SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

该论文提出了名为 SeedPolicy 的新型模仿学习方法,通过引入自演化门控注意力(SEGA)模块解决扩散策略在长时程任务中的性能退化问题,从而在显著降低参数量的同时实现了机器人操作任务中时程扩展的高效性与高性能。

Youqiang Gui, Yuxuan Zhou, Shen Cheng, Xinyang Yuan, Haoqiang Fan, Peng Cheng, Shuaicheng Liu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SeedPolicy 的新机器人控制技术。为了让你轻松理解,我们可以把机器人学做任务的过程想象成一个新手厨师在学做一道复杂的“长流程”大餐

1. 以前的困境:记性太好反而坏事(“视野”的诅咒)

在以前的机器人学习(模仿学习)中,有一个很奇怪的怪现象:

  • 短任务(比如“把杯子拿起来”):机器人看过去 3 秒的画面,做得很好。
  • 长任务(比如“先拿杯子,再倒水,再擦桌子,最后放回原位”):如果让机器人看过去 10 秒、20 秒甚至更久的画面,它的表现反而变差了,甚至完全不会动。

为什么
这就好比那个新手厨师,让他看过去 10 秒的录像。录像里不仅有他在切菜,还有背景里有人走过、窗户被风吹动、甚至有个无关的苍蝇在飞。
以前的机器人模型就像是一个没有过滤功能的“录像机”。它把过去几十秒里所有的画面(包括切菜、苍蝇、背景晃动)一股脑全塞进脑子里。结果,脑子被无关的“噪音”填满了,反而忘了“现在该切哪块肉”这个核心任务。看得越久,脑子里的垃圾信息越多,机器人就越糊涂。

2. 核心创新:SeedPolicy 的“智能管家”

为了解决这个问题,作者设计了一个叫 SeedPolicy 的新系统,它的核心是一个叫 SEGA(自进化门控注意力)的模块。我们可以把它想象成机器人脑子里的一个超级智能管家

这个管家有两个绝招:

绝招一:只记“干货”,扔掉“废话”(自进化门控)

当机器人看过去的画面时,这个管家会立刻检查:“这个画面有用吗?”

  • 如果画面是“手在切菜”,管家说:“有用,记下来!”
  • 如果画面是“背景里有人走过”或者“光线闪了一下”,管家说:“这是噪音,过滤掉,别记!”
  • 比喻:就像你听讲座,以前的机器人会把讲师的声音、窗外的车声、旁边人的咳嗽声全录下来;而 SeedPolicy 的管家只把讲师讲的重点记在笔记本上,自动屏蔽了所有杂音。

绝招二:拥有一个“流动的记忆本”(自进化潜在状态)

以前的机器人是“死记硬背”,把过去几十帧画面堆在一起(像一叠厚厚的照片)。
SeedPolicy 的管家则有一个不断更新的“记忆本”

  • 它不会把过去所有的照片都塞进包里,而是每过一秒,就根据新发生的事,更新一下记忆本里的内容。
  • 它知道:“刚才我已经把杯子拿起来了,现在正在倒水。”
  • 比喻:就像你玩一个长剧本的游戏。以前的机器人是每次都要翻出游戏开始到现在的所有录像带来看,累得半死还容易看错;SeedPolicy 则是手里拿着一张实时更新的进度条,上面写着“当前任务:倒水,已完成步骤:拿杯子”。无论游戏多长,它只需要看这张进度条,永远清晰明了。

3. 效果如何?

作者把这套系统放在了一个叫 RoboTwin 2.0 的测试场里,让机器人做了 50 种不同的任务(有些很简单,有些非常复杂且充满干扰)。

  • 结果惊人

    • 简单环境下,SeedPolicy 比以前的方法(Diffusion Policy)好了 36%
    • 困难环境(比如背景乱动、物体位置随机变化)下,它竟然比以前的方法好了 169%
    • 最重要的是,任务越长,SeedPolicy 的优势越大。以前机器人做长任务会“死机”,现在它能轻松搞定。
  • 性价比极高

    • 现在的很多大模型(比如 RDT)像是一个拥有 12 亿参数的超级大脑,虽然聪明但太笨重,需要巨大的算力。
    • SeedPolicy 就像一个只有几千万参数的小巧大脑,虽然参数少了一百倍,但在这个特定领域(机器人操作)的表现却能和那个超级大脑打平手,甚至更好。这意味着它可以在普通的电脑甚至机器人自带的芯片上运行,非常高效。

总结

这篇论文的核心思想就是:教机器人做长任务,不能靠“堆砌”过去的画面,而要靠“提炼”过去的经验

SeedPolicy 就像给机器人装了一个会思考的“记忆过滤器”

  1. 自动过滤掉背景噪音和无关画面。
  2. 动态更新核心记忆,只保留对当前任务最关键的信息。

这让机器人不再因为“看得太久”而变笨,反而能像经验丰富的老手一样,从容地处理各种复杂、漫长且充满干扰的家务或工业任务。