SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SeedPolicy 的新机器人控制技术。为了让你轻松理解，我们可以把机器人学做任务的过程想象成一个新手厨师在学做一道复杂的“长流程”大餐。

1. 以前的困境：记性太好反而坏事（“视野”的诅咒）

在以前的机器人学习（模仿学习）中，有一个很奇怪的怪现象：

短任务（比如“把杯子拿起来”）：机器人看过去 3 秒的画面，做得很好。
长任务（比如“先拿杯子，再倒水，再擦桌子，最后放回原位”）：如果让机器人看过去 10 秒、20 秒甚至更久的画面，它的表现反而变差了，甚至完全不会动。

为什么？
这就好比那个新手厨师，让他看过去 10 秒的录像。录像里不仅有他在切菜，还有背景里有人走过、窗户被风吹动、甚至有个无关的苍蝇在飞。
以前的机器人模型就像是一个没有过滤功能的“录像机”。它把过去几十秒里所有的画面（包括切菜、苍蝇、背景晃动）一股脑全塞进脑子里。结果，脑子被无关的“噪音”填满了，反而忘了“现在该切哪块肉”这个核心任务。看得越久，脑子里的垃圾信息越多，机器人就越糊涂。

2. 核心创新：SeedPolicy 的“智能管家”

为了解决这个问题，作者设计了一个叫 SeedPolicy 的新系统，它的核心是一个叫 SEGA（自进化门控注意力）的模块。我们可以把它想象成机器人脑子里的一个超级智能管家。

这个管家有两个绝招：

绝招一：只记“干货”，扔掉“废话”（自进化门控）

当机器人看过去的画面时，这个管家会立刻检查：“这个画面有用吗？”

如果画面是“手在切菜”，管家说：“有用，记下来！”
如果画面是“背景里有人走过”或者“光线闪了一下”，管家说：“这是噪音，过滤掉，别记！”
比喻：就像你听讲座，以前的机器人会把讲师的声音、窗外的车声、旁边人的咳嗽声全录下来；而 SeedPolicy 的管家只把讲师讲的重点记在笔记本上，自动屏蔽了所有杂音。

绝招二：拥有一个“流动的记忆本”（自进化潜在状态）

以前的机器人是“死记硬背”，把过去几十帧画面堆在一起（像一叠厚厚的照片）。
SeedPolicy 的管家则有一个不断更新的“记忆本”。

它不会把过去所有的照片都塞进包里，而是每过一秒，就根据新发生的事，更新一下记忆本里的内容。
它知道：“刚才我已经把杯子拿起来了，现在正在倒水。”
比喻：就像你玩一个长剧本的游戏。以前的机器人是每次都要翻出游戏开始到现在的所有录像带来看，累得半死还容易看错；SeedPolicy 则是手里拿着一张实时更新的进度条，上面写着“当前任务：倒水，已完成步骤：拿杯子”。无论游戏多长，它只需要看这张进度条，永远清晰明了。

3. 效果如何？

作者把这套系统放在了一个叫 RoboTwin 2.0 的测试场里，让机器人做了 50 种不同的任务（有些很简单，有些非常复杂且充满干扰）。

结果惊人：
- 在简单环境下，SeedPolicy 比以前的方法（Diffusion Policy）好了 36%。
- 在困难环境（比如背景乱动、物体位置随机变化）下，它竟然比以前的方法好了 169%！
- 最重要的是，任务越长，SeedPolicy 的优势越大。以前机器人做长任务会“死机”，现在它能轻松搞定。
性价比极高：
- 现在的很多大模型（比如 RDT）像是一个拥有 12 亿参数的超级大脑，虽然聪明但太笨重，需要巨大的算力。
- SeedPolicy 就像一个只有几千万参数的小巧大脑，虽然参数少了一百倍，但在这个特定领域（机器人操作）的表现却能和那个超级大脑打平手，甚至更好。这意味着它可以在普通的电脑甚至机器人自带的芯片上运行，非常高效。

总结

这篇论文的核心思想就是：教机器人做长任务，不能靠“堆砌”过去的画面，而要靠“提炼”过去的经验。

SeedPolicy 就像给机器人装了一个会思考的“记忆过滤器”：

自动过滤掉背景噪音和无关画面。
动态更新核心记忆，只保留对当前任务最关键的信息。

这让机器人不再因为“看得太久”而变笨，反而能像经验丰富的老手一样，从容地处理各种复杂、漫长且充满干扰的家务或工业任务。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与核心问题 (Problem)

背景：
模仿学习（Imitation Learning, IL）是机器人获取操作技能的主流范式。扩散策略（Diffusion Policy, DP）通过建模人类行为的多模态分布，在复杂任务中展现了极高的稳定性和精度。

核心痛点：
尽管扩散策略表现优异，但存在一个关键的时间建模瓶颈：随着观测视界（Observation Horizon）的增加（即输入的历史帧数增多），基准扩散策略的性能反而下降。

现象： 当观测窗口变长时，基准模型的性能不仅没有提升，甚至可能跌至 0%。
原因分析：
1. 缺乏复杂的时间依赖捕捉： 现有的方法通常简单地将观测视为图像帧的堆叠（Frame Stacking），无法有效捕捉长序列中的复杂时间依赖关系。
2. 计算成本过高： 标准的注意力机制（Attention）计算复杂度随序列长度呈二次方增长，难以在实时机器人控制中处理长视界。
3. 时间稀疏性与噪声污染： 在动态操作中，并非每一帧都有用。无关的背景移动、遮挡或静止帧会引入噪声，简单地将所有帧整合会污染历史上下文，导致策略迷失（State Aliasing）或执行停滞。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 SeedPolicy，其核心是一个名为 自进化门控注意力（Self-Evolving Gated Attention, SEGA） 的时间模块。

2.1 核心架构：SEGA 模块

SEGA 采用双流 Transformer 设计，旨在维护一个随时间演化的潜在状态（Latent State），从而将长视界观测压缩为固定大小的表示，同时过滤无关信息。

状态更新流（State Update Stream）：
- 功能： 将新的感官信息整合到历史潜在状态中。
- 机制： 利用交叉注意力（Cross-Attention）从当前观测中提取语义信息，并结合 自进化门控（Self-Evolving Gate, SEG）。
- SEG 创新： 不同于传统的可学习门控，SEG 直接利用交叉注意力的原始分数作为“相关性信号”。它动态计算全局相关性分数，生成门控信号 $G_t$ 。
- 作用： 只有语义相关的信息才会被保留并更新状态，无关的噪声（如背景抖动）被抑制。公式： $S_t = G_t \odot Inter \cdot S_t + (1 - G_t) \odot S_{t-1}$ 。
状态检索流（State Retrieval Stream）：
- 功能： 利用积累的历史上下文来丰富当前的感官输入。
- 机制： 当前观测特征作为 Query，主动从历史状态特征中检索相关的时间线索。
- 作用： 生成增强后的观测特征（Enhanced Observation Features, $EObst$ ），弥补长视界下信息丢失的问题，为动作预测提供鲁棒的感知基础。

2.2 整体流程

编码： 当前 RGB 图像和关节姿态通过 ResNet 编码为观测特征。
SEGA 处理：
- 更新潜在状态 $S_t$ （融合新信息并过滤噪声）。
- 检索历史上下文生成增强特征 $EObst$ 。
动作预测： 增强特征输入到基于 Transformer 的扩散模型（Action Expert），预测未来的动作序列。

2.3 优势

线性复杂度： 通过递归更新固定大小的潜在状态，避免了长序列注意力机制的二次方计算开销。
自适应过滤： 利用注意力图动态抑制噪声，解决了“时间稀疏性”问题。
长视界扩展： 性能随观测窗口增加而提升，而非下降。

3. 主要贡献 (Key Contributions)

提出 SEGA 模块： 设计了一种结合注意力机制与动态门控的时间模块，能够维护紧凑的演化潜在状态，在捕捉长程依赖的同时过滤无关的时间干扰。
实现有效的视界扩展（Horizon Scaling）： 首次有效解决了扩散策略在长视界下的性能退化问题，证明了更长的观测窗口可以转化为可测量的性能提升。
构建 SeedPolicy 并达到 SOTA：
- 在 RoboTwin 2.0 基准（50 个任务）上，SeedPolicy 在干净设置下比标准扩散策略（DP）相对提升 36.8%，在随机化挑战设置下相对提升 169%。
- 高效性： 与参数量高达 12 亿（1.2B）的视觉 - 语言 - 动作模型（如 RDT）相比，SeedPolicy 仅用 1/10 到 1/100 的参数量（约 33M - 147M），却实现了具有竞争力的性能。

4. 实验结果 (Results)

4.1 仿真基准 (RoboTwin 2.0)

任务覆盖： 在 50 个双臂操作任务中，SeedPolicy 在 45/50（Transformer 骨干）和 44/50（CNN 骨干）的任务中优于或持平基线。
不同设置表现：
- Easy (Clean) 设置： Transformer 骨干相对提升 21.1%，CNN 骨干相对提升 52.5%。
- Hard (Randomized) 设置： 在环境随机化极大的情况下，Transformer 骨干相对提升 197.22%，CNN 骨干提升 140.63%。这表明 SeedPolicy 在基线策略几乎失效时仍能保持可操作性。
长视界能力： 随着任务长度（Short/Medium/Long）增加，SeedPolicy 与基线的性能差距显著扩大。在长视界任务中，基线因无法回忆上下文而性能严重下降，而 SeedPolicy 保持稳健。

4.2 真实机器人实验 (Dexmal Dos W1)

任务： 循环放置与检索（Looping Place-Retrieval）、顺序抓取（Sequential Picking）、瓶子交接（Bottle Handover）。
结果： SeedPolicy 显著优于基线。例如在瓶子交接任务中，成功率从 15% 提升至 56%。
定性分析：
- 解决执行停滞： 基线在视觉状态重复（如物体放回原位）时容易陷入死循环（状态混叠），SeedPolicy 通过潜在状态区分任务阶段，成功打破僵局。
- 弥补深度缺失： 在仅有 2D 单目摄像头的情况下，SeedPolicy 通过长视界的历史轨迹隐式重建空间几何，减少了“空中抓取”和碰撞错误。

4.3 消融实验

门控机制的重要性： 使用交叉注意力图作为门控信号（CA）比使用标准 MLP 门控（FFN）效果更好，特别是在长视界任务中（Long-horizon: 73% vs 70%）。
状态机制 vs 注意力： 递归状态更新机制比单纯的长窗口注意力更高效且性能更好。

5. 意义与展望 (Significance)

理论突破： 揭示了标准扩散策略在长视界下的性能退化根源，并证明了通过显式的时间建模和自适应门控可以逆转这一趋势。
工程价值： 提出了一种**参数高效（Parameter-Efficient）**的解决方案。它证明了不需要依赖超大规模的预训练模型（VLA），仅通过改进时间建模架构，即可在资源受限的边缘设备上实现复杂的长视界机器人操作。
未来方向： 论文指出，虽然 SeedPolicy 在标准设置下表现优异，但在极度随机化的开放世界场景中，其泛化能力仍略逊于大规模预训练模型。未来的工作将探索将 SEGA 模块与视觉 - 语言 - 动作（VLA）架构结合，以兼顾长视界建模效率与开放世界的泛化能力。

总结： SeedPolicy 通过引入自进化门控注意力机制，成功解决了机器人模仿学习中的长视界扩展瓶颈，以极低的计算和参数成本实现了 SOTA 级别的长程操作性能，为高效、鲁棒的机器人控制提供了新的范式。