Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 GPC (General Policy Composition，通用策略组合) 的新方法，旨在让机器人变得更聪明、更灵活，而且不需要重新训练。

为了让你轻松理解，我们可以把这篇论文的核心思想想象成 “组建一支超级梦之队”。

1. 背景：机器人为什么需要“组队”？

想象一下，你正在教一个机器人做复杂的家务，比如“把汉堡和薯条放到盘子里”。

策略 A (Policy A) 是一个擅长看图说话的老师，它看得很清楚，知道汉堡在哪里，但它的动作有点僵硬，拿东西时手会抖。
策略 B (Policy B) 是一个擅长空间感知的工程师，它知道物体的精确位置（比如用点云数据），动作很稳，但它可能看不懂复杂的语言指令，或者在光线不好时容易迷路。

以前，如果你想让机器人既看得准又拿得稳，通常的做法是：

收集海量的新数据。
把这两个老师的数据混在一起，重新训练一个超级大脑。
这需要花费巨大的算力和时间（就像重新培养一个天才儿童）。

这篇论文说：不用那么麻烦！ 我们不需要重新训练，只需要在机器人执行任务的最后一刻（测试时），把这两个老师的“建议”结合起来，就能得到一个比它们俩都厉害的“超级机器人”。

2. 核心方法：GPC 是怎么工作的？

GPC 的核心思想是 “求同存异，取长补短”。

比喻：两位导航员的“投票”

想象你要开车去一个陌生的地方：

导航员 A 说：“前面路口左转，那里风景好。”（但他可能记错了路）。
导航员 B 说：“前面路口右转，那里路宽。”（但他可能没看到红绿灯）。

如果只听一个人的，你可能会迷路。GPC 的做法是：

同时听取建议：在每一个转弯的瞬间，GPC 都会同时问这两个导航员：“下一步该怎么走？”
加权投票：GPC 不会简单地取平均值，而是会根据谁更靠谱来分配“投票权”。如果 A 在白天很准，B 在晚上很准，GPC 就会根据当前情况调整权重。
生成最佳路线：通过数学上的“凸组合”（一种聪明的加权平均），GPC 会算出一条既符合 A 的视觉判断，又符合 B 的空间精度的完美路线。

神奇之处在于：论文证明，这种组合出来的路线，往往比单独听 A 或单独听 B 都要好，甚至能解决它们单独都无法解决的难题。

3. 为什么这很厉害？（三大贡献）

① 理论上的“数学魔法”

论文首先用数学证明了：如果你把两个不同模型的“得分”（它们对下一步动作的自信程度）混合在一起，通常能得到一个更准确的得分。

通俗解释：就像两个专家一起看病，一个擅长看 X 光片，一个擅长听诊。把他们两人的诊断意见结合起来，往往比任何一位专家单独看病更准确。而且，这种“更准确”会贯穿整个治疗过程，不会只在开头有效。

② 真正的“即插即用” (Plug-and-Play)

这是 GPC 最酷的地方。它不需要你重新训练模型。

比喻：就像你家里有两个不同的智能音箱（比如一个擅长放音乐，一个擅长查天气）。以前你想让它们合作，得把它们的代码重写一遍。现在，GPC 就像一根神奇的“万能线”，在它们说话的时候，把两者的声音混合一下，瞬间就能让它们协同工作。
兼容性：不管这两个机器人是用什么“大脑”（扩散模型还是流匹配模型），也不管它们是用眼睛看（图像）还是用雷达看（点云），甚至是一个懂语言一个不懂语言，GPC 都能把它们组合起来。

③ 实战效果惊人

作者在多个机器人测试场（比如 Robomimic, PushT, RoboTwin）和真实的机器人上做了实验。

结果：组合后的机器人，成功率比单独使用任何一个模型都要高。
例子：在“把杯子挂起来”的任务中，单独用模型 A 可能只有 10% 的成功率，模型 B 有 20%，但组合后（GPC）能达到 30% 甚至更高！甚至在某些任务中，成功率提升了 15% 以上。

4. 总结：这意味什么？

这篇论文告诉我们，未来的机器人不需要变得“更大、更重、更贵”来变聪明，而是需要变得更“善于合作”。

以前：为了提升性能，我们要收集更多数据，训练更大的模型（烧钱、烧算力）。
现在 (GPC)：我们可以利用现有的、已经训练好的各种小模型，在它们执行任务时，通过“组合策略”让它们互相补台。

一句话总结：
GPC 就像是一个聪明的“乐队指挥”，它不需要重新教乐手怎么演奏，只需要在演出时，巧妙地指挥不同的乐手（不同的 AI 模型）配合演奏，就能奏出比任何独奏都更完美的交响乐。这让机器人变得更灵活、更可靠，而且成本极低。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为 《COMPOSE YOUR POLICIES! IMPROVING DIFFUSION-BASED OR FLOW-BASED ROBOT POLICIES VIA TEST-TIME DISTRIBUTION-LEVEL COMPOSITION》（组合你的策略！通过测试时分布级组合提升基于扩散或流的机器人策略）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现状： 基于扩散模型（Diffusion Models）和流匹配（Flow Matching）的机器人策略（如 VLA 和 VA 模型）在复杂操作任务中表现出色，能够处理高维输入（视觉、语言）和多模态动作分布。
瓶颈： 这些模型的进步受到大规模交互数据获取成本高昂的限制。单纯增加模型容量需要更多数据，而传统的后训练策略（如监督微调 SFT 或强化学习 RL）要么数据需求大，要么奖励工程复杂且在线交互成本高。
核心问题： 如何在不进行额外模型训练的前提下，利用现有的预训练策略来提升机器人控制性能？特别是，能否通过组合多个不同的预训练策略，获得比单一父策略更好的性能？

2. 核心方法：通用策略组合 (General Policy Composition, GPC)

论文提出了一种名为 GPC 的免训练（Training-free）框架，通过在**测试时（Test-time）**对多个预训练策略的分布分数（Distributional Scores）进行凸组合（Convex Combination）来构建更强的策略。

2.1 理论分析 (Theoretical Foundation)

作者首先建立了数学基础，证明凸组合分布分数可以产生更优的目标函数：

单步改进 (Functional-level Improvement)： 证明了两个分数估计器（Score Estimators）的凸组合，其均方误差（MSE）通常小于任一单独估计器的误差。除非两个模型的误差完全一致，否则加权平均可以抵消各自的偏差和噪声，从而更接近真实分数。
系统级稳定性 (System-level Stability)： 利用 Grönwall 不等式 证明了采样动力学的稳定性。即：单步分数的误差降低会沿着整个生成轨迹传播，最终导致轨迹采样误差的有界降低。
结论： 凸分数组合在理论上保证了系统级的性能提升。

2.2 算法实现 (Methodology)

GPC 的核心思想是将多个预训练策略（可以是扩散模型或流模型，VA 或 VLA 模态）的分数函数进行加权求和：

分数组合公式：
$\hat{s}_{comp}(\tau_t, t, c) = \sum_{i=1}^n w_i s_\theta(\tau_t, t, c_i)$
其中 $\sum w_i = 1$ ， $s_\theta$ 是条件 $c_i$ （如不同的视觉模态或网络架构）下的分数估计。
测试时搜索 (Test-time Search)： 由于最优权重 $w^*$ 依赖于具体任务，GPC 在推理阶段通过搜索不同的权重组合（例如从 0.0 到 1.0 步进搜索），选择成功率最高的权重配置。
灵活性：
- 异构组合： 支持不同架构（如 Diffusion vs. Flow）、不同模态（RGB vs. Point Cloud）、不同输入（VA vs. VLA）的策略组合。
- 算子扩展： 除了凸组合，论文还探索了基于逻辑“与/或”（AND/OR）的超位置（Superposition）组合算子，进一步增强了表达能力。

3. 主要贡献 (Key Contributions)

理论突破： 首次从理论上证明了机器人策略的凸分数组合可以产生优于单一策略的函数目标，并通过稳定性分析证明了这种优势会传播到整个轨迹生成过程。
提出 GPC 框架： 设计了一个灵活、免训练的通用框架，能够无缝组合异构的预训练策略（扩散/流、VA/VLA），无需修改基础模型。
广泛的实证验证： 在多个仿真基准（Robomimic, PushT, RoboTwin）和真实世界机器人实验中，验证了 GPC 的一致性和有效性。

4. 实验结果 (Results)

实验涵盖了仿真环境和真实世界机器人（Piper 机械臂），对比了多种基线策略（DP, Mamba Policy, Flow Policy, RDT, $\pi_0$ 等）。

性能提升：
- Robomimic & PushT： GPC 平均提升了 7.55% 的成功率。例如，组合 VLA 和 VA 模型（Florence-D + DP）提升了 5.51%。
- RoboTwin (双臂操作)： 在双臂协作任务中，GPC 最高提升了 7% 的成功率。例如，组合 RDT (VLA) 和 DPpcd (点云) 将平均成功率从 0.65 提升至 0.72。
- 真实世界实验： 在“放置瓶子”、“挂杯子”、“清洁桌子”等任务中，GPC 均表现出比单一策略更高的成功率（例如清洁桌子任务从 12/20 提升至 14/20）。
关键发现：
- 互补性： 当两个策略在中等精度水平时，组合效果最好（如 Empty Cup Place 任务提升 24%）。
- 权重敏感性： 最优权重高度依赖于任务。性能更好的策略通常应分配更大的权重（>0.5），但并非总是 1.0，适当的混合能利用互补信息。
- 分布可视化： 组合后的策略生成的轨迹分布比单一策略更集中、更连贯，减少了噪声和发散。
效率：
- GPC 是免训练的，仅需在测试时进行少量的权重搜索（约 1-2.5 小时），远少于从头训练或微调（数天）。
- 推理延迟增加可控（每动作块从 0.09s 增加到 0.13s），属于纯计算开销。

5. 意义与影响 (Significance)

范式转变： 提出了一种不依赖大规模新数据收集或昂贵微调的“策略组合”新范式。它表明，通过智能地组合现有的专家模型，可以构建出更强的通用策略。
即插即用 (Plug-and-Play)： GPC 具有极高的通用性，可以整合不同来源、不同架构、不同模态的预训练模型，极大地降低了机器人策略部署的门槛。
理论指导实践： 为机器人学习中的集成学习（Ensemble Learning）和模型组合提供了坚实的理论依据，解释了为什么“组合”往往优于“单一”。
未来方向： 为自适应权重搜索、多策略（>2 个）组合以及更复杂的组合算子（如逻辑算子）的研究开辟了道路。

总结： 这篇论文通过理论证明和大量实验，展示了 GPC 是一种简单、有效且通用的方法，能够通过测试时组合现有扩散或流模型的分布分数，显著提升机器人在各种操作任务中的性能和适应性，而无需额外的训练成本。