想象一下，你正在教机器人执行一项精细的任务，比如堆叠杯子或在桌面上滑动鼠标。你是通过向它展示人类完美完成这些工作的视频来做到这一点的。这种方法被称为“行为克隆”。

然而，这里有一个问题：人类并非完美无缺。 即使我们试图平稳地移动，我们的手也会有微小的、无意识的抖动、停顿和震颤。这些就像信号中的“高频噪声”。

当机器人试图从这些视频中学习时，它往往会连同好习惯一起复制坏习惯。它学会了像人类一样抖动和 jerky（动作不连贯）。这对于一种称为**扩散策略（Diffusion Policy）**的人工智能来说尤其糟糕。将扩散策略想象成一位雕塑家，他从一块充满噪声和杂讯的粘土开始，慢慢凿去噪声以显露雕像。问题是，如果原始粘土（人类数据）本身就有奇怪、参差不齐的裂缝，雕塑家在试图平滑处理时可能会不小心将这些裂缝扩大，最终导致机器人手臂的动作变得生硬且不稳定。

解决方案：频率引导算子（FGO）

这篇论文的作者，由王军林（Junlin Wang）领导，提出了一种名为**频率引导算子（Frequency Guidance Operator, FGO）**的新方法来解决这个问题。以下是其工作原理，使用了一些简单的类比：

1. “模糊与锐化”类比

想象你有一张人手移动的照片。

问题所在： 照片是模糊的（低频），但也带有静电和颗粒感（高频噪声）。如果你试图一次性锐化整张照片，颗粒感会被放大，使图像看起来更糟。
旧方法： 标准的人工智能试图一次性学习整张图片（平滑运动 + 抖动噪声）。
FGO 方法： 这种新方法教导人工智能分层观察照片。首先，它观察大的、模糊的形状（手的大致路径）。一旦路径清晰，它再慢慢添加精细细节。关键在于，它在添加细节的同时学会了忽略“颗粒”（噪声）。

2. “子频流形”（平滑路径）

论文中提到了“子频流形”。想象一条山间小径。

完整路径： 小径包含主路，但也有许多松动的岩石、坑洼和参差不齐的边缘（噪声）。
FGO 路径： 人工智能被训练在一系列平滑、铺砌的路径上行走，这些路径与主路平行。
- 首先，它在一条非常宽阔、平滑的小径上行走，这条小径只显示大致方向（低频）。
- 然后，它移动到一条稍微更详细的小径上。
- 最后，它移动到完整、详细的小径上。
- 通过一步步走过这些“平滑路径”，人工智能学会了在不踩到参差不齐岩石的情况下到达目的地。它有效地在人类的抖动动作成为机器人肌肉记忆之前将其“过滤”掉了。

3. “引导雕塑家”

在机器人的思考过程（称为“反向去噪”）中，人工智能通常试图基于纯噪声来猜测下一步动作。

FGO 充当向导： 它向人工智能低语：“嘿，现在别担心那些微小、快速的抖动。先关注大的、缓慢的运动。”
随着人工智能越来越接近做出决定，向导慢慢说道：“好吧，现在你可以添加一点细节，但要保持平滑。”
这确保了机器人的最终动作流畅且一致，而不是对人类神经性抽搐的抖动式模仿。

他们发现了什么？

研究人员在15 种不同的机器人任务上测试了这种方法，从简单的任务（如举起一块积木）到复杂的任务（如使用灵巧的手转动门把手或敲钉子）。他们在计算机模拟中以及实验室里的真实机械臂上进行了测试。

更平滑的动作： 使用 FGO 的机器人动作要平滑得多。它们的抖动和停顿更少。
更高的成功率： 由于动作更平滑且更可预测，机器人实际完成任务的频率高于使用旧方法的机器人。
现实世界的证明： 他们甚至在一台真实机械臂上测试了它，让它去拿杯子和滑动鼠标，结果证明其效果优于标准方法。

权衡

论文承认有一个小缺点：因为人工智能必须采取这些额外的“平滑步骤”来确定动作，所以它思考的时间比标准方法要稍微长一点点（多几毫秒）。然而，作者认为，平滑度和成功率的提升值得这微小的延迟。

简而言之： FGO 教导机器人通过首先关注“大局”并过滤掉“神经性抖动”来向人类学习，从而创造出像优雅舞者一样移动，而不是像颤抖的模仿者那样移动的机器人。

技术摘要：基于子流形遍历的频率引导动作扩散

问题陈述

通过行为克隆学习视动策略时，往往存在一种“病理”现象，即继承了人类专家演示中固有高频噪声。自然的人类数据不可避免地包含间歇性的顿挫、停顿和动作抖动。当基于扩散的策略被训练以直接模仿这些原始的、全频段的轨迹时，它们倾向于过拟合这些虚假的高频变化。这导致在部署期间产生不稳定且顿挫的电机指令。

这一问题在扩散策略中尤为突出，因为尽管其迭代去噪过程在概念上遵循从粗到细的范式，但可能会无意中放大高频伪影，从而牺牲有意义的细粒度细节。标准扩散模型学习的是从噪声到全频数据流形的直接映射，这是一种全频带目标，对于低频意图与高频细节在时间上纠缠的复杂非线性任务而言，极具挑战性。

方法论：频率引导算子 (FGO)

为了克服这些局限性，作者提出了频率引导算子（Frequency Guidance Operator, FGO），这是一种新颖的扩散引导机制，在生成过程中隐式地强制执行频谱层级结构。其核心思想是通过具有扩展频带的中间子频流形层级来引导反向去噪过程，而不是强制将含噪样本直接推向全频流形。

1. 学习多带映射（训练阶段）

FGO 并非训练模型直接预测全频数据流形，而是训练噪声预测器学习从噪声到子频数据流形的映射。

频率截断：在训练期间，将干净的动作片段 $A^0_t$ 通过由截止频率 $f$ 定义的一组离散低通滤波器 ( $L_f$ )。这生成了频率截断序列 $A^{0,f}_t$ 。
条件预测：噪声预测器 $\epsilon_\theta$ 被增强以显式地以截止频率 $f$ 为条件，其形式为 $\epsilon_\theta(A^{k,f}_t, k, O_t, f)$ 。
采样策略：为确保稳定性，截止频率 $f$ 的采样方式为：以概率 $p_{base}$ 等于基础频率 $f_{base}$ ，否则从 $[f_{base}, f_{max}]$ 中均匀采样。这建立了一个对引导过程至关重要的稳定低频基线。
k-f 耦合 (KFC) 采样：为了防止模型在高噪声水平下（此时高频信号主要由噪声主导）浪费容量于高频预测，截止频率的上限 $f_{max}$ 会根据扩散步数 $k$ 动态调整。高噪声水平将训练限制在低频，而低噪声水平则允许更宽的频谱训练。

2. 渐进引导（推理阶段）

在反向去噪过程中，FGO 通过合成复合向量场将轨迹引导至全频流形。

向量场插值：在每个去噪步 $k$ $k$ ，引导机制计算两个条件噪声估计的加权组合：
1. $\epsilon_{base}$ ：指向低频 $f_{base}$ -流形的向量场。
2. $\epsilon_{fine}$ ：指向具有更高截止频率的中间 $f_k$ -流形的向量场。
复合场：最终的噪声估计为 $\tilde{\epsilon} = (1 - \omega_k)\epsilon_{base} + \omega_k \epsilon_{fine}$ 。
渐进扩展：随着去噪过程的进行（ $k$ 减小），截止频率 $f_k$ 和引导权重 $\omega_k$ 被线性调度以增加。这将含噪样本从低频基础出发，通过不断扩展的子频流形，逐步驱动直至到达全频数据流形。
近似：由于在推理期间干净动作 $A^0_t$ 未知，频率截断的含噪输入 $A^{k,f}_t$ 通过直接将低通滤波器应用于当前含噪状态 $A^k_t$ 来近似。

主要贡献

新颖的扩散引导范式：本文提出了一种基于频率的引导机制，通过在生成过程中显式控制所遍历的频谱带，在去噪过程中抑制高频噪声。
多带训练与推理：该方法在频率截断动作的频谱上训练模型，并在推理期间利用渐进引导策略，从低频结构重建动作至高频细节。
全面评估：作者在涵盖 5 个基准（包括 Robosuite、MimicGen、Adroit、DexArt 以及真实世界的 xArm 设置）的 15 个机器人操作任务上验证了 FGO。
消融研究：本文提供了详细的消融实验，证实了基础频率采样、KFC 采样策略以及引导权重线性调度的必要性。

实验结果

成功率：与基线（DP3、DiT-Policy 和 FreqPolicy）相比，FGO 始终实现更优或相当的成功率。在 Robosuite 和 MimicGen 基准测试中，FGO 在 4 个基本任务中的 3 个以及 2 个复杂的 MimicGen 任务上优于竞争对手。在 Adroit 和 DexArt 灵巧操作基准测试中，FGO 在 7 个任务中的 6 个上超越了基线。
动作平滑度：FGO 显著提高了时间一致性。在 Robosuite“罐子”任务中，FGO 实现了最低的动作总变差（ATV），并且与所有基线相比，JerkRMS（加加速度均方根）显著降低，表明执行过程更平滑、顿挫更少。
真实世界性能：在 xArm 机械臂（杯子和鼠标任务）的真实世界实验中，FGO 始终优于基线 DP3 方法，验证了其在物理环境中的鲁棒性。
计算成本：FGO 引入的额外训练时间可忽略不计。然而，由于引导机制，推理延迟略高于基线，这是基于引导的算法已知的一种权衡。

意义与主张

本文主张，FGO 解决了行为克隆中的一个根本性局限：扩散策略倾向于继承并放大人类演示中的高频噪声。通过显式地引导生成过程穿越子频流形层级，FGO 有效地将全局运动学结构（低频）的学习与细粒度细节（高频）的学习解耦。

作者断言，这种方法产生的策略不仅在任务执行上更成功，而且能产生高度平滑且时间一致的动作轨迹。与通常需要可能导致生成不稳定的外推权重的标准引导方法（如 Classifier-Free Guidance）不同，FGO 利用流形间的插值策略，维持向量场的稳定凸组合。这项工作表明，利用频域归纳偏置可以显著提高视动策略在仿真和真实世界机器人应用中的质量和可靠性。

Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal