Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal

本文介绍了频率引导算子(FGO),这是一种新颖的算法,它通过中间子频流形引导动作生成,在抑制人类演示中的高频噪声的同时保留关键任务细节,从而增强基于扩散的视动策略。

原作者: Junlin Wang

发布于 2026-05-28✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Junlin Wang

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在教机器人执行一项精细的任务,比如堆叠杯子或在桌面上滑动鼠标。你是通过向它展示人类完美完成这些工作的视频来做到这一点的。这种方法被称为“行为克隆”。

然而,这里有一个问题:人类并非完美无缺。 即使我们试图平稳地移动,我们的手也会有微小的、无意识的抖动、停顿和震颤。这些就像信号中的“高频噪声”。

当机器人试图从这些视频中学习时,它往往会连同好习惯一起复制坏习惯。它学会了像人类一样抖动和 jerky(动作不连贯)。这对于一种称为**扩散策略(Diffusion Policy)**的人工智能来说尤其糟糕。将扩散策略想象成一位雕塑家,他从一块充满噪声和杂讯的粘土开始,慢慢凿去噪声以显露雕像。问题是,如果原始粘土(人类数据)本身就有奇怪、参差不齐的裂缝,雕塑家在试图平滑处理时可能会不小心将这些裂缝扩大,最终导致机器人手臂的动作变得生硬且不稳定。

解决方案:频率引导算子(FGO)

这篇论文的作者,由王军林(Junlin Wang)领导,提出了一种名为**频率引导算子(Frequency Guidance Operator, FGO)**的新方法来解决这个问题。以下是其工作原理,使用了一些简单的类比:

1. “模糊与锐化”类比

想象你有一张人手移动的照片。

  • 问题所在: 照片是模糊的(低频),但也带有静电和颗粒感(高频噪声)。如果你试图一次性锐化整张照片,颗粒感会被放大,使图像看起来更糟。
  • 旧方法: 标准的人工智能试图一次性学习整张图片(平滑运动 + 抖动噪声)。
  • FGO 方法: 这种新方法教导人工智能分层观察照片。首先,它观察大的、模糊的形状(手的大致路径)。一旦路径清晰,它再慢慢添加精细细节。关键在于,它在添加细节的同时学会了忽略“颗粒”(噪声)。

2. “子频流形”(平滑路径)

论文中提到了“子频流形”。想象一条山间小径。

  • 完整路径: 小径包含主路,但也有许多松动的岩石、坑洼和参差不齐的边缘(噪声)。
  • FGO 路径: 人工智能被训练在一系列平滑、铺砌的路径上行走,这些路径与主路平行。
    • 首先,它在一条非常宽阔、平滑的小径上行走,这条小径只显示大致方向(低频)。
    • 然后,它移动到一条稍微更详细的小径上。
    • 最后,它移动到完整、详细的小径上。
    • 通过一步步走过这些“平滑路径”,人工智能学会了在不踩到参差不齐岩石的情况下到达目的地。它有效地在人类的抖动动作成为机器人肌肉记忆之前将其“过滤”掉了。

3. “引导雕塑家”

在机器人的思考过程(称为“反向去噪”)中,人工智能通常试图基于纯噪声来猜测下一步动作。

  • FGO 充当向导: 它向人工智能低语:“嘿,现在别担心那些微小、快速的抖动。先关注大的、缓慢的运动。”
  • 随着人工智能越来越接近做出决定,向导慢慢说道:“好吧,现在你可以添加一点细节,但要保持平滑。”
  • 这确保了机器人的最终动作流畅且一致,而不是对人类神经性抽搐的抖动式模仿。

他们发现了什么?

研究人员在15 种不同的机器人任务上测试了这种方法,从简单的任务(如举起一块积木)到复杂的任务(如使用灵巧的手转动门把手或敲钉子)。他们在计算机模拟中以及实验室里的真实机械臂上进行了测试。

  • 更平滑的动作: 使用 FGO 的机器人动作要平滑得多。它们的抖动和停顿更少。
  • 更高的成功率: 由于动作更平滑且更可预测,机器人实际完成任务的频率高于使用旧方法的机器人。
  • 现实世界的证明: 他们甚至在一台真实机械臂上测试了它,让它去拿杯子和滑动鼠标,结果证明其效果优于标准方法。

权衡

论文承认有一个小缺点:因为人工智能必须采取这些额外的“平滑步骤”来确定动作,所以它思考的时间比标准方法要稍微长一点点(多几毫秒)。然而,作者认为,平滑度和成功率的提升值得这微小的延迟。

简而言之: FGO 教导机器人通过首先关注“大局”并过滤掉“神经性抖动”来向人类学习,从而创造出像优雅舞者一样移动,而不是像颤抖的模仿者那样移动的机器人。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →