ロボットに、カップを積み重ねたり、机の上でマウスを滑らせたりするような繊細なタスクを教える場面を想像してください。その際、人間が完璧にその作業を行っている動画を見せることで教えます。これは「行動クローニング」と呼ばれます。

しかし、一つの問題があります：人間は完璧ではありません。 滑らかに動かそうとしても、手には微小な無意識のピクつき、一時停止、震えが生じます。これらは信号における「高周波ノイズ」のようなものです。

ロボットがこれらの動画から学習しようとすると、良い習慣だけでなく悪い習慣もコピーしてしまいます。ロボットは人間と同じように震えたりピクついたりすることを学習してしまいます。これは特に**拡散方策（Diffusion Policy）**と呼ばれる種類の AI にとって致命的です。拡散方策を、ノイズや静電気が混じった粘土の塊から彫刻を彫り出す彫刻家に例えてみましょう。彫刻家はゆっくりとノイズを削り取り、像を現出させます。問題は、元の粘土（人間のデータ）に奇妙でギザギザした亀裂が入っている場合、彫刻家が滑らかにしようとして努力する過程で、その亀裂を逆に大きくしてしまう可能性があることです。その結果、ピクつきやすく不安定なロボットアームが生まれてしまいます。

解決策：周波数ガイダンス演算子（FGO）

Junlin Wang 氏を筆頭とするこの論文の著者たちは、この問題を修正するための新しい手法として**周波数ガイダンス演算子（Frequency Guidance Operator, FGO）**を提案しています。その仕組みを、いくつかの単純な比喩を用いて説明します。

1. 「ぼかしと鮮明化」の比喩

人間が手を動かしている写真があると想像してください。

問題点: その写真はぼやけています（低周波）が、同時にノイズやザラつき（高周波ノイズ）も含まれています。もし一度に写真全体を鮮明化しようとすると、ザラつきが増幅され、画像はさらに悪化してしまいます。
従来の方法: 標準的な AI は、全体像（滑らかな動き＋ピクつくノイズ）を一度に学習しようとします。
FGO の方法: この新しい手法は、AI に写真を層別にして見るよう教えます。まず、大きなぼやけた形状（手の全体的な軌道）を見ます。その軌道が明確になったら、ゆっくりと細かい詳細を追加していきます。重要なのは、詳細を追加する際に「ザラつき（ノイズ）」を無視して学習することです。

2. 「サブ周波数多様体（滑らかな経路）」

論文では「サブ周波数多様体」について言及しています。山岳地帯の登山道を想像してください。

完全な経路: 登山道にはメインの道がありますが、同時に多くの loose な岩、穴、ギザギザの縁（ノイズ）も存在します。
FGO の経路: AI は、メインの道と並行して走る一連の滑らかな舗装された道を歩くように訓練されます。
- まず、全体的な方向のみを示す非常に広く滑らかな道（低周波）を歩きます。
- 次に、少し詳細な道へと移ります。
- 最後に、完全な詳細な道へと移ります。
- これらの「滑らかな道」を一つずつ踏みしめることで、AI はギザギザの岩を踏むことなく目的地に到達することを学びます。これにより、人間のピクつき運動がロボットの筋肉記憶の一部になる前に、実質的に「フィルタリング」されます。

3. 「導かれた彫刻家」

ロボットの思考プロセス（「逆ノイズ除去」と呼ばれる）において、AI は通常、純粋なノイズに基づいて次の動きを推測しようとします。

FGO はガイドとして機能します: それは AI に囁きます。「ねえ、今のところは小さくて速い震えを気にしなくていいよ。まずは大きくてゆっくりとした動きに集中して。」
AI が意思決定に近づくと、ガイドはゆっくりと言います。「よし、今から少しだけ詳細を追加できるけど、滑らかに保ってね。」
これにより、ロボットの最終的な動きは、人間の神経質なピクつきの震えをコピーしたものではなく、流れるような一貫性のあるものになります。

彼らは何を発見したか？

研究者たちは、ブロックを lifting する単純なタスクから、器用な手を使ってドアノブを回したり釘を打ったりする複雑なタスクまで、15 種類の異なるロボットタスクでこれをテストしました。これらはコンピュータシミュレーション内と、実験室の実際のロボットアーム上でテストされました。

より滑らかな動き: FGO を使用したロボットは、はるかに滑らかに動きました。ピクつきや一時停止が少なくなりました。
高い成功率: 動きが滑らかで予測可能だったため、ロボットは従来の方法を使用したロボットよりも実際にタスクを完了する頻度が高くなりました。
実世界での証明: 彼らは実際にロボットアームを使ってカップを拾ったりマウスを滑らせたりするテストも行い、標準的な方法よりも優れていることを確認しました。

トレードオフ

論文は、一つ小さな欠点を認めています。AI が動きを決定するためにこれらの追加の「滑らかなステップ」を踏む必要があるため、標準的な方法よりも思考にわずかに時間がかかる（数ミリ秒ほど）ということです。しかし、著者たちは、滑らかさと成功率の向上が、このわずかな遅延に見合う価値があると主張しています。

要約すると: FGO は、ロボットに「全体像」に焦点を当て、「神経質な震え」をフィルタリングすることで人間から学習することを教えます。その結果、ロボットは震えるコピーキャットではなく、優雅なダンサーのように動くようになります。

技術的概要：サブ周波数多様体移動による周波数誘導型行動拡散

問題定義

行動クローニングを通じた視覚運動ポリシーの学習は、しばしば人間の専門家デモンストレーションに含まれる高周波ノイズを継承する「病理」に悩まされる。自然な人間データには、断続的なジャーク、一時停止、および行動のジッターが避けられない。拡散ベースのポリシーが、これらの生で全周波数の軌跡を直接模倣するように訓練されると、これらの偽の高周波変動に過剰適合する傾向がある。その結果、展開時に不安定でぎくしゃくしたモーターコマンドが生じる。

この問題は、拡散ポリシーにおいて特に顕著である。概念的には粗いものから細かいものへのパラダイムに従う反復的なノイズ除去プロセスは、意図的な微細な詳細を犠牲にして、偶発的に高周波のアーティファクトを増幅しうる。標準的な拡散モデルは、ノイズから全周波数データ多様体への直接マッピングを学習する。これは、低周波の意図と高周波の詳細が時間的に絡み合っている複雑な非線形タスクにおいて、極めて広帯域な目的関数となり、非常に困難である。

手法：周波数誘導演算子 (FGO)

これらの限界に対処するため、著者らは生成プロセス中にスペクトル階層を暗黙的に強制する新しい拡散誘導メカニズムである周波数誘導演算子 (FGO) を提案する。核心となるアイデアは、ノイズサンプルを直接全周波数多様体へ向かわせるのではなく、拡大するスペクトルバンドを持つ中間サブ周波数多様体の階層を通じて、逆方向のノイズ除去プロセスを誘導することである。

1. 多バンドマッピングの学習（訓練フェーズ）

FGO は、モデルに全周波数データ多様体を直接予測させるのではなく、ノイズ予測器にサブ周波数データ多様体へのマッピングを学習させる。

周波数トリミング: 訓練中、クリーンなアクションチャンク $A^0_t$ を、カットオフ周波数 $f$ によって定義された離散ローパスフィルタのバンク ( $L_f$ ) に通す。これにより、周波数がトリミングされた系列 $A^{0,f}_t$ が生成される。
条件付き予測: ノイズ予測器 $\epsilon_\theta$ は、カットオフ周波数 $f$ を明示的に条件付けるように拡張され、 $\epsilon_\theta(A^{k,f}_t, k, O_t, f)$ という形式をとる。
サンプリング戦略: 安定性を確保するため、カットオフ周波数 $f$ は、確率 $p_{base}$ で基本周波数 $f_{base}$ に等しくなるように、またはそれ以外の場合は $[f_{base}, f_{max}]$ から一様にサンプリングされるように設定される。これにより、誘導プロセスに不可欠な安定した低周波の基盤が確立される。
k-f 結合 (KFC) サンプリング: 高ノイズレベル（高周波信号がノイズに支配されている状態）においてモデルが高周波予測に容量を浪費するのを防ぐため、カットオフ周波数の上限 $f_{max}$ は拡散ステップ $k$ に基づいて動的に調整される。高ノイズレベルでは低周波に限定して訓練を行い、低ノイズレベルではより広範なスペクトル訓練を可能にする。

2. 漸進的誘導（推論フェーズ）

逆方向のノイズ除去プロセス中、FGO は合成ベクトル場を生成することにより、軌跡を全周波数多様体へと誘導する。

ベクトル場補間: 各ノイズ除去ステップ $k$ $k$ において、誘導メカニズムは 2 つの条件付きノイズ推定値の重み付き組み合わせを計算する。
1. $\epsilon_{base}$ : 低周波 $f_{base}$ -多様体へ向かうベクトル場。
2. $\epsilon_{fine}$ : より高いカットオフ周波数を持つ中間 $f_k$ -多様体へ向かうベクトル場。
合成場: 最終的なノイズ推定値は $\tilde{\epsilon} = (1 - \omega_k)\epsilon_{base} + \omega_k \epsilon_{fine}$ となる。
漸進的拡大: ノイズ除去プロセスが進むにつれて（ $k$ が減少する）、カットオフ周波数 $f_k$ と誘導重み $\omega_k$ は線形にスケジュールされ、増加する。これにより、ノイズサンプルは低周波の基盤から、拡大するサブ周波数多様体を経て、最終的に全周波数データ多様体に到達するまで漸進的に駆動される。
近似: 推論中はクリーンなアクション $A^0_t$ が未知であるため、周波数トリミングされたノイズ入力 $A^{k,f}_t$ は、現在のノイズ状態 $A^k_t$ に直接ローパスフィルタを適用することで近似される。

主要な貢献

新しい拡散誘導パラダイム: 本論文は、生成中に通過するスペクトルバンドを明示的に制御することで、ノイズ除去プロセス中に高周波ノイズを抑制する周波数ベースの誘導メカニズムを導入する。
多バンド訓練と推論: この手法は、周波数トリミングされたアクションのスペクトル上でモデルを訓練し、推論中は低周波構造から高周波詳細へアクションを再構築するための漸進的誘導戦略を利用する。
包括的な評価: 著者らは、Robosuite、MimicGen、Adroit、DexArt、および実世界の xArm 設定を含む 5 つのベンチマークにまたがる 15 のロボット操作タスク全体で FGO を検証した。
アブレーション研究: 本論文は、基本周波数サンプリング、KFC サンプリング戦略、および誘導重みの線形スケジュールの必要性を確認する詳細なアブレーション研究を提供する。

実験結果

成功率: FGO は、ベースライン (DP3、DiT-Policy、FreqPolicy) と比較して、一貫して優れた、あるいは同等の成功率を達成する。Robosuite と MimicGen ベンチマークにおいて、FGO は 4 つの基本的タスクの 3 つと、両方の複雑な MimicGen タスクで競合他社を上回った。Adroit と DexArt の巧みな操作ベンチマークにおいて、FGO は 7 つのタスクの 6 つでベースラインを上回った。
行動の滑らかさ: FGO は時間的整合性を著しく改善する。Robosuite の「Can」タスクにおいて、FGO はすべてのベースラインと比較して最低のアクション総変動 (ATV) を達成し、特に JerkRMS の顕著な減少を示した。これは、より滑らかで、ぎくしゃくしない実行を示している。
実世界での性能: xArm マニピュレータ（カップとマウスタスク）上での実世界実験において、FGO はベースラインの DP3 法を一貫して上回り、物理環境におけるその堅牢性を検証した。
計算コスト: FGO は、追加の訓練時間をほとんど増加させない。ただし、誘導メカニズムにより推論レイテンシはベースラインよりわずかに高くなる。これは、誘導ベースのアルゴリズムにおける既知のトレードオフである。

意義と主張

本論文は、FGO が行動クローニングにおける根本的な限界、すなわち拡散ポリシーが人間のデモンストレーションから高周波ノイズを継承し増幅する傾向に対処していると主張する。生成プロセスをサブ周波数多様体の階層を通じて明示的に誘導することで、FGO は、大域的な運動構造（低周波）の学習と、微細な詳細（高周波）の学習を効果的に分離する。

著者らは、このアプローチがタスク実行においてより成功するだけでなく、非常に滑らかで時間的に整合性の取れた行動軌跡を生成するポリシーをもたらすと主張する。生成を不安定化させる可能性のある外挿重みを必要とする標準的な誘導手法（Classifier-Free Guidance など）とは異なり、FGO は周波数多様体間の補間戦略を利用し、ベクトル場の安定した凸結合を維持する。この研究は、周波数領域の帰納的バイアスを活用することが、シミュレーションおよび実世界のロボット応用の両方において、視覚運動ポリシーの品質と信頼性を大幅に向上させることを実証している。

Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal