Evolving Diffusion and Flow Matching Policies for Online Reinforcement Learning

この論文は、最適化と生成を分離するという構造的な原則に基づき、表現力豊かな生成モデルとオンライン強化学習の安定性を両立させる新しいフレームワーク「GoRL」を提案し、複雑な連続制御タスクにおいて既存の手法を大幅に上回る性能を達成したことを報告しています。

Chubin Zhang, Zhenglin Wan, Feng Chen, Fuchao Yang, Lang Feng, Yaxin Zhou, Xingrui Yu, Yang You, Ivor Tsang, Bo An

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、ロボットやゲームの AI が「より賢く、より柔軟に」動くための新しい仕組み**「GORL(ゴール)」**を紹介しています。

一言で言うと、**「安定して学習する『頭』と、多彩な動きを生み出す『体』を分けて、二人三脚で育てる」**という画期的な方法です。

以下に、難しい専門用語を使わず、日常の例え話を使って解説します。


1. 従来の AI の悩み:「真ん中しか取れない」

これまでの AI(特にロボット制御など)は、動きを「ガウス分布(ベル型の曲線)」という単純なルールで決めていました。

  • 例え話:
    料理人が「卵料理」を作る時、AI は「卵黄と白身を混ぜて、一番平均的な味のオムレツ」しか作れません。
    しかし、実際の状況では「たまには固いオムレツ(A)」も必要だし、「ふんわりしたオムレツ(B)」も必要かもしれません。
    従来の AI は、A と B の中間にある「まずい味」のオムレツを作ってしまいがちで、複雑な状況では失敗しやすいのです。これを論文では**「モードカバリング問題(多様な選択肢をカバーしきれない問題)」**と呼んでいます。

2. 新しい試み:「複雑な動き」の罠

最近、AI が「拡散モデル(画像生成 AI のような技術)」を使って、A や B のように多様な動きを作れるようになりました。

  • 問題点:
    しかし、この複雑な AI を「オンライン学習(実際に動きながら学ぶ)」で育てようとすると、**「計算が重すぎて、AI がパニックになる」**という問題が起きます。
    • 例え話:
      複雑な料理のレシピ(拡散モデル)を、その場で「味見しながら」修正しようとするのは、調理中に鍋を何百回も取り替えるようなもので、厨房(学習環境)が混乱して火事(学習の破綻)になります。

3. GORL の解決策:「頭」と「体」の分離

そこで登場するのがGORLです。この方法は、「学習(頭)」と「実行(体)」を完全に切り離すというアイデアを使います。

🧠 頭(エンコーダー):シンプルで安定した「指揮者」

  • 役割: 何をするかを決める「指揮者」です。
  • 特徴: 動きは単純な「平均的なオムレツ(ガウス分布)」しか作れません。
  • メリット: 計算が簡単で、**「失敗してもすぐに立て直せる」**ほど安定しています。
  • 例え話:
    経験豊富な料理長が、「今日は卵を少し固くするか、ふんわりするか」という**「大まかな指示(ラテン変数)」**だけを出します。

🤖 体(デコーダー):多才で表現豊かな「職人」

  • 役割: 指示を受けて、実際に複雑な料理(動き)を作る「職人」です。
  • 特徴: 拡散モデルやフローマッチングという高度な技術を使い、「固いオムレツ」も「ふんわりオムレツ」も自在に作れます。
  • メリット: 非常に表現力が高く、複雑な動きが可能です。
  • 例え話:
    料理長からの「固くして」という指示を受け、職人が**「完璧な固いオムレツ」**を瞬時に作り上げます。

4. 二人三脚のトレーニング方法(2 つのステップ)

GORL は、この「頭」と「体」を交互に鍛えることで、安定性と表現力を両立させます。

  1. ステップ 1:頭を鍛える(体は固定)
    • 職人(体)は固定したまま、料理長(頭)が「どんな指示を出せば美味しい料理(高得点)になるか」を学習します。
    • 複雑な計算は不要なので、安定して学習が進みます。
  2. ステップ 2:体を鍛える(頭は固定)
    • 料理長(頭)は固定したまま、職人(体)が「料理長の指示通りに、より美味しい料理を作る」ように練習します。
    • 重要: ここでは、料理長が「今、自分が作った指示」をそのまま見せるのではなく、**「最初から決まった基準(ノイズ)」**を使って練習させます。
    • なぜ? もし「自分が出した指示」だけを見て練習すると、職人は「自分の指示に合わせるだけ」になってしまい、新しい技が身につかないからです。基準に合わせることで、職人は**「どんな指示にも対応できる万能な技術」**を身につけます。

このように、**「安定して学習する頭」「表現豊かな体」を交互に育てることで、AI は「失敗しない」かつ「多様な動きができる」**ようになります。

5. 結果:驚異的な性能

この方法を実際のロボット制御(DMControl というテスト環境)で試したところ、従来の AI が苦戦していた**「片足でバランスを取る(HopperStand)」**などの難しい課題で、他の AI の 3 倍以上のスコアを達成しました。

  • 従来の AI: 片足でバランスを取ろうとして、ふらついて倒れてしまう。
  • GORL: 「左足に体重をかける」か「右足に体重をかける」という2 つの明確な戦略を自在に使い分け、安定して立ち続けることができるようになりました。

まとめ

この論文が伝えているのは、**「複雑なことをさせたいなら、複雑なまま学習させるのではなく、シンプルに学習させてから、複雑な実行に移す」という、「分解と再構成」**の重要性です。

まるで、**「シンプルで堅実な司令塔(頭)」「多才で柔軟な実行部隊(体)」**を組ませることで、AI がこれまで不可能だった「安定した複雑な動き」を実現した、というお話です。