One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

本論文は、勾配競合を軽減する混合専門家(MoE)アーキテクチャと、学習過程で動的にモデル容量を拡張するオンライン動的パラメータスケーリング(DPS)戦略を組み合わせることで、単一のモデルで多様なタスクにおける効率的な計画を実現する「ScaleZero」を提案し、専門的な単一タスクエージェントと同等の性能を環境相互作用を大幅に削減しながら達成することを示しています。

Yuan Pu, Yazhe Niu, Jia Tang, Junyu Xiong, Shuai Hu, Hongsheng Li

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「たった 1 つの AI が、あらゆるゲームやタスクを同時にマスターできるか?」**という壮大な挑戦について書かれています。

通常、AI は「将棋の AI」や「囲碁の AI」のように、特定のタスクに特化して作られます。しかし、人間のように「何でもできる万能な AI(ジェネラリスト)」を作るには、多くの異なるタスクを同時に学習させる必要があります。

この論文では、その壁を突破するための新しい AI 構造**「ScaleZero(スケールゼロ)」と、それを効率よく動かす「DPS(ダイナミック・パラメータ・スケーリング)」**という 2 つのアイデアを紹介しています。

以下に、難しい専門用語を使わず、日常の比喩を使って解説します。


1. 問題点:なぜ「万能な AI」は作りにくいのか?

想像してください。ある巨大なキッチン(AI の脳)に、料理人(学習中の AI)が一人だけいます。
この料理人は、同時に「寿司を作る」「ステーキを焼く」「ケーキをデコレーションする」という 3 つの仕事を任されました。

  • 寿司は繊細で静かな手作業が必要です。
  • ステーキは高温で力強い火加減が必要です。
  • ケーキは甘さと見た目の美しさが重要です。

もし料理人が「寿司の包丁さばき」を練習している最中に、「ステーキの強火」の指示が入ると、脳が混乱してしまいます。

  • 「包丁を研ぐ」べきか「火を強くする」べきか、指示が衝突します(勾配の衝突)。
  • 結果として、料理人は「寿司もステーキも中途半端」になり、最終的には**「何もできなくなる(学習の塑性が失われる)」**という状態に陥ります。

これまでの AI は、この「一人の料理人が全てを背負う」方式だったので、難しいタスクが増えると失敗していました。


2. 解決策①:ScaleZero(スケールゼロ)

「一人の料理人」を「専門家のチーム」に変える

この論文の第一の発見は、**「モジュール型(エキスパート・モデル)」**という構造に変えることです。

  • これまでの AI: 全員が同じ脳みそ( Dense Transformer)で、全てのタスクを処理しようとする。
  • ScaleZero の AI: 脳の中に**「専門家(エキスパート)」**という小さな部屋をいくつか作ります。
    • 「寿司の専門家」部屋
    • 「ステーキの専門家」部屋
    • 「ケーキの専門家」部屋

どう動く?
料理(タスク)が入ってくると、**「案内係(ゲート)」**が「これは寿司だ!寿司の専門家の部屋へ!」と誘導します。

  • 寿司の練習中は、ステーキの部屋は閉じられます。
  • ステーキの練習中は、寿司の部屋は閉じられます。

これにより、**「寿司の練習がステーキの練習を邪魔する」**という問題がなくなります。それぞれの専門家が自分の得意分野を深く学べるため、どんなに難しいタスクでも、他のタスクと干渉せずにマスターできるようになります。


3. 解決策②:DPS(ダイナミック・パラメータ・スケーリング)

「必要な時にだけ、新しい道具を追加する」

次に、**「効率」**の問題です。
最初から「寿司・ステーキ・ケーキ」の全ての道具を揃えておくと、厨房(メモリ)がパンクしてしまいます。また、すでに寿司が完璧にできるようになったのに、寿司の練習を続けるのは無駄です。

そこで登場するのがDPSという戦略です。

  • 段階的な学習:
    1. まず、**「基本の料理人(ベースモデル)」**を育てて、全ての料理の基礎を教えます。
    2. 寿司が上手になったら、寿司の練習は**「凍結(固定)」**します。もう寿司の道具は触りません。
    3. 次に、**「ステーキの専門道具(LoRA アダプター)」**だけを新しい箱に入れて追加します。
    4. ステーキが上手くなったら、これも凍結。次にケーキの道具を追加します。

比喩:
まるで、**「成長する植物」**のようです。

  • 最初は土と水(基本の脳)だけで育てます。
  • 根が張って安定したら、新しい枝(専門の道具)を付け足します。
  • すでに育った枝はそのままに、新しい枝に栄養(計算リソース)を集中させます。

これにより、**「必要な分だけリソースを使う」**ことができるため、学習にかかる時間やデータ量が大幅に減ります(約 3 割の節約に成功しました)。


4. 結果:何ができたのか?

この 2 つのアイデア(専門家チーム+必要な時に道具を追加)を組み合わせることで、以下の成果が出ました。

  • 26 種類の Atari ゲーム(昔のアーケードゲーム)18 種類のロボット制御タスク4 つのテキストアドベンチャーゲームなど、全く異なる 48 のタスクを、たった 1 つの AIで同時に学習できました。
  • 従来の「タスクごとに別々の AI を作る」方法と比べても、同じかそれ以上の性能を達成しました。
  • しかも、環境との対話回数(データ量)を 3 割近く減らして、同じレベルの性能を出せました。

まとめ

この論文は、**「万能な AI を作るには、一人の天才に全てを任せるのではなく、専門家のチームを組ませ、必要な時にだけ新しいメンバーを追加していく」**という、とても人間らしい(そして効率的な)アプローチを提案しています。

  • ScaleZero = 専門家のチーム(モジュール型 AI)
  • DPS = 必要な時にだけ道具を追加する賢い管理(動的リソース配分)

これにより、将来的に「将棋も、料理も、運転も、翻訳も」すべてを一つの AI が、少ないデータで完璧にこなすような、本当に賢い汎用 AI の実現に一歩近づいたと言えます。