World Action Models are Zero-shot Policies

この論文は、事前学習された動画拡散モデルを基盤とした「DreamZero」と呼ばれる世界行動モデルを提案し、物理的ダイナミクスを動画と行動の予測を通じて学習させることで、従来の視覚言語行動モデルを超えた汎化性能と、わずか数十分のデータで新しいロボット体への適応を可能にするゼロショット制御を実現したことを報告しています。

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

公開日 2026-02-19
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🤖 ドリームゼロ(DreamZero):ロボットに「未来を予見する力」を与えた画期的な研究

この論文は、NVIDIA などの研究チームが発表した**「DreamZero(ドリームゼロ)」**という新しいロボット制御システムについて書かれています。

一言で言うと、**「ロボットに『未来の映像』を想像させることで、人間のように柔軟に動き、新しい環境でも失敗せずに作業ができるようにした」**という画期的な技術です。

従来のロボットが抱えていた「苦手なこと」を、まるで魔法のようなアプローチで解決しました。以下に、専門用語を使わずに、日常の例えを交えて解説します。


🧐 従来のロボットは「暗記」しかできない?

これまでのロボット(VLA モデルと呼ばれるもの)は、**「教科書(大量のデータ)を丸暗記」**して動くタイプでした。

  • 得意なこと: 「コカ・コーラをテーブルに運ぶ」といった、訓練で見たことのある指示には完璧に応えます。
  • 苦手なこと: 「靴ひもを解く」「新しい形の箱を開ける」など、一度も見たことのない動きや、全く違う部屋での作業になると、パニックを起こして動けなくなります。

これは、**「暗記した答えしか知らない学生」**に似ています。テスト問題が少し変わっただけで、答えられなくなってしまうのです。


🎬 DreamZero の正体:未来を「映像」で見る天才

DreamZero は、この「暗記」ではなく、**「未来を映像として想像する」**という能力をロボットに与えました。

🍳 料理の例えで説明します

  • 従来のロボット: 「卵を割る」手順を何千回も練習して、筋肉の動きだけを記憶しています。でも、卵が割れた後の「黄身が飛び散る様子」を想像できないので、失敗するとどうすればいいか分かりません。
  • DreamZero: 「卵を割る」前に、「卵を割ったら、黄身がどう飛び散り、どう皿に落ちるのか」を映像として頭の中でシミュレーションします。そして、その「未来の映像」に合わせて、手元の動きを調整します。

つまり、DreamZero は**「未来の映像生成 AI」「ロボットの制御 AI」を合体させた存在です。
「こう動けば、未来はこうなる」という
因果関係**を、映像を通じて理解しているのです。


✨ 3 つの驚くべき魔法

この技術によって、ロボットは以下の 3 つのすごい能力を手に入れました。

1. 🌍 見知らぬ場所でも、見知らぬ仕事もできる(ゼロショット一般化)

  • 状況: 訓練では「赤いリンゴ」を運ぶ練習しかしていません。
  • DreamZero: 本番では「青い梨」を「見知らぬ台所」で運ぶよう指示されます。
  • 結果: 従来のロボットは「梨」や「台所」を見て動けませんが、DreamZero は**「梨を運ぶ未来の映像」**を想像できるので、スムーズに作業を完了します。
  • 効果: 実験では、従来のロボットよりも2 倍以上の成功率を記録しました。

2. 📹 動画を見ているだけで、他のロボットも真似できる(クロス・エンボディメント)

  • 状況: 人間が「お皿を洗う」様子をスマホで撮影した動画(12 分)だけを与えます。ロボット自体は「お皿を洗う」練習をしていません。
  • 結果: DreamZero はその**「動画」を見るだけで**、自分の手足(ロボットアーム)を使って同じ動きを習得できます。
  • 魔法: 動画には「手」の動きしかありませんが、DreamZero はそれを自分の「ロボットの手」に変換して実行します。まるで**「映画を見て、自分もその役を演じられるようになる」**ような感覚です。

3. ⚡ 30 分で新しいロボットにもなれる(数ショット適応)

  • 状況: 二足歩行ロボット(AgiBot)から、二腕の新しいロボット(YAM)に乗り換える必要があります。
  • 結果: 従来のロボットなら何千時間もの練習が必要ですが、DreamZero は**「30 分間の遊びのデータ」**だけで、新しいロボットとして完璧に動けるようになります。
  • 魔法: 未来を想像する力が備わっているため、手足の形が変わっても「どう動けば目的が達成されるか」を即座に理解できるのです。

🚀 遅いはずの AI が、なぜリアルタイムで動くの?

通常、未来の映像を生成する AI(拡散モデル)は計算が重く、ロボットを動かすには**「遅すぎる」**のが常識でした。1 回動かすのに数秒かかることもあります。

しかし、DreamZero は**「38 倍の高速化」**という技術的魔法をかけました。

  • 工夫: 映像と動きを同時に計算するのではなく、**「映像が少し荒れていても、動きだけは正確に」**という仕組み(DreamZero-Flash)を取り入れたり、計算の無駄を徹底的に省いたりしました。
  • 結果: 1 秒間に 7 回(7Hz)の計算が可能になり、人間が感じる「リアルタイム」でロボットを制御できるようになりました。

💡 まとめ:ロボットに「直感」が生まれた瞬間

DreamZero は、ロボットに**「教科書の暗記」ではなく、「未来を想像する直感」**を与えました。

  • 従来のロボット: 「このボタンを押せば、この動きをする」というルールを覚えている。
  • DreamZero: 「このボタンを押したら、世界はこう変わる」というストーリーを想像して、最適な動きを見つける。

これにより、ロボットは工場や実験室だけでなく、**私たちの生活する「見知らぬ家」や「新しい仕事」**でも、人間のように柔軟に活躍できるようになりました。

この技術は、**「ロボットが人間社会に溶け込む」**ための大きな一歩と言えるでしょう。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →