World Simulation with Video Foundation Models for Physical AI

NVIDIA は、物理 AI 向けの世界シミュレーションを強化するため、テキスト・画像・動画からの世界生成を統合し、強化学習により高品質化された「Cosmos-Predict2.5」と、Sim2Real 翻訳を可能にする「Cosmos-Transfer2.5」を開発し、ソースコードやモデルをオープンソースとして公開しました。

NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

公開日 2026-02-26
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

物理 AI のための「未来を予知する映画館」:Cosmos-Predict2.5 と Cosmos-Transfer2.5 の解説

NVIDIA が発表したこの論文は、ロボットや自動運転車などの「物理 AI(現実世界で動く AI)」を育てるために、**「現実そっくりの未来シミュレーター」**を作ったというお話しです。

まるで、AI が「もしこうしたらどうなる?」と考えるための、**超リアルな「未来の映画館」**を開いたようなものです。


1. 何を作ったの?(2 つの主要なツール)

この研究では、大きく分けて 2 つの新しい「魔法の道具」を登場させました。

① Cosmos-Predict2.5:未来を予知する「天才シナリオライター」

  • 役割: 「ロボットが手を伸ばしたらどうなる?」「車が曲がったらどうなる?」というテキストや画像の指示から、未来の動画を生成するモデルです。
  • 特徴:
    • 1 つのモデルで何でもできる: 以前は「文字から動画」「画像から動画」「動画から動画」を別々に作っていましたが、今はこれらが1 つの天才モデルに統合されました。
    • 物理法則を学んでいる: 単に絵を描くだけでなく、「ガラスが割れる音」や「水の流れ」など、現実世界の物理法則を深く理解しています。
    • より賢い頭脳: 以前より 2 倍〜3 倍小さいサイズ(2B や 14B パラメータ)なのに、より高品質で、指示された通りに動くようになりました。

② Cosmos-Transfer2.5:世界を自在に書き換える「魔法のペンキ」

  • 役割: 既存の動画やシミュレーションの映像を、**「もっとリアルに」「別の視点に」「別の環境に」**書き換えるモデルです。
  • 特徴:
    • 3.5 倍小さく、3.5 倍上手: 前のバージョンよりサイズは小さいのに、描画の精度は圧倒的に上がりました。
    • 長い動画も狂わない: 長い動画を生成しても、途中で映像が崩れたり、物体が突然消えたりする「エラー」がほとんどありません。
    • 制御可能: 「端線(エッジ)」「ぼかし」「奥行き(ディープ)」「分割図(セグメンテーション)」などの指示を与えると、それに忠実に映像を変換します。

2. どうやって作ったの?(3 つの秘密兵器)

このすごいモデルを作るために、NVIDIA は 3 つの重要なステップを踏みました。

① 2 億個の「名画」を厳選した(データ掃除)

  • アナロジー: 料理を作るなら、材料が新鮮で高品質である必要があります。
  • 実態: 彼らはインターネットから 2 億枚以上の動画を収集し、**「4% しか残らない」**という超厳格なフィルターをかけたそうです。
    • 動きが不自然なもの、文字が重なっているもの、物理的にありえないもの(ゲーム画面やアニメなど)はすべて捨て去り、「現実世界で本当に起きたこと」だけを学習データにしました。

② 「流れるように」学ぶ(フローマッチング)

  • アナロジー: 従来の AI は「ノイズから絵を少しずつ描き足す」ように学習していましたが、新しいモデルは**「川の流れのように、滑らかに未来へ移動する」**ように学習しています。
  • 実態: これにより、動画のつなぎ目が滑らかになり、より自然な動きを再現できるようになりました。

③ 「先生」に褒めてもらう(強化学習)

  • アナロジー: 生徒がテストを受け、先生に「ここは良いけど、ここはもっとこうしたら?」とアドバイスされて、何度も練習するイメージです。
  • 実態: 生成した動画に対して、AI 自身が「この動画は指示通りか?動きは自然か?」を評価し、良い結果が出た方を褒めて、悪い方を修正するというプロセスを繰り返しました。これにより、指示への忠実度が劇的に向上しました。

3. 何に使えるの?(現実世界への応用)

この技術は、単に面白い動画を作るだけではありません。現実世界の課題を解決する「訓練場」として使われます。

🤖 ロボット訓練:安全な「仮想トレーニング」

  • 課題: ロボットを実際に動かして練習するのは、壊れるリスクが高く、時間がかかります。
  • 解決: このシミュレーターで、**「もしロボットがリンゴを掴んだらどうなるか」**を何万回も練習させます。
  • 効果: 実世界に出る前に、ロボットは「リンゴが赤い場合」「緑の場合」「テーブルが黒い場合」など、あらゆるパターンを体験済みになります。実験の結果、見知らぬ環境でもロボットが失敗せずに作業をこなせるようになりました。

🚗 自動運転:あらゆる天候・道路の「練習ドリル」

  • 課題: 自動運転車は、雪や霧、夜間、見知らぬ交差点など、あらゆる状況で安全に運転する必要があります。
  • 解決: 実際の道路マップデータを入力すると、**「雪の降る夜に、渋滞している交差点」**のような、実際に撮影するのが難しい(あるいは危険な)シナリオの動画を生成できます。
  • 効果: 自動運転 AI は、このシミュレーションで「もしも」の状況を何千回も経験し、実車での安全性を高めることができます。

🎥 合成データ生成:AI 教育用の「教材」

  • 課題: 最新の AI(VLA モデル)を教えるには、膨大な「映像+言葉+行動」のデータが必要です。
  • 解決: このモデルを使って、**「ロボットが皿を洗う動画」「箱を開ける動画」**を、指示通りに自動生成できます。
  • 効果: 人手で集めるのが難しい多様なデータを、安く・速く・大量に作れるようになり、AI の知能をさらに進化させます。

まとめ:なぜこれが重要なのか?

これまでの AI は「デジタルの世界(映画やゲーム)」を作るのが得意でしたが、**「物理の世界(現実の物体や動き)」**をシミュレートするのは難しかったです。

NVIDIA のこの新しいモデルは、**「AI が現実世界を安全に、かつ効率的に『練習』できる場所」**を提供します。

  • ロボットは、壊れることなく何万回も練習できます。
  • 自動運転車は、危険な状況も安全に経験できます。
  • 研究者は、高価な実験設備なしに、新しいアイデアを検証できます。

つまり、**「失敗してもいい仮想世界」を構築することで、「現実世界での成功」**を加速させるための、最強のエンジンが完成したのです。

NVIDIA はこの技術のコードやモデルを公開しており、世界中の研究者や開発者がこれを使って、次の世代の「物理 AI」を一緒に育てていこうと呼びかけています。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →