Each language version is independently generated for its own context, not a direct translation.
物理 AI のための「未来を予知する映画館」:Cosmos-Predict2.5 と Cosmos-Transfer2.5 の解説
NVIDIA が発表したこの論文は、ロボットや自動運転車などの「物理 AI(現実世界で動く AI)」を育てるために、**「現実そっくりの未来シミュレーター」**を作ったというお話しです。
まるで、AI が「もしこうしたらどうなる?」と考えるための、**超リアルな「未来の映画館」**を開いたようなものです。
1. 何を作ったの?(2 つの主要なツール)
この研究では、大きく分けて 2 つの新しい「魔法の道具」を登場させました。
① Cosmos-Predict2.5:未来を予知する「天才シナリオライター」
- 役割: 「ロボットが手を伸ばしたらどうなる?」「車が曲がったらどうなる?」というテキストや画像の指示から、未来の動画を生成するモデルです。
- 特徴:
- 1 つのモデルで何でもできる: 以前は「文字から動画」「画像から動画」「動画から動画」を別々に作っていましたが、今はこれらが1 つの天才モデルに統合されました。
- 物理法則を学んでいる: 単に絵を描くだけでなく、「ガラスが割れる音」や「水の流れ」など、現実世界の物理法則を深く理解しています。
- より賢い頭脳: 以前より 2 倍〜3 倍小さいサイズ(2B や 14B パラメータ)なのに、より高品質で、指示された通りに動くようになりました。
② Cosmos-Transfer2.5:世界を自在に書き換える「魔法のペンキ」
- 役割: 既存の動画やシミュレーションの映像を、**「もっとリアルに」「別の視点に」「別の環境に」**書き換えるモデルです。
- 特徴:
- 3.5 倍小さく、3.5 倍上手: 前のバージョンよりサイズは小さいのに、描画の精度は圧倒的に上がりました。
- 長い動画も狂わない: 長い動画を生成しても、途中で映像が崩れたり、物体が突然消えたりする「エラー」がほとんどありません。
- 制御可能: 「端線(エッジ)」「ぼかし」「奥行き(ディープ)」「分割図(セグメンテーション)」などの指示を与えると、それに忠実に映像を変換します。
2. どうやって作ったの?(3 つの秘密兵器)
このすごいモデルを作るために、NVIDIA は 3 つの重要なステップを踏みました。
① 2 億個の「名画」を厳選した(データ掃除)
- アナロジー: 料理を作るなら、材料が新鮮で高品質である必要があります。
- 実態: 彼らはインターネットから 2 億枚以上の動画を収集し、**「4% しか残らない」**という超厳格なフィルターをかけたそうです。
- 動きが不自然なもの、文字が重なっているもの、物理的にありえないもの(ゲーム画面やアニメなど)はすべて捨て去り、「現実世界で本当に起きたこと」だけを学習データにしました。
② 「流れるように」学ぶ(フローマッチング)
- アナロジー: 従来の AI は「ノイズから絵を少しずつ描き足す」ように学習していましたが、新しいモデルは**「川の流れのように、滑らかに未来へ移動する」**ように学習しています。
- 実態: これにより、動画のつなぎ目が滑らかになり、より自然な動きを再現できるようになりました。
③ 「先生」に褒めてもらう(強化学習)
- アナロジー: 生徒がテストを受け、先生に「ここは良いけど、ここはもっとこうしたら?」とアドバイスされて、何度も練習するイメージです。
- 実態: 生成した動画に対して、AI 自身が「この動画は指示通りか?動きは自然か?」を評価し、良い結果が出た方を褒めて、悪い方を修正するというプロセスを繰り返しました。これにより、指示への忠実度が劇的に向上しました。
3. 何に使えるの?(現実世界への応用)
この技術は、単に面白い動画を作るだけではありません。現実世界の課題を解決する「訓練場」として使われます。
🤖 ロボット訓練:安全な「仮想トレーニング」
- 課題: ロボットを実際に動かして練習するのは、壊れるリスクが高く、時間がかかります。
- 解決: このシミュレーターで、**「もしロボットがリンゴを掴んだらどうなるか」**を何万回も練習させます。
- 効果: 実世界に出る前に、ロボットは「リンゴが赤い場合」「緑の場合」「テーブルが黒い場合」など、あらゆるパターンを体験済みになります。実験の結果、見知らぬ環境でもロボットが失敗せずに作業をこなせるようになりました。
🚗 自動運転:あらゆる天候・道路の「練習ドリル」
- 課題: 自動運転車は、雪や霧、夜間、見知らぬ交差点など、あらゆる状況で安全に運転する必要があります。
- 解決: 実際の道路マップデータを入力すると、**「雪の降る夜に、渋滞している交差点」**のような、実際に撮影するのが難しい(あるいは危険な)シナリオの動画を生成できます。
- 効果: 自動運転 AI は、このシミュレーションで「もしも」の状況を何千回も経験し、実車での安全性を高めることができます。
🎥 合成データ生成:AI 教育用の「教材」
- 課題: 最新の AI(VLA モデル)を教えるには、膨大な「映像+言葉+行動」のデータが必要です。
- 解決: このモデルを使って、**「ロボットが皿を洗う動画」や「箱を開ける動画」**を、指示通りに自動生成できます。
- 効果: 人手で集めるのが難しい多様なデータを、安く・速く・大量に作れるようになり、AI の知能をさらに進化させます。
まとめ:なぜこれが重要なのか?
これまでの AI は「デジタルの世界(映画やゲーム)」を作るのが得意でしたが、**「物理の世界(現実の物体や動き)」**をシミュレートするのは難しかったです。
NVIDIA のこの新しいモデルは、**「AI が現実世界を安全に、かつ効率的に『練習』できる場所」**を提供します。
- ロボットは、壊れることなく何万回も練習できます。
- 自動運転車は、危険な状況も安全に経験できます。
- 研究者は、高価な実験設備なしに、新しいアイデアを検証できます。
つまり、**「失敗してもいい仮想世界」を構築することで、「現実世界での成功」**を加速させるための、最強のエンジンが完成したのです。
NVIDIA はこの技術のコードやモデルを公開しており、世界中の研究者や開発者がこれを使って、次の世代の「物理 AI」を一緒に育てていこうと呼びかけています。
Each language version is independently generated for its own context, not a direct translation.
NVIDIA Cosmos-Predict2.5 および Cosmos-Transfer2.5 の技術的サマリー
本論文は、物理 AI(Physical AI)向けの世界シミュレーションを実現するための最新世代のビデオ基盤モデル「Cosmos-Predict2.5」と、その制御ネットワーク版「Cosmos-Transfer2.5」を紹介するものです。NVIDIA は、ロボティクス、自律走行、スマートスペースなどの分野におけるシミュレーションの忠実度と制御性を大幅に向上させるため、これらのモデルをオープンソース化しました。
以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。
1. 問題定義と背景
物理 AI システム(センサーとアクチュエータを備えた具身エージェント)は、実世界で直接学習・訓練を行うと、時間、コスト、安全性の面で課題を抱えています。特に初期段階では、システムの不備がエージェントや環境に損傷を与えるリスクがあります。
従来の世界シミュレーターは、物理法則に基づく厳密なシミュレーション(例:Isaac Sim)に依存していましたが、視覚的なリアリズムや多様性に欠ける場合があり、実世界への転移(Sim2Real)が困難でした。一方で、生成 AI を用いた世界モデルは視覚的に豊かですが、物理的な整合性や制御性の面で不十分でした。
課題: 高品質で多様な視覚環境を生成し、かつ物理的な整合性を保ち、テキストやアクション、カメラ視点などの条件で精密に制御可能な「世界基礎モデル」の構築。
2. 手法とアーキテクチャ
2.1 データキュレーションパイプライン
モデルの性能向上の基盤として、大規模かつ高品質なデータパイプラインを刷新しました。
- データ規模: 2 億枚の厳選された動画クリップ(200M clips)でトレーニング。
- フィルタリング: 美的スコア、モーション、OCR、知覚的品質、セマンティックアーティファクト、VLM(Vision-Language Model)による最終フィルタリングなど、多段階のフィルタリングを適用。初期クリップの約 4% しか採用されず、品質が飛躍的に向上。
- ドメイン特化データ: ロボティクス(AgiBot, DROID など)、自律走行(7 カメラ周回視点)、スマートスペース、人間動態、物理学現象に特化したデータセットを独自にキュレーション。
- キャプション生成: Qwen2.5-VL-7B を用いて、文脈に即した詳細なキャプションを生成。
2.2 モデルアーキテクチャ: Cosmos-Predict2.5
- ベースアーキテクチャ: フローマッチング(Flow Matching)を採用。拡散モデルの安定性と生成品質を両立。
- 統合モデル: Text2World, Image2World, Video2World の 3 つの機能を単一モデルで統合。
- テキストエンコーダ: 従来の T5 に代わり、物理 AI 向けに最適化された VLM「Cosmos-Reason1」を採用。これにより、テキストの理解力と世界生成の制御性が向上。
- 視覚トークナイザー: WAN2.1 VAE を使用し、時空間次元で 4x8x8 の圧縮率を実現。
- 位置エンコーディング: 絶対位置エンコーディングを廃止し、相対位置エンコーディング(3D RoPE)のみに変更。これにより、トレーニング時と異なる解像度やシーケンス長への汎化能力を強化。
- トレーニング戦略:
- 段階的プリトレーニング: 解像度(256p → 720p)とタスク(Text2Image → Video2World)を徐々に複雑化。
- 教師あり微調整(SFT): 5 つのドメイン(物体永続性、高運動、複雑なシーン、走行、ロボティクス操作)ごとにモデルを微調整し、その後「Model Soup」手法で統合。
- 強化学習(RL): VideoAlign ベースの報酬モデルを用いた RL 微調整により、テキスト整合性、モーション品質、視覚品質をさらに向上。
- ステップ蒸留: 推論速度を向上させるため、4 ステップでの高品質生成を実現。
2.3 制御ネットワーク: Cosmos-Transfer2.5
- 目的: 物理シミュレータ出力の写実化、実世界動画の拡張、セマンティックマップからのリアルな多視点生成など、多様な「世界変換」タスクに対応。
- アーキテクチャ: Cosmos-Predict2.5-2B をベースに、ControlNet 風の制御ブロックを主ネットワークに均等に分散配置(7 ブロックごとに 1 つ挿入)。
- 制御入力: エッジ、ぼかし、セグメンテーション、深度マップなど、多様な空間制御条件に対応。
- サイズ: 先行モデル(Cosmos-Transfer1-7B)の 3.5 倍小型(2B パラメータ)でありながら、より高品質な生成を実現。
3. 主要な貢献
- 物理 AI 向け世界モデルの飛躍的進化: Cosmos-Predict2.5 は、物理的な整合性、テキスト指示への追従性、視覚品質において先行モデル(Cosmos-Predict1)および競合モデル(Wan2.1/2.2 など)を上回る性能を示しました。
- 単一モデルによる多機能統合: テキスト、画像、動画を条件とした世界生成を 1 つのモデルで統一し、柔軟な利用を可能にしました。
- 大規模かつ高品質な物理 AI データセットの構築: 2 億クリップの厳選データと、ロボティクスや自律走行に特化したドメイン別データセットを公開・共有しました。
- 強化学習による品質向上: 強化学習(RL)を世界生成モデルのポストトレーニングに適用し、人間の評価基準との整合性を高めました。
- Sim2Real と Real2Real の橋渡し: Cosmos-Transfer2.5 を用いたロボット政策学習のデータ拡張や、自律走行シミュレーションにおける多視点生成により、実世界への適用を加速。
- オープンソース化: モデルのチェックポイント、ソースコード、ベンチマークを NVIDIA Open Model License で公開し、研究コミュニティの発展を促進。
4. 結果と評価
4.1 ベンチマーク性能 (PAI-Bench)
- Cosmos-Predict2.5-2B: 事前学習モデルと比較して、ドメインスコアと品質スコアが向上。14B モデルは、パラメータ数が半分でありながら、Wan2.2 27B-A14B と同等以上の性能を達成。
- 人間評価: 生成動画のリアルさ、視覚品質、時間的整合性において、Wan2.1 14B や Wan2.2 5B などの大規模モデルと同等かそれ以上の評価を得ました。
4.2 制御性と長尺動画生成
- Cosmos-Transfer2.5: 制御入力(エッジ、深度など)への追従性と、長尺動画生成におけるエラー蓄積(RNDS メトリクス)の面で、先行モデル(Transfer1-7B)を大幅に上回りました。
- 多視点生成: 自律走行シミュレーションにおいて、HD マップを条件とした 7 カメラ視点の生成が可能となり、車線や物体の検出精度が大幅に向上しました。
4.3 応用事例
- ロボット政策学習: Cosmos-Transfer2.5 による視覚データ拡張(照明、背景、物体色の変更など)を適用した Diffusion Policy は、未知の環境や物体に対する一般化能力が飛躍的に向上し、成功率がベースラインを大きく上回りました。
- VLA 訓練用合成データ: 自然言語指示に従ったロボット動作の合成動画を生成し、Vision-Language-Action (VLA) モデルの訓練データを拡張。DreamGen ベンチマークで最高スコアを記録しました。
- アクション条件付き生成: ロボットのアクションシーケンスを入力として、未来のフレームを高精度に予測する能力を実証しました。
5. 意義と将来展望
本論文で紹介された Cosmos-Predict2.5 と Cosmos-Transfer2.5 は、物理 AI の開発パラダイムを「シミュレーションファースト」へと転換させる可能性を秘めています。
- 安全性とコスト削減: 実世界での試行錯誤を減らし、安全かつ効率的にロボットや自律システムを訓練・評価できます。
- データ不足の解消: 高品質な合成データ生成により、実データが不足している特殊なタスクや環境での学習を可能にします。
- オープンエコシステムの構築: 大規模なモデルとコードを公開することで、研究開発の障壁を下げ、ロボティクス、自動運転、具身知能の分野におけるイノベーションを加速させます。
NVIDIA は、これらのツールが「具身知能の次世代」を構築するための基盤となり、シミュレーションと実世界のギャップを埋めることを目指しています。