RealWonder: Real-Time Physical Action-Conditioned Video Generation

本論文は、物理シミュレーションを中間表現として活用し、単一画像から力やロボットの操作などの物理的動作に応じたリアルタイムな動画を生成する初のシステム「RealWonder」を提案し、AR/VR やロボティクス学習などの分野への応用可能性を開拓しています。

Wei Liu, Ziyu Chen, Zizhang Li, Yue Wang, Hong-Xing Yu, Jiajun Wu

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

RealWonder(リアルワンダー):一枚の写真から「もしも」の世界をリアルタイムで描き出す魔法

この論文は、**「一枚の写真」と「物理的なアクション(力やロボットの手)」を与えると、その瞬間にリアルな動画が生成される新しい AI システム「RealWonder(リアルワンダー)」**を紹介するものです。

これまでの動画生成 AI は「絵を描くこと」は得意でしたが、「物理法則に従って物が動くこと」は苦手でした。RealWonder は、その弱点を克服し、「もしも、ここに風が吹いたら?」「もしも、ロボットがこれを掴んだら?」という問いに、即座に答えを出すことができる画期的な技術です。

以下に、専門用語を排し、身近な例え話を使って解説します。


1. 従来の AI と RealWonder の違い:「絵描き」と「物理学者」

  • これまでの AI(絵描きさん):
    過去の動画を見て「風が吹いたら布が揺れるな」と学習し、それを真似して絵を描きます。しかし、「なぜ」揺れるのかという物理的な仕組み(力や重力)は理解していません。そのため、複雑な力がかかったり、ロボットが操作したりすると、理屈に合わない奇妙な動きをしてしまったり、全く動かなかったりします。

  • RealWonder(物理学者+絵描きさん):
    RealWonder は、まず**「物理学者」**として動きます。

    1. 入力された写真を見て、3D の世界を再現します。
    2. 「ここに風が吹いた」「ここに力を加えた」という指令を受けると、物理シミュレーターを使って、物がどう動くかを計算します(例:砂山が崩れる、布が揺れる)。
    3. その計算結果を「絵描きさん(動画生成 AI)」に渡します。
    4. 絵描きさんは、その計算結果を頼りに、「光や影、質感」を美しく描き足して、最終的な動画を作ります。

🌟 比喩:
従来の AI が「過去の映画を見て、風が吹くシーンを真似して描く」のに対し、RealWonder は**「実際に風を起こして物がどう動くか実験し、その実験結果を元に、プロの画家が美しい絵を描く」**というプロセスを踏んでいます。


2. 3 つの魔法のステップ

RealWonder は、以下の 3 つの工程を瞬時に行います。

① 写真から 3D 世界を「蘇らせる」

一枚の平らな写真から、AI が「奥行き」や「物体の形」を読み取り、3D の世界を仮想的に作り出します。

  • 例え: 写真の中の「壺」や「砂山」を、見えない 3D の粘土で作り直すようなイメージです。

② 物理シミュレーターで「実験」する

ユーザーが「ロボットの手で掴む」「風を吹かす」「重力を変える」といった指令を出すと、AI は物理の法則(重力、摩擦、弾性など)を使って、その結果を計算します。

  • 例え: 科学の実験室で、実際に風を送って砂山が崩れる様子を観察しているようなものです。この段階では、まだ「動きの図(フロー)」や「ざっくりとした色」しか出てきません。

③ 動画生成 AI で「映画」を完成させる

先ほどの「動きの図」をヒントに、AI が「リアルな動画」を生成します。

  • 例え: 実験室のメモ(動きの計算結果)を見て、プロの映画監督が「光の反射」や「砂の飛び散り」を美しく描き足し、本物の映画のように見せる作業です。

3. 何がすごいのか?

  • リアルタイム(即座に):
    従来の物理シミュレーションは計算に時間がかかり、動画生成 AI は一度に数秒分しか作れません。しかし、RealWonder は**「1 秒間に 13 枚以上」**の動画を生成できます。

    • 例え: ゲームの操作のように、ボタンを押した瞬間に反応が返ってくる「インタラクティブ」な体験が可能です。
  • どんな素材でも対応:
    硬い石、柔らかい布、流れる水、崩れる砂など、あらゆる素材の動きを正しくシミュレートします。

    • 例え: 「ロボットが砂を掴むと崩れる」「風が布を揺らす」といった、素材ごとの特性を正確に再現します。
  • 「もしも」のシミュレーション:
    現実では実験が難しいこと(例えば、巨大なビルに風を当ててみる)を、安全に、かつリアルに試すことができます。


4. 将来の活用例

この技術は、単なる面白い動画作りだけでなく、以下のような実用的な分野で使われることが期待されています。

  • ロボットの学習: ロボットが「物を掴むとどうなるか」をシミュレーションで練習し、現実世界での失敗を減らす。
  • AR/VR(拡張現実): ゲームや仮想空間の中で、ユーザーが触った物体が物理法則通りに動く、没入感のある体験を作る。
  • 映画・ゲーム制作: 特殊効果(VFX)の作成を、手作業ではなく、物理法則に基づいて自動生成する。

まとめ

RealWonderは、「物理の法則」と「AI の絵描き力」を合体させた、新しい時代の動画生成システムです。

これまでは「AI が勝手に動く動画」を作るだけでしたが、これからは**「人間が『こうして』と指示すれば、物理的に正しい結果を即座に動画で見せてくれる」**という、まるで魔法のような未来が実現しようとしています。