RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

本論文は、3D 幾何学的事前知識に依存せず、相対的なプランカ線位置符号化に基づく等方時空間表現と二重因果的自己回帰フレームワークを採用することで、多視点動画生成において最先端の性能と高い汎用性を達成する「RAYNOVA」と呼ばれる世界モデルを提案しています。

Yichen Xie, Chensheng Peng, Mazen Abdelfattah, Yihan Hu, Jiezhi Yang, Eric Higgins, Ryan Brigden, Masayoshi Tomizuka, Wei Zhan

公開日 2026-02-26
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「RAYNOVA(レイノバ)」という、新しいタイプの AI について書かれています。これを一言で言うと、「現実世界の動きを、物理法則に従って自由にシミュレーションできる、超高性能な『未来予測カメラ』」**のようなものです。

自動運転やゲーム、映画の制作など、あらゆる「動く映像」を作るために使われる技術ですが、従来の方法にはいくつかの「壁」がありました。RAYNOVA はその壁を壊し、もっと自由で賢い映像を作れるようにしました。

わかりやすくするために、3 つの重要なポイントに絞って、日常の例えを使って説明しますね。


1. 「ブロック積み」ではなく「レイ(光線)の世界」

(従来の方法 vs RAYNOVA)

  • 従来の方法(3D 模型を作る人):
    昔の AI は、映像を作るためにまず「3D の模型(点の集まりや立体図)」を頭の中で必死に作ろうとしていました。まるで、レゴブロックで城を組んでから、その周りをカメラで回って写真を撮るようなイメージです。
    しかし、カメラの位置が変わったり、急に曲がったりすると、「あ、この角度のブロックは持ってないな…」となって、映像が崩れてしまったり、新しい角度の映像が作れなかったりしました。

  • RAYNOVA の方法(光の線を描く人):
    RAYNOVA は「3D 模型」を作ろうとしません。代わりに、**「カメラから見える『光の線(レイ)』」**そのものを直接扱います。
    想像してみてください。あなたが暗闇で懐中電灯を振っているとき、光が当たったものが見えますよね。RAYNOVA は「光の線がどこを通っているか」という関係性だけを学んでいます。

    • メリット: 模型(3D データ)がないので、カメラをどこに置いても、どんな角度からでも「光の線」を繋ぎ合わせて映像を作れます。まるで、魔法の懐中電灯で、どんな角度からでもリアルな世界を描き出せるようなものです。

2. 「時間」と「大きさ」を同時に考える(二重の因果関係)

(どうやって映像を滑らかにするか)

映像を作るには、「時間(次の瞬間)」と「大きさ(細部)」の 2 つを同時に考える必要があります。RAYNOVA はこれを**「二重の因果関係」**という仕組みで解決しました。

  • 大きさの順序(スケール):
    まず、絵を描くときのように、「まず大まかな輪郭(スケール 1)」を描き、次に「少し細かい部分(スケール 2)」、そして**「最後の細部(スケール 3)」**という順に、段階的に映像を完成させていきます。

    • 例え: 遠くから見える山をまず描き、近づいて木を描き、最後に葉っぱの一枚一枚を描くような感じです。
  • 時間の順序(タイム):
    次に、**「過去の映像」をヒントにして、「未来の映像」**を作ります。

    • 例え: 昨日の天気予報を見て、明日の天気を予測するような感じです。

RAYNOVA はこの「大きさの段階」と「時間の流れ」を同時に、かつ自然に組み合わせて映像を作るので、急にカメラが動いても、映像がカクカクしたり崩れたりしません。まるで、熟練のアニメーターが、一瞬一瞬の動きを完璧に計算して描いているかのようです。

3. 「練習」と「本番」のギャップを埋める(再帰的トレーニング)

(長い映像を作るコツ)

長い動画を作ると、AI は「練習では正解を見ながらやったけど、本番では前のフレームの間違いが積み重なって、最後にはボロボロになる」という問題に直面します。これを**「分布のズレ」**と呼びます。

  • RAYNOVA の解決策:
    RAYNOVA は、練習の段階で**「あえて少し間違えてみる」**というトレーニングを行います。
    • 例え: 楽器の練習で、先生が「あえて間違った音を混ぜて弾いてごらん」と言うようなものです。そうすることで、本番で少し間違えても、すぐに修正して正しいリズムに戻れるように脳(AI)を鍛えます。
      これのおかげで、1 秒だけでなく、10 秒、20 秒という長い動画でも、最初から最後まで品質が落ちずに生成できるようになりました。

何がすごいのか?(まとめ)

この技術が実現すると、以下のようなことが可能になります。

  1. どんなカメラでも OK: 車に 6 つカメラがついていようが、8 つだろうが、あるいは無人機(ドローン)のカメラだろうが、AI は「光の線」のルールさえ理解していれば、そのカメラの視点でリアルな映像を即座に作れます。
  2. 未来のシミュレーション: 「もしこのまま曲がったらどうなる?」「雨が降ったらどうなる?」という問いに、物理的に正しい映像で答えることができます。自動運転のテストや、危険な状況のシミュレーションに役立ちます。
  3. 自由自在な視点: すでに撮った映像から、カメラを「左に 1 メートル移動」させたり、「30 度回転」させたりして、「実際には撮っていない視点」の映像をゼロから作り出すことができます(ゼロショット合成)。

結論:
RAYNOVA は、複雑な 3D 模型を無理やり作ろうとするのではなく、「光と時間の流れ」そのものを理解することで、現実世界を忠実に、かつ自由にシミュレーションできる新しい時代の「世界モデル」です。まるで、AI が現実世界の「物理法則」を飲み込んで、どんな視点からも新しい世界を描き出せるようになったようなものです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →