SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

本論文は、テキストから生成される動画の空間的制約を強化するため、幾何学的指標「DSR-SCORE」を用いたゼロ次正則化直接選好最適化(DPO)を導入し、動的な空間関係の表現能力を飛躍的に向上させた自己改善フレームワーク「SPATIALALIGN」を提案するものである。

Fengming Liu, Tat-Jen Cham, Chuanxia Zheng

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎬 動画生成 AI の「方向感覚」を鍛える:SPATIALALIGN の解説

この論文は、「テキスト(文章)から動画を作る AI」が、物体の動きや位置関係を正しく理解して描けるようにする新しい技術「SPATIALALIGN」について書かれています。

普段、AI は「美しい絵」を作るのは得意ですが、「狐が丸太のにいて、その後へ移動する」といった**「場所の移り変わり」**を正確に表現するのは苦手でした。まるで、地図が読めない人が道案内を聞いているような状態です。

この論文では、その「方向感覚」を AI に教えるための 3 つのステップを紹介しています。


🧩 1. 問題点:AI は「場所」が苦手

例えば、「狐が丸太の右側にいて、その後左へ歩く」という指示を AI に与えたとします。

  • 従来の AI(Wan2.1 など): 「狐が丸太の右にいる」のはいいけど、動き出したら「右」に歩き出したり、途中で止まったりして、指示と違う動きをしてしまいます。まるで「右」と「左」の区別がついていない子供みたいです。
  • なぜ? 従来の AI は「絵が綺麗か」だけを重視して学習しており、「物体がどこからどこへ移動したか」という空間的な論理を無視しがちだったからです。

📏 2. 解決策①:AI の「正解」を測る新しいものさし(DSR-SCORE)

AI が作った動画が本当に「指示通り」かどうかを判断する必要があります。

  • 昔のやり方: 別の AI(VLM)に動画を見せて「これ、指示通り?」と聞いていました。しかし、この AI も方向感覚が弱く、「うん、合ってるよ」と適当に答えてしまうことがありました(まるで、方向音痴な先生が採点しているようなもの)。
  • 新しいやり方(DSR-SCORE): 著者たちは、「幾何学(図形)」のルールを使って、新しい採点システムを作りました。
    • 仕組み: 動画の各フレームで、「狐」と「丸太」の位置を自動で検知し、**「左」「右」「上」**という座標の関係を数値で計算します。
    • イメージ: 狐が「右」から「左」へ動く動画なら、「右」のスコアは下がっていき、「左」のスコアは上がっていくはずです。この「スコアの動き」がスムーズに指示通りかどうかが、この新しいものさしで厳しくチェックされます。

🏋️ 3. 解決策②:AI を「褒めて」育てる(DPO による学習)

AI を上手にさせるには、正解と不正解を教える必要があります。

  • 従来の方法(SFT): 正解の動画を大量に見せて「これを真似しなさい」と教える方法。しかし、AI は「丸暗記」してしまい、本質的な「動きのルール」を学べないことがありました。
  • 新しい方法(SPATIALALIGN):
    1. 一度、AI に同じ指示で何パターンか動画を作らせます。
    2. 先ほどの「新しいものさし(DSR-SCORE)」で採点します。
    3. 高得点の動画(勝者)低得点の動画(敗者) をペアにします。
    4. AI に「勝者の動画の方が好きだ」と教えて、**「勝者に近づき、敗者から遠ざかる」**ように調整します。
    • 工夫: ただの「褒め」だけでなく、**「元の AI の能力を失わないように守る」**という特別なルール(正則化)を加えました。これにより、方向感覚は良くなるのに、動画の美しさやキャラクターの顔が崩れるのを防ぎます。

🎯 4. 結果:劇的な改善

この方法で学習させた AI は、以下のような劇的な変化を見せました。

  • 指示通り: 「狐が丸太の右から左へ移動する」と言われたら、本当に右から左へ滑らかに移動します。
  • 多様な動き: 動物が「石の上」から「石の左」へ跳ぶ、といった複雑な動きも正確に再現できます。
  • 品質維持: 動きが正しくなっても、動画の画質やキャラクターの顔は崩れていません。

💡 まとめ:なぜこれが重要なのか?

この技術は、単に「動画を作る」だけでなく、**「物理的な世界をシミュレーションする」**ための第一歩です。

  • ロボット工学: 「棚の左にある箱を右に持っていけ」という指示をロボットが理解する。
  • ゲーム・映画: 監督の意図した「複雑な動き」を AI が即座に再現する。

要するに、**「AI に地図の読み方を教え、道案内ができるようにした」という画期的な研究です。これにより、AI は単なる「絵描き」から、「空間を理解するクリエイター」**へと進化しました。