Each language version is independently generated for its own context, not a direct translation.

🎬 動画生成 AI の「方向感覚」を鍛える：SPATIALALIGN の解説

この論文は、「テキスト（文章）から動画を作る AI」が、物体の動きや位置関係を正しく理解して描けるようにする新しい技術「SPATIALALIGN」について書かれています。

普段、AI は「美しい絵」を作るのは得意ですが、「狐が丸太の右にいて、その後左へ移動する」といった**「場所の移り変わり」**を正確に表現するのは苦手でした。まるで、地図が読めない人が道案内を聞いているような状態です。

この論文では、その「方向感覚」を AI に教えるための 3 つのステップを紹介しています。

🧩 1. 問題点：AI は「場所」が苦手

例えば、「狐が丸太の右側にいて、その後左へ歩く」という指示を AI に与えたとします。

従来の AI（Wan2.1 など）： 「狐が丸太の右にいる」のはいいけど、動き出したら「右」に歩き出したり、途中で止まったりして、指示と違う動きをしてしまいます。まるで「右」と「左」の区別がついていない子供みたいです。
なぜ？ 従来の AI は「絵が綺麗か」だけを重視して学習しており、「物体がどこからどこへ移動したか」という空間的な論理を無視しがちだったからです。

📏 2. 解決策①：AI の「正解」を測る新しいものさし（DSR-SCORE）

AI が作った動画が本当に「指示通り」かどうかを判断する必要があります。

昔のやり方： 別の AI（VLM）に動画を見せて「これ、指示通り？」と聞いていました。しかし、この AI も方向感覚が弱く、「うん、合ってるよ」と適当に答えてしまうことがありました（まるで、方向音痴な先生が採点しているようなもの）。
新しいやり方（DSR-SCORE）： 著者たちは、「幾何学（図形）」のルールを使って、新しい採点システムを作りました。
- 仕組み： 動画の各フレームで、「狐」と「丸太」の位置を自動で検知し、**「左」「右」「上」**という座標の関係を数値で計算します。
- イメージ： 狐が「右」から「左」へ動く動画なら、「右」のスコアは下がっていき、「左」のスコアは上がっていくはずです。この「スコアの動き」がスムーズに指示通りかどうかが、この新しいものさしで厳しくチェックされます。

🏋️ 3. 解決策②：AI を「褒めて」育てる（DPO による学習）

AI を上手にさせるには、正解と不正解を教える必要があります。

従来の方法（SFT）： 正解の動画を大量に見せて「これを真似しなさい」と教える方法。しかし、AI は「丸暗記」してしまい、本質的な「動きのルール」を学べないことがありました。
新しい方法（SPATIALALIGN）：
1. 一度、AI に同じ指示で何パターンか動画を作らせます。
2. 先ほどの「新しいものさし（DSR-SCORE）」で採点します。
3. 高得点の動画（勝者） と 低得点の動画（敗者） をペアにします。
4. AI に「勝者の動画の方が好きだ」と教えて、**「勝者に近づき、敗者から遠ざかる」**ように調整します。
- 工夫： ただの「褒め」だけでなく、**「元の AI の能力を失わないように守る」**という特別なルール（正則化）を加えました。これにより、方向感覚は良くなるのに、動画の美しさやキャラクターの顔が崩れるのを防ぎます。

🎯 4. 結果：劇的な改善

この方法で学習させた AI は、以下のような劇的な変化を見せました。

指示通り： 「狐が丸太の右から左へ移動する」と言われたら、本当に右から左へ滑らかに移動します。
多様な動き： 動物が「石の上」から「石の左」へ跳ぶ、といった複雑な動きも正確に再現できます。
品質維持： 動きが正しくなっても、動画の画質やキャラクターの顔は崩れていません。

💡 まとめ：なぜこれが重要なのか？

この技術は、単に「動画を作る」だけでなく、**「物理的な世界をシミュレーションする」**ための第一歩です。

ロボット工学： 「棚の左にある箱を右に持っていけ」という指示をロボットが理解する。
ゲーム・映画： 監督の意図した「複雑な動き」を AI が即座に再現する。

要するに、**「AI に地図の読み方を教え、道案内ができるようにした」という画期的な研究です。これにより、AI は単なる「絵描き」から、「空間を理解するクリエイター」**へと進化しました。

Each language version is independently generated for its own context, not a direct translation.

SPATIALALIGN: 動画生成における動的な空間関係の整合性向上に関する技術サマリー

本論文「SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation」は、テキストから動画（Text-to-Video: T2V）を生成するモデルが、プロンプトで指定された**動的な空間関係（Dynamic Spatial Relationships: DSR）**を正確に反映できないという課題に焦点を当て、これを解決するための新しいフレームワークを提案しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義

現在の最先端の T2V モデルは、視覚的な美しさや一貫性には優れていますが、プロンプトで指定された「物体の動きに伴う空間関係の変化」を正確に理解・生成する能力が不足しています。

具体的な課題: 例えば、「狐は切り株の右側にいるが、その後左側に移動する」といった、静止した空間関係から動的な変化への遷移を指示するプロンプトに対し、既存モデルは移動方向を誤ったり、空間関係が変化しなかったりするエラーを頻発します。
既存手法の限界: 画像生成における空間制御（GLIGEN など）は存在しますが、これらは静的な画像に限定され、追加の入力（バウンディングボックスなど）を必要とします。また、動画生成の評価において Vision-Language Model (VLM) を利用する試みはありますが、動的な空間推論においては信頼性が低いことが示されています。

2. 提案手法：SPATIALALIGN

著者らは、T2V モデルを自己改善させるためのフレームワーク「SPATIALALIGN」を提案しました。これは、VLM に依存せず、幾何学的な原理に基づいた評価指標と、直接選好最適化（DPO）を組み合わせたアプローチです。

2.1. 幾何学的ベースの評価指標：DSR-SCORE

VLM の推論の不安定性を回避するため、物体のバウンディングボックス（bbox）座標を用いた幾何学的な評価指標「DSR-SCORE」を開発しました。

SSR-SCORE (Static Spatial Relationship Score): 各フレームにおいて、動物と静止物体の bbox 中心座標に基づき、指定された空間関係（左、右、上）がどの程度満たされているかを数値化（-1 から 1 の範囲）します。
DSR-SCORE (Dynamic Spatial Relationship Score): 動画全体を通じて、初期の空間関係（例：左）から最終的な空間関係（例：上）への遷移が適切に行われたかを評価します。
- 理想的な動画では、初期関係のスコアが時間とともに減少し、最終関係のスコアが増加する「交差パターン」を示す必要があります。
- この遷移の度合いと両端（開始・終了）の整合性を組み合わせて、0 から 1 の範囲で動画の DSR 整合性を定量化します。

2.2. 学習戦略：ゼロ次正則化付き DPO

DSR-SCORE は微分不可能な数値信号であるため、従来の教師あり微調整（SFT）やオンライン強化学習（PPO など）には適していません。そこで、以下の戦略を採用しました。

直接選好最適化（DPO）: DSR-SCORE を報酬信号として利用し、プロンプトに対して高いスコア（Winner）と低いスコア（Loser）を持つ動画ペアを用いてモデルを微調整します。これにより、オンラインサンプリングを必要とせず、計算コストを抑えて効率的に学習できます。
ゼロ次正則化（Zeroth-Order Regularization, LZO）: 単純な DPO 適用は、モデルが「リワードハッキング（正解の条件を満たすための不自然なショートカット）」を起こし、画質や色調が劣化する「尤度変位（Likelihood Displacement）」を引き起こすことが判明しました。これを防ぐため、参照モデル（Reference Model）の出力との距離を最小化する正則化項（LZO）を損失関数に追加しました。これにより、DSR の整合性を高めつつ、元のモデルの画質や自然さを維持します。

2.3. データセット：DSR-DATASET

研究を促進するため、動物と静止物体の間の多様な動的空間関係（左→右、上→左など）を含む、制御されたテキスト - 動画ペアのベンチマークデータセット「DSR-DATASET」を構築しました。

3. 主要な貢献

DSR-SCORE: 動画内の動的な空間関係の整合性を、VLM に依存せず幾何学的に正確かつ微細に評価できる新しい指標。
SPATIALALIGN: DSR-SCORE とゼロ次正則化付き DPO を組み合わせた学習フレームワーク。既存の SFT や他のベースラインを大幅に上回る性能を実現。
DSR-DATASET: 動的空間関係の評価に特化した新しいベンチマークデータセットと、広範な実験結果。

4. 実験結果

Wan2.1-1.3B、CogVideoX、OpenSora などの複数の最先端 T2V モデルを対象に実験を行いました。

定量的評価: 「DSR-SCORE が 0.7 以上」の動画生成率（Correctness@0.7）において、提案手法はベースラインモデル（例：Wan2.1-1.3B の 0.125）に対して、大幅に改善されたスコア（0.585）を達成しました。
定量的評価: 画質（CLIP-IQA, Imaging Quality）や ID 一貫性（ID Consistency）については、ベースラインモデルと同等レベルを維持しており、微調整による品質低下は確認されませんでした。
VLM 評価との比較: VLM（Qwen3-VL など）を報酬として使用した場合、空間の正しさが低下し、ベースラインよりも悪化する結果となりました。これにより、VLM 評価の信頼性の低さと、DSR-SCORE の優位性が実証されました。
アブレーション研究:
- 閾値（ $\tau_{train}$ ）を適切に設定することで、信号対雑音比が向上し、空間整合性が向上しました。
- 正則化項（LZO）がない場合、学習が不安定になり画質が劣化することが確認されました。
- 異なるプロンプト構造（「A から B へ」など）に対しても汎化性能を示しました。

5. 意義と結論

SPATIALALIGN は、物理法則や空間的制約を考慮した高品質な動画生成を実現するための重要な一歩です。

技術的意義: VLM に依存しない、幾何学的に厳密な評価指標と、それを効率的に学習に活用する DPO の組み合わせは、物理的整合性が必要な生成タスク（ロボティクス、シミュレーションなど）への応用可能性を示唆しています。
将来的展望: 本研究は「1 動物＋1 物体」の単純なシナリオに焦点を当てていますが、このアプローチはより複雑なシーングラフや物理現象のモデル化へと拡張可能です。

結論として、SPATIALALIGN は、テキストプロンプトで指定された動的な空間関係を、視覚的な品質を損なうことなく正確に反映する T2V モデルの実現を可能にする、効果的でスケーラブルなソリューションです。

SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation