Each language version is independently generated for its own context, not a direct translation.

1. 問題点：これまでのテストは「短い物語」しかなかった

これまでの動画生成 AI のテスト（VBench など）は、**「猫が走っている」「空が青い」**といった、非常に単純で短いシチュエーションしか扱っていませんでした。

例え話:
これまでのテストは、「お菓子を食べる」という行為だけを評価していました。
しかし、最近の AI は「お菓子を食べる→満足して寝る→目覚めて散歩に行く」といった、長い時間の流れや複雑なストーリーを作る能力を持とうとしています。
でも、評価する道具（テスト）が「お菓子を食べる」ことしか測れないので、「長い物語を作る AI」の本当の実力が測れていなかったのです。

2. 解決策：新しいテスト「NarrLV」の登場

そこで著者たちは、**「映画の脚本理論」**をヒントに、新しいテスト「NarrLV」を作りました。

① 物語の最小単位「TNA（時間的物語原子）」

物語を構成する最小のブロックを**「TNA（Temporal Narrative Atom）」**と呼びます。

例え話:
物語を**「レゴブロック」**だと思ってください。
- 「TNA=1」：レゴが 1 つだけ（例：「人が走る」）
- 「TNA=5」：レゴが 5 つつながっている（例：「人が走る→止まる→振り返る→叫ぶ→倒れる」）
  このテストでは、**「レゴ（TNA）がいくつ並んでいるか」**を数えて、物語の複雑さを測ります。

② 自動で物語を作る「プロンプト生成パイプライン」

人間が手動で「長い物語」のテスト問題を作るのは大変です。そこで、AI（大規模言語モデル）に「物語の要素（場所、登場人物、行動）」を組み合わせさせて、自動でテスト問題（プロンプト）を作りました。

例え話:
料理のレシピを作る代わりに、**「AI 料理人」**に「今日は『海』で『カメ』が『泳いで止まって、さらに泳ぐ』という 3 段階の物語を作ってください」と頼む感じです。これにより、どんなに複雑な物語でもテストできるようにしました。

③ 3 つの段階で評価する「採点システム」

生成された動画が、本当に物語を語れているか、3 つの視点でチェックします。これも AI（マルチモーダル AI）が質問形式で評価します。

要素の忠実度（Fidelity）：
- 「海」や「カメ」はちゃんと映っていますか？（物語の登場人物と舞台が合っているか）
物語の網羅性（Coverage）：
- 「泳ぐ→止まる→泳ぐ」という 3 つのステップ、全部入っていますか？（物語の全パートが描かれているか）
物語のつながり（Coherence）：
- 「泳ぐ」から「止まる」へ、自然な流れで移り変わっていますか？（物語の展開がスムーズか）

3. 実験結果：AI は「長い物語」にまだ苦戦している

この新しいテストで、最新の動画生成 AI たちをテストした結果、面白いことがわかりました。

基本はできる: 「海」や「カメ」といった登場人物や舞台は、どんなに物語が長くても、ちゃんと作れています。
物語は苦手: しかし、「物語の展開（ステップ）が増えるにつれて、AI は混乱し始めます。
- 短い物語（レゴ 1〜2 個）なら上手に作れます。
- でも、長い物語（レゴ 5 個以上）になると、**「途中で何があったか忘れたり、つなぎ目が不自然になったり」**します。
結論: 今の AI は「長い動画」を作れるようになりましたが、「長い物語」を論理的に語る能力はまだ未熟です。特に、「行動の変化（カメが泳いで止まる、など）を連続して表現するのが難しいことがわかりました。

まとめ

この論文は、「AI に長い動画を作らせるなら、単に長いだけでなく、ちゃんとストーリーが通っているかチェックする必要がある」と警鐘を鳴らし、そのための「物語の複雑さを測る新しい物差し（NarrLV）を提案したものです。

これにより、今後の AI 開発者が、「いかにして AI がもっと複雑で面白い物語を語れるようにするか」という目標に向かって、より効果的に研究を進められるようになります。

Each language version is independently generated for its own context, not a direct translation.

NarrLV: 長編動画生成のための包括的な物語中心評価に向けた取り組み

技術的サマリー（日本語）

本論文は、ICLR 2026 にて発表された「NarrLV」という新しいベンチマークと評価手法を提案する研究です。基礎動画生成モデルの発展に伴い、単に動画の長さを延ばすだけでなく、より豊かな物語（ナラティブ）を正確に表現する能力が長編動画生成の重要な課題となっています。しかし、既存の評価基準は短いプロンプトや単純なタスクに特化しており、複雑な物語構造を持つ長編動画の評価には不十分でした。本研究は、このギャップを埋めるために、映画物語論に着想を得た包括的な評価フレームワークを構築しました。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳述します。

1. 問題定義 (Problem)

現在の動画生成モデル（Foundation Models）や長編動画生成モデルは、FID や FVD などの従来の指標や、VBench などの既存ベンチマークで評価されることが多いです。しかし、これらには以下の課題がありました：

物語の豊かさの評価不足: 既存のベンチマーク（VBench, TC-Bench, StoryEval など）のプロンプトは、通常 1〜2 つの出来事（TNA: 後述）しか含まれておらず、複雑で連続的な物語の表現能力を十分に評価できません。
人間との評価の乖離: 従来の客観的指標は、人間の知覚や物語の整合性との相関が低い傾向にあります。
長編動画特有の課題の不明確さ: 動画が長くなるにつれて、物語の要素（シーン、オブジェクト、動作）がどのように変化・継承されるか、その境界線が明確に評価されていません。

2. 提案手法 (Methodology)

本研究は、映画物語論（Film Narratology）を基盤とし、以下の 3 つの主要コンポーネントからなる「NarrLV」フレームワークを提案しています。

A. 時間的物語原子 (Temporal Narrative Atom: TNA) の定義

物語の豊かさを定量化するために、**「時間的物語原子（TNA）」**を定義しました。

定義: 動画内で連続した視覚的表現を維持する最小の物語単位。
役割: プロンプトに含まれる TNA の数（例：「人が走る」は TNA=1、「人が立ち上がり歩き出す」は TNA=2）を物語の複雑さの指標として使用します。
変化要因: TNA の変化を誘発する 3 つの主要因子を特定しました。
1. シーン属性 (Scene Attribute): 環境や照明の変化など。
2. オブジェクト属性 (Object Attribute): 物体の色や形状の変化など。
3. オブジェクト動作 (Object Action): 物体の動作や移動の変化など。

B. 拡張可能な TNA 駆動型プロンプトスイート

手動でのプロンプト作成の限界を克服するため、LLM を活用した自動プロンプト生成パイプラインを構築しました。

データソース: VideoUFO や DropletVideo などの大規模データセットからシーンの組み合わせ（Scene-Object Pairs）を抽出。
生成プロセス: 特定のシーンとオブジェクト、TNA の数（1〜6）、および変化因子を入力として、LLM が自然な物語プロンプトを生成します。
特徴: 既存のベンチマークに比べ、TNA の数が広く分布しており、多様な物語の複雑さを網羅的に評価可能です。

C. 段階的物語表現評価メトリック

生成された動画の品質を評価するために、3 つの段階的な次元で構成される評価メトリックを設計しました。これらはMLLM（マルチモーダル大規模言語モデル）による質問生成と回答フレームワークを用いて実装されています。

物語要素忠実度 (Narrative Element Fidelity, $R_{fid}$ ):
- プロンプトに記述された基本的な要素（シーン、オブジェクト、初期配置、属性）が動画に正確に生成されているかを評価します。
物語単位カバレッジ (Narrative Unit Coverage, $R_{cov}$ ):
- プロンプトに含まれるすべての TNA が動画内で表現されているかを評価します。
物語単位の一貫性 (Narrative Unit Coherence, $R_{coh}$ ):
- 隣接する TNA 間の遷移（トランジション）が自然に行われているかを評価します。
- 計算方法: MLLM に複数の質問（Yes/No）を投げ、5 回回答させてその割合をスコア化することで、不確実性を低減し、人間との評価整合性を高めています。

3. 主要な貢献 (Key Contributions)

初の物語中心ベンチマーク NarrLV の提案: 長編動画生成モデルの物語表現能力を包括的に評価する最初のベンチマークです。
映画物語論に基づく評価枠組み: TNA という概念を導入し、プロンプトの複雑さを制御可能にする自動生成パイプラインと、段階的な評価メトリックを確立しました。
人間との高い整合性: 提案メトリックは人間の嗜好と高い相関を示し、既存のベンチマーク（VBench-2.0, StoryEval）よりも優れた評価精度を達成しました。
包括的なモデル評価: 既存の長編動画モデル（FreeNoise, RIFLEx など）と基礎モデル（Wan, HunyuanVideo など）を評価し、現在の技術的限界を明らかにしました。

4. 実験結果 (Results)

既存のモデル群（Wan2.1, HunyuanVideo, FreeLong, FIFO-Diffusion など）を用いた大規模評価により、以下の知見が得られました：

物語の複雑さと性能のトレードオフ: プロンプトの TNA 数が増える（物語が複雑になる）につれて、モデルの「物語単位カバレッジ（ $R_{cov}$ ）」と「一貫性（ $R_{coh}$ ）」は顕著に低下しますが、「要素忠実度（ $R_{fid}$ ）」は比較的安定しています。つまり、モデルは要素を生成できても、それらを時間的に整合性のある物語に組み立てる能力は未熟です。
表現可能な TNA の限界: 現在のモデルが効果的に表現できる TNA の数は非常に限られており、プロンプトに含まれる TNA が 2 つを超えると性能が急激に低下する傾向が見られました。
基礎モデルの支配性: 長編動画モデルは基礎モデルを拡張したものであるため、物語表現能力は基礎モデルの性能に強く依存しています。長編化のためのモジュール追加は一定の効果を発揮しますが、基礎モデルの限界を超えることは困難でした。
変化因子による影響: 物体の動作変化（Object Action）に関する評価では、単一の動作の生成は得意ですが、動作の多様な変化（遷移）を連続させることが特に苦手であることが判明しました。

5. 意義と将来展望 (Significance)

評価基準の革新: 単なる画質や一貫性だけでなく、「物語の構造」そのものを評価する新たな標準を提供しました。
研究の指針: 現在の動画生成モデルが「物語を語る」ことにおいてどこまで到達し、どこがボトルネックとなっているかを定量的に示しました。これにより、今後のモデル設計（特に時間的整合性や長期的な記憶の保持）への具体的な指針が得られます。
実用性: 映画制作やシミュレーションなど、複雑な物語を必要とする実用的な応用分野において、モデルの選定や改良を支援する信頼性の高いツールとなります。

本論文は、動画生成技術が「単なる映像の生成」から「物語の生成」へと進化するための重要なマイルストーンであり、NarrLV はその進化を測るための不可欠な基盤となるでしょう。

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation