Each language version is independently generated for its own context, not a direct translation.

🎬 問題：短い動画は簡単、長い動画は難しい

これまでの AI は、**「5 秒程度の短い動画」**を作るのが得意でした。インターネットには短い動画が溢れていて、AI はそれをたくさん見て「動き」や「美しさ」を学びました。

しかし、**「1 分、2 分と続く長い動画」**を作ろうとすると、AI は困ってしまいます。

理由 1: 長い動画のデータは少ない（本屋で「1 分間の映画」を探すのは大変）。
理由 2: 短い動画の「美しさ」をそのまま長い時間続けると、AI は疲れてボヤけてしまったり、意味が通じなくなったりする。

まるで、「美味しい 5 秒のスープ」は作れても、「1 時間分のシチュー」を作ろうとすると、味が薄まったり、具材が溶けすぎたりしてしまうようなものです。

💡 解決策：2 つの「頭脳」を組み合わせる

この論文のアイデアは、**「平均を求める頭脳（Mean Seeking）」と「極致を求める頭脳（Mode Seeking）」**という、2 つの異なる役割を持つ AI を組み合わせて、1 つのチームにするというものです。

これを**「建築」**に例えてみましょう。

1. 大工さん（平均を求める頭脳）＝「物語と構成」

役割: 長い動画の**「ストーリー」や「全体の流れ」**を担当します。
どうやって学ぶ？: 限られた「長い動画」のデータを見て、「主人公が歩き始めて、途中で転び、最後に笑う」といった時間的なつながりを学びます。
特徴: 全体像を把握するのが得意ですが、細部（肌の質感や光の反射など）は少しぼやけてしまうことがあります。
例え: 建物の**「設計図と骨組み」**を作る大工さんです。家全体が崩れないように、柱や梁（はり）を正しく配置します。

2. 職人さん（極致を求める頭脳）＝「美しさと言葉」

役割: 動画の**「一瞬一瞬の美しさ」や「動きの滑らかさ」**を担当します。
どうやって学ぶ？: すでに完成している「5 秒の短い動画（プロの先生）」をコピーして、**「この部分だけ、先生と同じくらい綺麗に」**と教わります。
特徴: 細部まで完璧ですが、長い物語が作れません（5 秒しか見えていないため）。
例え: 建物の**「内装や装飾」**を担当する職人さんです。壁の塗り方やタイルの貼り方、照明の輝きまで、プロの基準で完璧に仕上げます。

🚀 魔法の仕組み：「スライド窓」で両方を叶える

この 2 人（大工さんと職人さん）は、**「Decoupled Diffusion Transformer（分離型拡散トランスフォーマー）」**という特殊な仕組みでチームを組んでいます。

共通の脳（エンコーダー）: 2 人は同じ「記憶」や「状況認識」を共有しています。
分業制:
- 大工さんは、動画全体を見て「次に何が起こるべきか（物語）」を指示します。
- 職人さんは、その指示を受け取りながら、**「今この 5 秒の区間だけ」**をプロの先生（短い動画）と同じレベルに磨き上げます。

ここがすごい点：
職人さんは「物語」を考えなくていいので、**「今の 5 秒だけ、最高に綺麗に」という任務に集中できます。一方、大工さんは「細部の美しさ」に悩まずに「物語の続き」**に集中できます。

このように、**「長い物語（Mean Seeking）」と「短い瞬間の美しさ（Mode Seeking）」を分離して、それぞれ得意なことをやらせることで、「数分間続く、かつ、一つ一つの瞬間が映画のように美しい動画」**が作れるようになります。

🌟 結果：何が良くなったの？

この方法を使うと、以下のような成果が得られました。

速い: 従来の方法のように何十回も計算を繰り返す必要がなく、数ステップで動画が作れます（「数分で完成するシチュー」が「数秒で作れる」ようになったイメージ）。
綺麗: 動画がボヤけたり、色が崩れたりしません。
一貫性: 主人公の顔が途中で変わったり、背景が急に消えたりしません。

📝 まとめ

この論文は、**「長い動画を作るのが難しいのは、短い動画の美しさと長い動画の物語を、同じ AI に同時にやらせようとしたから」という問題に気づき、「大工さん（物語）と職人さん（美しさ）をチームにして、それぞれ得意なことを分担させる」**というシンプルな発想で解決しました。

これにより、**「数秒の短い動画から、数分間の映画のような高品質な動画」**を、手軽に、そして速く生成できるようになりました。

Each language version is independently generated for its own context, not a direct translation.

論文要約：Mode Seeking meets Mean Seeking for Fast Long Video Generation

この論文は、数秒から数分規模の長尺動画生成を実現するための新しいトレーニングパラダイム「Mode Seeking meets Mean Seeking（モード探索と平均探索の融合）」を提案しています。短尺動画の生成は高品質ですが、長尺動画の生成はデータの不足と一貫性の維持が課題となっており、このギャップを埋めるための画期的なアプローチです。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題定義 (Problem)

現在の動画生成モデルは、数秒の短いクリップの生成において高い忠実度（Fidelity）を達成していますが、これを数分規模の長尺動画に拡張する際、以下の重大なボトルネックに直面しています。

データの不足: 高品質で一貫性のある長尺動画データは、ウェブスケールの短尺動画データに比べて極めて希少です。
時間的補間と外挿の違い: 画像生成において解像度を上げることは「補間（Interpolation）」ですが、動画の長さを増やすことは「外挿（Extrapolation）」です。短尺動画から長尺動画へ伸ばすには、単に既存のパターンを繰り返すのではなく、新しいイベント、因果関係、物語構造を生成する必要があります。
忠実度と時間的範囲のトレードオフ: 既存の手法（混合長さの SFT や教師あり学習）では、長尺の一貫性を維持しようとすると、局所的な画質や動きの鮮明さが失われ、動画がぼやけたり「生気」がなくなったりする傾向があります。逆に、短尺の教師モデルをそのまま使うと、長期的な文脈が理解できず、時間経過とともに品質が劣化します。

2. 手法 (Methodology)

提案手法は、Decoupled Diffusion Transformer (DDT) を基盤とし、「局所的な忠実度」と「長期的な一貫性」を分離して学習させるパラダイムを採用しています。

2.1. 二つの探索戦略の融合

Mean Seeking（平均探索）: 限られた長尺動画データを用いて、グローバルな物語構造や長期的な時間的依存関係を学習します。これは「平均」的な分布に収束させる教師ありフローマッチング（Supervised Flow Matching, SFT）によって実現されます。
Mode Seeking（モード探索）: 高品質な短尺動画の「教師モデル（Teacher）」の分布に、生成された動画のローカルなスライディングウィンドウを一致させます。これは、逆 KL 分散（Reverse-KL）を用いた分布マッチング（Distribution Matching）によって実現され、教師モデルの高い忠実度（モード）を学生モデルに引き継ぎます。

2.2. Decoupled Diffusion Transformer (DDT) のアーキテクチャ

この二つの矛盾する目的（平均への収束 vs 特定のモードへの集中）を解決するため、共有エンコーダと二つの独立したデコーダヘッドを持つアーキテクチャを採用しています。

共有エンコーダ ( $E_\phi$ ): 長文脈を持つノイズ付き動画潜空間を入力とし、統一された時空間特徴量 $h_t$ を出力します。
Flow Matching Head (FM Head, $D^\text{FM}_\theta$ ):
- 役割: 長尺動画の SFT 損失（Eq. 14）で学習。
- 目的: 長期的な物語構造、シーンの連続性、因果関係を学習（Mean Seeking）。
Distribution Matching Head (DM Head, $D^\text{DM}_\psi$ ):
- 役割: 短尺動画の教師モデルとの逆 KL 分散（DMD/VSD 手法に基づく）で学習。
- 目的: 局所的なスライディングウィンドウごとに、教師モデルの高忠実度テクスチャや動きを模倣（Mode Seeking）。

2.3. トレーニングと推論

トレーニング: 両方のヘッドと共有エンコーダを同時に更新しますが、FM ヘッドは長尺データの SFT 信号のみ、DM ヘッドは教師モデルとの分布マッチング信号のみを受け取ります。これにより、勾配の干渉を防ぎつつ、両方の特性を学習できます。
推論: 推論時には FM ヘッドを廃棄し、DM ヘッドのみを使用して動画を生成します。DM ヘッドは数ステップで高速にサンプリング可能であり、短尺の教師モデルの質を維持しつつ、長尺の文脈を反映した動画を生成します。

3. 主要な貢献 (Key Contributions)

スライディングウィンドウによるモード探索アライメント: 追加の短尺動画データなしで、長尺動画の学生モデルのスライディングウィンドウを、凍結された短尺動画の教師モデルに逆 KL 分散でアライメントする手法を提案しました。
デカップルドな DDT アーキテクチャ: 長文脈の SFT（フローマッチング）と局所的な教師マッチング（分布マッチング）を、共有エンコーダから分岐した二つのヘッドで処理する設計により、長期的な一貫性と局所的な画質の両立を可能にしました。
高速な数ステップ推論: 教師モデルとの分布マッチング（DMD 風）を適用しているため、DM ヘッドは数ステップで高品質な動画を生成できる「高速サンプラー」として機能します。これにより、従来の多段階蒸馏や長い推論時間を必要としない長尺動画生成が実現しました。

4. 結果 (Results)

定量的評価: VBench-Long ベンチマークおよび Gemini-3-Pro による評価において、提案手法は既存の手法（Long-context SFT, Mixed-length SFT, CausVid, Self-Forcing, InfinityRoPE など）を凌駕しました。特に「動きの滑らかさ（Motion）」、「動的度（Dynamic Degree）」、「美的品質（Aesthetic Quality）」において高いスコアを記録し、長期的な一貫性も維持しています。
定量的評価: 短尺の教師モデルを直接使用する手法は局所的な鮮明さは高いものの、長時間の生成ではドリフトや静止画化（Sink 現象）が起きる傾向がありました。一方、SFT のみでは長期的な一貫性は保たれるものの、画質が劣化（ぼやけ）していました。提案手法は両者の長所を併せ持っています。
アブレーション研究: 二つのヘッドを分離しない場合、または SFT または教師マッチングのいずれかを欠く場合、性能が大幅に低下することが確認されました。これにより、デカップルド設計と両方の学習信号の必要性が実証されました。

5. 意義 (Significance)

この研究は、動画生成における「忠実度（Fidelity）」と「時間的範囲（Horizon）」の間のトレードオフを解消する重要なステップです。

データ効率の向上: 高品質な長尺データが不足している現状において、豊富な短尺データ（教師モデル）の質を維持しつつ、限られた長尺データから物語構造を学習できるため、実用的な長尺動画生成が可能になります。
高速生成: 従来の長尺動画生成が抱えていた多段階生成や長い推論時間の課題を解決し、数ステップで高品質な分単位動画を生成する「Fast Long Video Generator」を実現しました。
将来の応用: 生成された長尺動画は、インタラクティブな世界モデル、長編ストーリー生成、一貫性のあるキャラクター制御など、次世代の AI アプリケーションの基盤技術として期待されます。

要約すると、この論文は「局所的な高品質（Mode Seeking）」と「長期的な一貫性（Mean Seeking）」をアーキテクチャレベルで分離・統合することで、短尺動画の質を保ったまま、高速かつ高品質な長尺動画生成を実現する画期的な手法を提示しています。

Mode Seeking meets Mean Seeking for Fast Long Video Generation