Each language version is independently generated for its own context, not a direct translation.

🎬 従来の方法：「決まったレシピ」の限界

これまでの動画生成 AI は、**「最初の写真（A）」と「最後の写真（B）」を渡すと、「決まった枚数（例えば 3 枚）」**の中間写真を自動的に作ってくれるという仕組みでした。

例え話：
料理人が「卵焼きの完成品（A）」と「焦げた卵焼き（B）」を渡され、「真ん中を 3 枚作って」と言われたら、3 枚だけ作ります。
でも、「じゃあ、もっと滑らかにしたいから 10 枚作って」「いや、逆に 1 枚だけでいいから」と言っても、「3 枚しか作れない」というルールに縛られていて、柔軟に対応できませんでした。

これが、動画のフレームレート（滑らかさ）や長さを調整したい時に大きな壁になっていたのです。

🚀 新しい技術「ArbInterp」：「自由な注文」が可能に

この論文で紹介されている**「ArbInterp」は、「0 秒から 1 秒の間なら、いつの瞬間でも、何枚でも作れます！」**という画期的な技術です。

1. 「時計の針」を自由に動かす（TaRoPE）

AI に「0 秒（スタート）」と「1 秒（ゴール）」を教え、その間の**「0.3 秒」「0.7 秒」など、「好きな時刻」**を指定して画像を作らせる技術です。

仕組みの例え：
従来の AI は「1 番目、2 番目、3 番目…」という**「番号」で場所を覚えていました。だから「3 番目」しか作れませんでした。
新しい AI（ArbInterp）は、「時計の針」で場所を覚えています。「0 時（スタート）」と「12 時（ゴール）」の間なら、「3 時」「5 時 30 分」**など、**針が指す anywhere（どこでも）**に画像を生成できるのです。
これにより、「2 倍速」でも「32 倍速」でも、好きなだけ滑らかに動画を伸ばせます。

2. 長い動画を「区切り」でつなぐ（モーションと見た目の分離）

もし「1 時間分」の動画を連続して作ろうとすると、AI は途中で「あれ？前のシーンと動きが繋がらない！」と混乱してしまいます（映像がカクカクしたり、キャラクターの顔が変わったりする）。

そこで、ArbInterp は**「見た目（アパランス）」と「動き（モーション）」**を分けて管理する賢い作戦を使います。

仕組みの例え：
- 見た目（アパランス）： 前の区切りの「最後の写真」を、次の区切りの「スタート地点」として渡します。これで**「キャラクターの服や顔が急に変わってしまう」**のを防ぎます。
- 動き（モーション）： 「回転している」「走っている」といった**「動きのニュアンス」**だけを別のメモ（トークン）にまとめて、次の区切りに渡します。
- 結果： 前の区切りで「右に回っていた」なら、次の区切りでも自然に「右に回り続ける」ので、長い動画でも途切れず、滑らかに繋がります。

🌟 この技術がすごい点

自由自在な長さ：
「2 倍」でも「100 倍」でも、AI が一度に全部作ろうとせず、**「必要な分だけ、必要なタイミングで作る」**ので、どんな長さの動画でも対応できます。
高品質で滑らか：
従来の方法では、無理やり枚数を増やすと映像が崩れていましたが、この技術は**「自然な動きの軌道」**を計算して作るので、非常に滑らかで綺麗です。
計算コストの削減：
最初から長い動画を全部作ろうとすると重すぎて大変ですが、「必要な部分だけ」を細かく作ってつなぐので、効率的に動かせます。

💡 まとめ

これまでの動画生成 AI が**「決まった枚数しか作れない硬いブロック」だったのに対し、ArbInterpは「粘土のように、好きな形・好きな長さで自由に伸ばせる柔らかい素材」**になりました。

これにより、ゲームの滑らかな動き作りや、映画の特殊効果、あるいは「あの瞬間をスローモーションで詳しく見たい」といった、これまでに難しかった**「動画の編集・生成」**が、もっと簡単で自由に行えるようになるでしょう。

一言で言うと：
「スタートとゴールを渡せば、『いつの瞬間』を『何枚』作ってもいいよと、AI が自由に操れるようになったすごい技術」です。

Each language version is independently generated for its own context, not a direct translation.

ArbInterp: 任意の時間位置と長さでの生成型動画フレーム補間に関する技術概要

本論文「ARBITRARY GENERATIVE VIDEO INTERPOLATION (ArbInterp)」は、ICLR 2026 にて発表された、生成型動画フレーム補間（VFI）の新たなパラダイムを提案する研究です。既存の手法が抱える「固定されたフレーム数のみ生成可能」という制約を打破し、任意の時間スタンプ（Timestamp）と任意の長さで中間フレームを生成することを可能にしました。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細にまとめます。

1. 問題定義と背景

従来の生成型動画フレーム補間（Generative VFI）は、開始フレームと終了フレームから中間フレームを生成するタスクですが、以下の重大な制約がありました。

固定フレーム数の制約: 既存の手法は、事前に決定された固定数の中間フレーム（例：2 倍、4 倍など）しか生成できません。これにより、動画のフレームレート（FPS）や再生時間の動的な調整が困難です。
連続的な運動ダイナミクスのモデル化不足: 固定フレーム数のアプローチは、入力フレーム間の連続的な運動場（Motion Field）を十分にモデル化できず、滑らかな時空間遷移の生成に限界がありました。
柔軟性の欠如: ユーザーが特定の時間点（例：開始から 30% の位置）にフレームを生成したいという要求に応えることができませんでした。

本研究は、開始フレームを $t=0$ 、終了フレームを $t=1$ と定義し、この区間内の任意の連続的な時間スタンプに対してフレームを生成できるアーキテクチャを提案します。

2. 提案手法：ArbInterp

ArbInterp は、オープンソースの動画生成モデル「Wan」を基盤とし、以下の 2 つの主要な技術的革新によって実現されています。

2.1 タイムスタンプ認識型ロータリー位置符号化 (TaRoPE)

既存の DiT（Diffusion Transformer）ベースの動画生成モデルでは、フレームの相対位置は通常、シーケンス内の「インデックス（整数）」によって決定されます。これでは、可変長の補間や任意の時間位置の指定が困難です。

仕組み: 著者は、フレームの位置を「インデックス」ではなく、開始から終了までの相対的な**連続的な時間スタンプ（0 から 1 の間）**として定義する「Timestamp-aware Rotary Position Embedding (TaRoPE)」を提案しました。
効果: 時間的な RoPE（Rotary Position Embedding）をターゲットの時間スタンプに合わせて調整することで、追加のパラメータなしでモデルに「任意の時間位置」を認識させます。これにより、モデルは固定されたフレーム数に依存せず、連続的な運動場を細粒度でモデル化できるようになります。

2.2 外観・運動分離コンディショニング戦略

長時間の動画補間を行う場合、長いシーケンスを複数のセグメントに分割して生成する必要があります。しかし、生成モデルの確率的性質により、セグメント間で外観や運動の不連続性（ジャンプ）が生じるリスクがあります。

外観の一貫性: 前のセグメントの最終フレームを「プレフィックスフレーム」として入力に含めることで、視覚的な外観の連続性を保証します。
運動の一貫性: 前のセグメントの最後の N フレームから「運動セマンティック・トランクス（Motion Semantic Tokens）」を抽出し、クロスアテンションを通じて現在のセグメントの生成プロセスに注入します。これにより、運動のダイナミクスがセグメント間を超えて一貫して維持されます。
分離の利点: この「外観」と「運動」を分離して制御するアプローチにより、計算コストを抑えつつ、高品質な時空間連続性を実現しています。

2.3 推論戦略

直接補間: 短いシーケンスでは、一度のフォワードパスで全フレームを生成。
セグメント別補間: 長いシーケンスでは、時間軸を分割して逐次生成。
階層的補間: 粗い時間間隔でアンカーフレームを生成し、その間で詳細な補間を行うことで、グローバルな運動軌跡を制御。

3. 主要な貢献

任意の時間・長さでの生成パラダイム: 連続的な時間スタンプを指定することで、任意のフレーム数と任意のフレームレートでの補間を可能にする新しい生成型 VFI パラダイム「ArbInterp」を提案しました。
TaRoPE の導入: 時間的な位置情報をインデックスから連続時間スタンプへ変更する TaRoPE を設計し、モデルの時間的柔軟性と連続運動のモデル化能力を飛躍的に向上させました。
外観・運動分離コンディショニング: 長尺動画補間におけるセグメント間の不連続性を解消するための新しい条件付け戦略を提案し、滑らかな時空間遷移を実現しました。
包括的なベンチマークの構築: 2 倍から 32 倍までのマルチスケール補間タスクを評価するための「MultiInterpBench」を構築し、既存手法との公平な比較を行いました。

4. 実験結果

Wan モデル（1.3B パラメータ）を基盤として、8 GPU で 2 万ステップの微調整（Fine-tuning）のみで学習を行いました。

定量的評価 (MultiInterpBench):
- 2 倍、8 倍、16 倍、32 倍のすべての補間率において、LDMVFI、DynamiCrafter、TRF などの最先端手法を凌駕しました。
- 特に 32 倍のような高倍率（長尺）補間において、FVD（Fréchet Video Distance）や VBench メトリクス（主題の一貫性、背景の一貫性、運動の滑らかさなど）で顕著な性能向上を示しました。
- 例：32 倍補間において、ArbInterp は FID 26.5、FVD 319.9 を達成し、次点の手法よりも大幅に低い値（良い結果）を記録しました。
定性的評価:
- 任意の時間スタンプ（例：0.25, 0.5, 0.75）を指定して生成されたフレームは、滑らかで自然な運動を示し、既存手法で見られるチラつきや不自然な変形が大幅に減少しました。
- 長時間のストリーミング補間シナリオにおいても、セグメント間での外観と運動の連続性が保たれていました。
アブレーション研究:
- TaRoPE を使用しない場合や、運動・外観の分離を行わない場合、性能が低下することが確認されました。特に運動の滑らかさと時空間の一貫性において、提案手法の各コンポーネントが不可欠であることが示されました。

5. 意義と将来性

実用性の向上: 動画編集、ゲーム開発、VR/AR などの分野において、フレームレートや動画長の柔軟な調整を必要とするユースケースに対応できます。
技術的ブレイクスルー: 生成モデルにおける位置エンコーディングの概念を「固定インデックス」から「連続時間」へと拡張した点は、将来の動画生成研究における重要な指針となります。
効率性: 大規模な再学習を必要とせず、既存の強力な動画生成モデルを微調整するだけで実現できるため、計算コストの面で現実的です。

本論文は、生成型動画フレーム補間において「柔軟性」と「高品質」を両立させる新たな基準を確立し、動画生成技術の応用範囲を大きく広げるものと言えます。

Arbitrary Generative Video Interpolation