Arbitrary Generative Video Interpolation

この論文は、任意の時間位置と任意の長さの中間フレームを生成可能にするため、時刻認識ローテート位置埋め込みと外観・運動の分離条件付け戦略を導入した新しい生成型動画補間フレームワーク「ArbInterp」を提案し、既存手法を上回る高忠実度かつ滑らかな時空間連続性を達成したことを述べています。

Guozhen Zhang, Haiguang Wang, Chunyu Wang, Yuan Zhou, Qinglin Lu, Limin Wang

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎬 従来の方法:「決まったレシピ」の限界

これまでの動画生成 AI は、**「最初の写真(A)」と「最後の写真(B)」を渡すと、「決まった枚数(例えば 3 枚)」**の中間写真を自動的に作ってくれるという仕組みでした。

  • 例え話:
    料理人が「卵焼きの完成品(A)」と「焦げた卵焼き(B)」を渡され、「真ん中を 3 枚作って」と言われたら、3 枚だけ作ります。
    でも、「じゃあ、もっと滑らかにしたいから 10 枚作って」「いや、逆に 1 枚だけでいいから」と言っても、「3 枚しか作れない」というルールに縛られていて、柔軟に対応できませんでした。

これが、動画のフレームレート(滑らかさ)や長さを調整したい時に大きな壁になっていたのです。


🚀 新しい技術「ArbInterp」:「自由な注文」が可能に

この論文で紹介されている**「ArbInterp」は、「0 秒から 1 秒の間なら、いつの瞬間でも、何枚でも作れます!」**という画期的な技術です。

1. 「時計の針」を自由に動かす(TaRoPE)

AI に「0 秒(スタート)」と「1 秒(ゴール)」を教え、その間の**「0.3 秒」「0.7 秒」など、「好きな時刻」**を指定して画像を作らせる技術です。

  • 仕組みの例え:
    従来の AI は「1 番目、2 番目、3 番目…」という**「番号」で場所を覚えていました。だから「3 番目」しか作れませんでした。
    新しい AI(ArbInterp)は、
    「時計の針」で場所を覚えています。「0 時(スタート)」と「12 時(ゴール)」の間なら、「3 時」「5 時 30 分」**など、**針が指す anywhere(どこでも)**に画像を生成できるのです。
    これにより、「2 倍速」でも「32 倍速」でも、好きなだけ滑らかに動画を伸ばせます。

2. 長い動画を「区切り」でつなぐ(モーションと見た目の分離)

もし「1 時間分」の動画を連続して作ろうとすると、AI は途中で「あれ?前のシーンと動きが繋がらない!」と混乱してしまいます(映像がカクカクしたり、キャラクターの顔が変わったりする)。

そこで、ArbInterp は**「見た目(アパランス)」「動き(モーション)」**を分けて管理する賢い作戦を使います。

  • 仕組みの例え:
    • 見た目(アパランス): 前の区切りの「最後の写真」を、次の区切りの「スタート地点」として渡します。これで**「キャラクターの服や顔が急に変わってしまう」**のを防ぎます。
    • 動き(モーション): 「回転している」「走っている」といった**「動きのニュアンス」**だけを別のメモ(トークン)にまとめて、次の区切りに渡します。
    • 結果: 前の区切りで「右に回っていた」なら、次の区切りでも自然に「右に回り続ける」ので、長い動画でも途切れず、滑らかに繋がります。

🌟 この技術がすごい点

  1. 自由自在な長さ:
    「2 倍」でも「100 倍」でも、AI が一度に全部作ろうとせず、**「必要な分だけ、必要なタイミングで作る」**ので、どんな長さの動画でも対応できます。
  2. 高品質で滑らか:
    従来の方法では、無理やり枚数を増やすと映像が崩れていましたが、この技術は**「自然な動きの軌道」**を計算して作るので、非常に滑らかで綺麗です。
  3. 計算コストの削減:
    最初から長い動画を全部作ろうとすると重すぎて大変ですが、「必要な部分だけ」を細かく作ってつなぐので、効率的に動かせます。

💡 まとめ

これまでの動画生成 AI が**「決まった枚数しか作れない硬いブロック」だったのに対し、ArbInterp「粘土のように、好きな形・好きな長さで自由に伸ばせる柔らかい素材」**になりました。

これにより、ゲームの滑らかな動き作りや、映画の特殊効果、あるいは「あの瞬間をスローモーションで詳しく見たい」といった、これまでに難しかった**「動画の編集・生成」**が、もっと簡単で自由に行えるようになるでしょう。


一言で言うと:
「スタートとゴールを渡せば、『いつの瞬間』を『何枚』作ってもいいよと、AI が自由に操れるようになったすごい技術」です。