InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

本論文は、背景の整合性、複数被写体を含むシームレスなショット遷移、および長時間ナラティブへのスケーラビリティという 3 つの課題を解決し、VBench において背景・被写体の整合性や全体の平均順位で最高スコアを達成した新しい動画生成フレームワーク「InfinityStory」を提案するものです。

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

『InfinityStory』の解説:まるで魔法の映画監督が作る、途切れない物語

この論文は、**「長い動画(映画や物語)を、AI に作らせる」**という難しい課題を解決した新しい技術「InfinityStory」について書かれています。

これまでの AI は、短い動画を作るのは得意でしたが、長い物語を作ると**「背景が勝手に変わってしまう」「キャラクターが突然消えたり、別の人が突然現れたりする」**という問題がありました。

InfinityStory は、まるで**「プロの映画監督と撮影チーム」**が組んで、一貫性のある美しい映画を作るような仕組みです。


1. 従来の AI の問題点:「変身するお化け」のような動画

これまでの AI が長い動画を作ろうとすると、以下のようなことが起こっていました。

  • 背景の浮遊現象: 物語が進むにつれて、部屋の色や外の景色が少しずつ変わってしまい、最後には最初の場所と全然違う場所になっていました。まるで**「撮影中にセットが勝手に作り変えられてしまった」**ような状態です。
  • キャラクターの突然消滅: 次のカット(映像の区切り)に切り替わると、主人公が突然消えていたり、知らない人が入ってきたりしていました。まるで**「魔法で消えたり現れたりするお化け」**のようでした。

2. InfinityStory の解決策:2 つの「魔法の道具」

この新しいシステムは、2 つの大きな工夫でこれらの問題を解決しました。

① 「固定されたセット」を使う(背景の一貫性)

映画撮影では、特定のシーン(例:「城の広間」)を撮影する際、セットは一度作ればそのまま使い回しますよね。
InfinityStory は、物語の冒頭で**「登場する場所(セット)」をすべて固定**します。

  • 仕組み: 「城」「森」「カフェ」といった場所を事前に作り、その場所の「壁紙」や「家具」を固定します。
  • 効果: キャラクターが動いても、背景は決して変わりません。まるで**「同じセットで撮影し続けた映画」**のように、世界観が安定します。

② 「滑らかな出入り口」を作る(キャラクターの自然な移動)

これまでの AI は、カットが変わるたびにキャラクターを「ポンッ」と消したり現したりしていました。
InfinityStory は、**「入り口と出口」**を意識した特別な動画生成技術を使います。

  • 仕組み: 前のカットでキャラクターが「右から入ってくる」ように指示し、次のカットでは「左から出ていく」ように指示します。AI はその**「移動の軌道」**を計算して、キャラクターが自然に画面を出入りする動画を作ります。
  • 効果: キャラクターが突然消えることなく、**「滑らかに歩き回る」ように見えます。まるで「プロの俳優が、カメラの動きに合わせて自然に演技している」**かのようです。

3. 特別な「練習用教材」の作成

この「滑らかな出入り」を教えるために、研究者たちは**1 万個もの「練習用動画」**を AI 自身で作りました。

  • 内容: 「人が入ってくる」「人が出ていく」「入れ替わる」といった、これまで AI が苦手としていた動きをたくさん集めました。
  • フィルタリング: 生成された動画の中から、AI(VLM)が「キャラクターの数が合っているか」「動きが自然か」をチェックし、**3,980 個の「最高品質な教材」**だけを選んで学習させました。
  • 比喩: まるで**「役者養成学校」**で、1 万回のリハーサルをして、最も上手な演技だけを教科書に載せて、新しい AI 俳優に教えているようなものです。

4. 結果:どう変わったのか?

このシステムをテストした結果、以下の点が飛躍的に向上しました。

  • 背景の安定性: 100 点満点中 88.94 点(他はもっと低かった)。
  • キャラクターの安定性: 100 点満点中 82.11 点。
  • 総合評価: 既存のすべての AI 動画生成モデルの中で**「1 位」**になりました。

まとめ

InfinityStoryは、AI に「長い物語」を語らせるための、**「世界観を壊さない背景管理」「キャラクターが自然に動く演出」**という 2 つの魔法を掛け合わせたシステムです。

これにより、AI はもはや「短い動画の断片」を作るだけでなく、**「一貫した世界観を持つ、本格的な長編アニメや映画」**を作れる可能性を大きく広げました。まるで、AI が一人で「脚本家」「監督」「撮影監督」「俳優」を全て務め、完璧な映画を作り上げる未来が近づいたと言えるでしょう。