How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

この論文は、長編のテキストと画像を交互に生成する際に視覚履歴の蓄積が品質劣化を招くという課題を特定し、モデル内部の関連性に基づいて不要な視覚情報を動的に排除する「UniLongGen」という推論戦略を提案することで、長期生成の安定性と忠実度を大幅に向上させることを示しています。

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

長い物語を絵で描き続ける「UniLongGen」の仕組み

この論文は、**「AI に長い物語(テキスト)と絵を交互に描かせて、1 回 40 枚もの絵を連続して作らせる」**という挑戦について書かれています。

しかし、これまでの AI は、物語が進むにつれて絵がボロボロになり、最後には何が描かれているのか分からないほど崩れてしまうという「致命的な弱点」を持っていました。

この論文は、**「なぜ絵が崩れるのか?」という原因を突き止め、「記憶を整理する(忘れる)」**という新しい方法で、40 枚連続でも高品質な絵を描けるようにしました。


🚗 問題:なぜ物語が進むと絵が崩れるのか?

これまでの AI は、物語を続けるために「これまでに描いたすべての絵と文章」を記憶(コンテキスト)として持っていました。
しかし、この「全部覚えておく」というやり方が、実は**「記憶の汚染」**を引き起こしていました。

🌊 比喩:「騒がしい図書館」の例え

Imagine 想像してみてください。あなたが静かな図書館で、新しい本を書こうとしています。

  • これまでの AI(全部覚える):
    図書館には、あなたがこれまでに書いたすべてのページが積み重なっています。最初は静かですが、ページが 20 枚、30 枚と増えると、図書館は**「騒がしい市場」**のようになります。

    • 過去のページには、今の話とは無関係な「古い絵のノイズ」や「似ているけど違うキャラクターの顔」が散らばっています。
    • AI は「今、何を描くべきか?」と集中しようとしても、過去の**「ノイズ(雑音)」**が耳障りになり、集中力が散漫になります。
    • その結果、**「過去のノイズに引きずられて、今の絵が歪んでしまう」**のです。まるで、過去の失敗した絵の「悪霊」が今の絵を乗っ取ってしまうような状態です。
  • 重要な発見:
    論文によると、この崩壊は「文字の量」が原因ではなく、「絵(イベント)の数」が原因でした。
    文字が 10 万個あっても大丈夫でも、
    「絵が 20 枚を超えると」
    、AI の脳(注意機構)がパンクして、絵が崩れ始めるのです。


💡 解決策:UniLongGen(ユニロングジェン)

この問題を解決するために提案されたのが**「UniLongGen」です。
これは、AI に
「全部覚える」のではなく、「必要なものだけを選んで、不要なものは思い切って忘れる」**という新しい戦略です。

🧹 比喩:「賢い執事」の役割

UniLongGen は、AI の頭の中に働く**「賢い執事」**のような存在です。

  1. 一瞬で状況を確認する(プロファイリング):
    新しい絵を描く前に、執事は過去のすべてのページを素早く読みます。
  2. 「本当に必要な記憶」だけを選ぶ:
    • 「今の話に必要な**『登場人物の顔』」や『全体の雰囲気』**を決める過去の絵だけを厳選します。
    • 「今は関係ない過去の風景」や「ノイズになっている古い絵」は、「思い切って捨てます(削除します)」
  3. 記憶を整理して渡す:
    AI には、**「必要な 4〜5 枚の絵」「現在の文章」**だけを渡して、新しい絵を描かせます。

✨ なぜこれがうまくいくのか?

  • ノイズの排除: 過去の「邪魔なノイズ」を物理的に消すので、AI は今の話に集中できます。
  • 記憶の整理: 全部覚えておく必要がないため、AI のメモリ(計算資源)も節約でき、描く速度も 10 倍近く速くなります
  • 一貫性の維持: 必要な「キャラクターの顔」や「スタイル」だけを残すので、40 枚目になっても、最初のキャラクターと同じ顔で描き続けることができます。

🎯 具体的な成果

この方法を使うと、以下のような驚くべき結果が得られました。

  • 40 枚連続でも高品質: 最初の絵と最後の絵で、キャラクターの顔や絵のスタイルが崩れず、一貫性が保たれます。
  • 崩壊の防止: 従来の AI は 20 枚目で絵が崩れていましたが、UniLongGen は 40 枚目まで鮮明な絵を描き続けます。
  • 人間よりも賢い選択: 人間が「これは重要だ」と選んだ絵よりも、AI 自身が「自分の脳内で重要だと感じた絵」を選ぶ方が、結果として絵が上手に描けることが分かりました。

🌟 まとめ

この論文が伝えているのは、「記憶力が高いこと(全部覚えること)」が、必ずしも良いことではないということです。

長い物語を描くためには、**「何を忘れるか(何を捨てるか)」という「賢い整理術」の方が重要です。
UniLongGen は、AI に「過去のノイズを捨てて、今必要なことだけに集中する」ことを教えることで、
「無限に続く、高品質な絵物語」**を実現しました。

まるで、**「過去の騒がしいノイズを消し去り、静かな部屋で集中して絵を描く」**ような感覚で、AI の能力を最大限に引き出した画期的な技術なのです。