Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers

この論文は、テキストから画像を生成するマルチモーダル拡散トランスフォーマーにおいて深層でプロンプトの意味が失われる「プロンプト忘却」現象を特定し、初期層のプロンプト表現を後続層に再注入する学習不要な手法「プロンプト・リインジェクション」を提案することで、指示追従性や生成品質を向上させることを示しています。

Yuxuan Yao, Yuxuan Chen, Hui Li, Kaihui Cheng, Qipeng Guo, Yuwei Sun, Zilong Dong, Jingdong Wang, Siyu Zhu

公開日 2026-02-18
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、最新の画像生成 AI(テキストから絵を描く AI)が抱えるある「忘れっぽさ」の問題を解決し、より指示通りに絵を描けるようにする新しい方法を提案したものです。

タイトル:「プロンプトの再注入(Prompt Reinjection):マルチモーダル拡散トランスフォーマーにおける『指示忘れ』の解消」

これを、AI の仕組みを「料理」や「物語の伝達」に例えて、わかりやすく解説します。


1. 問題点:AI は「指示」を忘れがち(プロンプト・フォージティング)

最新の画像生成 AI(SD3 や FLUX など)は、従来の AI とは少し違います。

  • 昔の AI:「料理のレシピ(テキスト)」を厨房の入り口で渡して、料理人(画像生成部分)がそれを見て料理を作る。レシピは最初だけ見ればよく、その後は料理人が勝手に進める。
  • 最新の AI:「レシピ(テキスト)」と「料理(画像)」が同じ大きなキッチンで、一緒に調理の過程を歩みながら会話しながら進んでいくという形です。

しかし、ここに大きな問題がありました。
長い調理工程(AI の深い層)を進むにつれて、**「レシピの内容が薄れていってしまう」**のです。

  • 例え話
    あなたが「4 匹の犬が青い空の下で走っている」と指示を出したとします。
    最初のうちは AI は「4 匹」「青い」「犬」という情報をしっかり持っています。しかし、画像を完成させるための複雑な計算を何十回も繰り返す(AI の層を深くする)と、AI は「4 匹」や「青い」という細かい情報を忘れてしまい、結果として「3 匹の犬」や「赤い空」のような、指示と違う絵を描いてしまうことがありました。

これを論文では**「プロンプト・フォージティング(指示忘れ)」**と呼んでいます。特に「位置関係(右にある)」や「数(4 つ)」といった細かい指示が、一番忘れられやすいことがわかりました。

2. 原因:なぜ忘れるのか?

AI は「画像を綺麗に描くこと」に全力を注ぎます。その過程で、テキストの情報は「画像を作るためのヒント」として使われますが、「画像を作る」こと自体に直接の正解(正解の画像)がないため、テキストの情報は勝手に変化してしまい、元の意味が失われていくのです。

まるで、長い旅路の中で、出発時に持っていた「目的地の地図」が、道中の風景に気を取られて次第にボロボロになり、最後には「あ、どこに行くんだったっけ?」となってしまうようなものです。

3. 解決策:「再注入(Reinjection)」という魔法

そこで著者たちは、**「忘れないうちに、再び思い出させてあげよう」というアイデアを思いつきました。それが「プロンプト・リインジェクション(Prompt Reinjection)」**です。

仕組みのイメージ:

  1. 浅い層(旅の初期):AI がまだ「4 匹」「青い」という情報を鮮明に持っている、最初の段階のテキスト情報をコピーします。
  2. 深い層(旅の後半):AI が「4 匹」を忘れそうになっている、後半の工程で、**そのコピーした情報を「注入(リインジェクション)」**して、再び AI の頭に叩き込みます。

重要なポイント:
ただ単に情報を足すだけでは、AI が混乱してしまいます(「今、何の話をしてたっけ?」と)。
そこで、この方法は**「情報の形を合わせてから注入する」**という工夫をしています。

  • 例え話
    後半の AI の頭は「料理の味付け」に慣れている状態ですが、最初のレシピは「生野菜」のままです。これをそのまま入れると味が壊れます。
    そこで、**「後半の料理の味付けに合わせて、最初のレシピも少し味付け(統計的な調整)をしてから」**入れることで、AI が混乱せずに「あ、そうそう、4 匹の犬だったんだ!」と思い出せるようにします。

4. 効果:指示通りに描けるようになった!

この方法を実際に試したところ、驚くべき結果が出ました。

  • 数え間違いの減少:「4 匹の犬」を「4 匹」で描けるようになりました。
  • 位置関係の改善:「右にある赤い車」を、ちゃんと右側に描けるようになりました。
  • 色や形の正確性:「青い空」「緑の芝生」など、色や素材の指定も守られるようになりました。

しかも、AI の学習(トレーニング)を一切行わず、絵を描く時(推論時)にこの「思い出させる作業」を挟むだけで実現できました。つまり、既存の AI モデルをそのまま使って、すぐに性能を上げられるという画期的な方法です。

5. まとめ

この論文が伝えたかったことはシンプルです。

「最新の AI は絵を描くのが上手だけど、長い工程の中で指示を忘れっぽくなっている。だから、**『忘れないうちに、最初の話(指示)を思い出させてあげる』**という簡単な作業を挟むだけで、AI はもっと指示通りに、正確で素晴らしい絵を描けるようになるよ」

これは、AI が「指示に従う力(インストラクション・フォロイング)」を劇的に向上させる、シンプルで効果的な「魔法の薬」のような発見と言えます。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →