Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个让 AI 画图时经常“犯糊涂”的问题，并提出了一个巧妙的“急救”方案。我们可以把整个过程想象成AI 画师在创作一幅画时的“记忆衰退”过程。

1. 核心问题：AI 画师为什么会“忘词”？（Prompt Forgetting）

想象一下，你请了一位才华横溢但有点健忘的画师（这就是现在的多模态扩散 Transformer，简称 MMDiT）来画画。

你的指令（Prompt）：你给他一张纸条，上面写着：“画一只红色的猫，坐在蓝色的椅子上，旁边有三只鸟。”
画师的工作流程：这位画师不是看一眼纸条就立刻动笔，而是需要把纸条上的文字和脑海中的图像反复“对话”、互相打磨，经过很多个步骤（也就是论文里说的“深层网络”）才能完成画作。

问题出在哪里？
在早期的步骤里，画师记得很清楚：“哦，是红色的猫，蓝色的椅子。”
但是，随着他工作的步骤越来越多（网络层数越深），他为了专注于把图像画得逼真、把光影处理得完美，大脑里关于“红色”、“蓝色”、“三只”这些具体细节的记忆就开始模糊了。
到了最后一步，他可能画出了一只猫，但颜色变成了灰色，椅子变成了木色，鸟的数量也变成了两只。
这就是论文发现的“提示词遗忘”（Prompt Forgetting）现象：AI 在画画的深层过程中，逐渐丢失了你最初给它的指令细节。

2. 科学家的发现：记忆是如何流失的？

研究人员像侦探一样，检查了画师（AI 模型）在每一个工作步骤中的“思维笔记”（中间层的文本特征）。

发现：他们发现，随着步骤加深，那些代表“红色”、“三只”等具体信息的“思维笔记”变得越来越混乱，甚至完全消失了。就像你在嘈杂的房间里听别人说话，离得越远，声音越听不清，最后完全听不见。
证据：他们做了一个测试，让 AI 在画画的中间阶段“回忆”刚才的指令。结果发现，越到后面，AI 能正确回忆出指令细节的概率就越低。

3. 解决方案：给画师“不断递小抄”（Prompt Reinjection）

既然知道了画师是因为“忘性大”才画错，那怎么帮他呢？
论文提出了一种不需要重新训练画师（Training-free）的巧妙方法，叫**“提示词重注入”（Prompt Reinjection）**。

这个方法的比喻：
想象你在给这位画师递小抄。

以前的做法：只在最开始把指令纸条给他看一次，然后让他自己凭记忆画完。
现在的做法（Prompt Reinjection）：
1. 我们在画师刚开始工作、记忆最清晰的时候（浅层网络），把他手里的“原始指令小抄”复印一份。
2. 在画师工作到一半、快要忘记细节的时候（深层网络），我们悄悄地把这份“原始小抄”再递给他一次，让他重新看一眼。
3. 为了不让小抄和画师现在的思路冲突，我们还会先对小抄进行一点“翻译”和“对齐”（论文里的分布锚定和几何对齐），确保它和画师当前的画风完美融合。

效果：
通过这种“不断提醒”的方式，画师在画画的最后阶段，依然能清晰地记得：“哦对，是红色的猫，蓝色的椅子，三只鸟！”
结果就是，AI 生成的图片更听话了，能更精准地还原你所有的指令细节。

4. 实际效果：画得更好了

研究人员在几个最流行的 AI 画图模型（如 SD3, FLUX, Qwen-Image）上测试了这个方法：

指令遵循度提升：比如你让画“四只狗”，以前可能画成三只或五只，现在能准确画出四只。
空间关系更准：以前“猫在椅子左边”可能画反了，现在能准确画对。
画质没变差：最重要的是，虽然加了“小抄”，但画出来的图依然很清晰、很美观，没有因为强行加指令而变得奇怪。

总结

这篇论文就像给 AI 画师配了一个**“记忆强化器”。
它发现 AI 在画画过程中容易“忘词”，于是发明了一种在画画中途不断把原始指令“喂”回给 AI**的方法。
这就好比你在教孩子背课文，孩子背到后面忘了，你不需要重新教他整篇课文，只需要在他快忘的时候，轻轻提醒他开头的那几句，他就能立刻想起来，把整篇课文背得完美无缺。

这个方法简单、有效，而且不需要重新训练庞大的 AI 模型，直接用在现有的模型上就能让 AI 变得更聪明、更听话。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心问题：提示词遗忘 (Prompt Forgetting)
在多模态扩散 Transformer (MMDiTs，如 SD3, SD3.5, FLUX, Qwen-Image) 中，文本和图像 Token 在统一的 Transformer 堆栈中进行联合处理，通过双向注意力机制进行交互。然而，作者发现随着网络深度的增加，文本分支中的提示词语义信息会逐渐丢失。

现象描述：在去噪过程中，浅层的文本特征包含丰富的细粒度语义（如属性、数量、空间关系），但随着层数加深，这些特征发生漂移，导致模型无法准确遵循复杂的指令（例如无法生成“四个”物体，或无法正确理解“在...上方”的空间关系）。
根本原因：监督不对称 (Supervisory Asymmetry)。
- 扩散模型的损失函数（如 $\epsilon$ -prediction）仅定义在图像潜在空间（Visual Latent Space）上。
- 图像 Token 受到直接监督，而文本 Token 仅通过联合注意力机制间接更新。
- 这种机制导致模型为了最小化去噪误差，可以牺牲文本特征的细粒度语义保留，只要它们对当前的图像重建任务“足够有用”即可。因此，深层文本表示发生了显著的语义漂移。

2. 方法论 (Methodology)

为了解决这一问题，作者提出了一种无需训练 (Training-free) 的推理阶段干预方法：提示词重注入 (Prompt Reinjection)。

2.1 核心机制

该方法的核心思想是将浅层（高保真）的文本特征重新注入到深层 Transformer 块中，以补偿深层特征的语义丢失。

2.2 技术实现细节

由于不同层之间的特征分布（尺度、偏移）和几何结构（坐标系旋转）存在差异，直接相加会导致性能下降。因此，Prompt Reinjection 包含两个关键对齐步骤：

分布锚定与恢复 (Distribution Anchoring & Restoration)：
- 归一化：对源层（浅层）和目标层（深层）的特征分别进行层归一化 (Layer Normalization)，消除均值和方差的差异。
- 统计恢复：在融合后，将特征投影回目标层的原始统计分布（恢复均值 $\mu$ 和标准差 $\sigma$ ），确保后续 Transformer 块的数值稳定性。
几何对齐 (Geometry Alignment via Orthogonal Procrustes)：
- 解决不同层之间特征空间的旋转差异。
- 使用正交 Procrustes 变换计算最优旋转矩阵 $R$ ，将源层特征映射到目标层的流形空间。
- 公式： $T_{added} = \hat{T}_{tgt} + w \cdot \hat{T}_{ori}R$ ，其中 $w$ 是注入权重。

2.3 实施策略

源层选择 ( $l_{ori}$ )：通常选择文本编码器输出后的前几个块（如第 1 或第 2 层），此时特征刚进入去噪器但尚未发生剧烈分布漂移，保留了最丰富的语义。
目标层覆盖：注入到所有深层块（ $l > l_{ori}$ ），确保持续的语义增强。
无需微调：该方法在推理时直接应用，不需要更新模型参数。

3. 关键贡献 (Key Contributions)

现象发现与量化：
- 首次系统性地揭示了 MMDiTs 中存在的“提示词遗忘”现象。
- 通过 CKNNA (条件 K 近邻对齐) 和 PCA 可视化证明了文本特征随深度增加发生局部语义结构破坏和全局分布坍缩。
- 通过层级探测 (Layer-wise Probing) 实验，定量证明了随着深度增加，从文本特征中解码属性（如名词、形容词、空间关系、数字）的准确率单调下降，其中空间关系的遗忘最为严重。
提出 Prompt Reinjection 方法：
- 设计了一种无需训练的推理干预方案，通过重注入浅层特征来缓解遗忘。
- 引入了分布锚定和几何对齐机制，解决了跨层特征融合的技术难题。
广泛的实验验证：
- 在四个主流模型 (SD3, SD3.5, FLUX, Qwen-Image) 上验证了方法的有效性。
- 在多个基准测试 (GenEval, DPG, T2I-CompBench++) 上取得了显著提升，特别是在计数 (Counting)、属性绑定和空间关系 (Position) 任务上。

4. 实验结果 (Results)

4.1 指令遵循能力 (Instruction Following)

GenEval 基准：
- SD3.5 整体得分提升 6.48%。
- FLUX 整体得分提升 5.64%。
- 空间关系 (Position) 任务提升最为显著（例如 SD3.5 从 0.2575 提升至 0.3200），验证了该方法有效解决了最严重的遗忘类型。
其他基准：在 DPG 和 T2I-CompBench++ 上也取得了全面且一致的提升，涵盖了实体、属性、关系和数量等多个维度。

4.2 图像质量与偏好 (Quality & Preference)

人类偏好指标：在 HPSv2, ImageReward, PickScore 等指标上，方法保持了持平或略有提升，说明重注入没有破坏图像的生成质量或美学。
语义对齐：CLIP Score 也有提升，表明文本与图像的语义一致性增强。

4.3 消融实验

对齐组件：证明了分布锚定和几何对齐（特别是旋转对齐）对于性能提升至关重要。
层选择：浅层源（ $l=1$ 或 $2 $）配合低注入权重（$ w \approx 0.025$）效果最佳。
鲁棒性：方法在不同 CFG (Classifier-Free Guidance) 尺度下均表现稳定。
计算开销：仅增加了极少量的推理延迟（每个块约增加 0.17ms），内存开销也很小，具有极高的性价比。

5. 意义与影响 (Significance)

理论洞察：揭示了 MMDiTs 架构中由于监督不对称导致的深层语义漂移问题，为理解扩散 Transformer 的内部机制提供了新视角。
实用价值：提供了一种简单、低成本（无需重新训练）的即插即用方案，显著提升了现有顶级文生图模型对复杂指令的遵循能力，特别是对于需要精确计数、空间布局和属性控制的场景。
未来方向：指出了未来可以通过在训练阶段增加文本分支的直接监督（如文本重建损失）或设计更复杂的动态重注入机制来进一步解决该问题。

总结：该论文通过深入分析 MMDiTs 的层间特征演化，发现了提示词遗忘现象，并提出了一种巧妙的“提示词重注入”机制。该方法在几乎不增加计算成本的前提下，显著提升了多模态扩散模型在复杂指令遵循任务上的表现，是当前文生图模型优化领域的重要进展。