ADAPT: Attention Driven Adaptive Prompt Scheduling and InTerpolating Orthogonal Complements for Rare Concepts Generation

ADAPT 是一种无需训练的框架,它通过利用注意力分数和正交补成分来确定性规划提示调度并实现语义对齐,从而显著提升了扩散模型在 RareBench 基准测试中生成罕见组合概念的能力。

Kwanyoung Lee, Hyunwoo Oh, SeungJu Cha, Sungho Koh, Dong-Jin Kim

发布于 2026-03-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ADAPT 的新方法,旨在解决人工智能(AI)绘画中一个非常头疼的问题:如何画出那些现实中很少见、甚至不存在的“奇葩”组合

想象一下,如果你让 AI 画一只“长着胡子的苹果”或者“穿着侦探风衣的海象”,普通的 AI 往往会画得很奇怪:要么胡子长在了苹果皮上像长毛,要么海象穿不上风衣。

ADAPT 就是为了解决这个问题而生的。我们可以把 ADAPT 想象成一个**“超级智能的导演”**,它通过三个绝招来指导 AI 画家(扩散模型)完成这幅画。

1. 核心问题:为什么以前的 AI 画不好?

以前的方法(比如论文中提到的 R2F)有点像让 AI 一边听指挥一边画画,但指挥员(大语言模型)有点“随性”。

  • 随机性:指挥员每次给出的指令细节都不一样,导致画出来的东西忽好忽坏。
  • 切换生硬:指挥员让 AI 先画“普通动物”,再突然切到“稀有动物”,这种切换太生硬,导致画面不连贯。

2. ADAPT 的三大绝招(导演三部曲)

第一招:APS(自适应提示词调度)—— “看眼神下菜碟”

  • 以前的做法:指挥员不管画到第几步,都机械地规定:“前 90% 的时间画普通动物,后 10% 的时间画稀有动物”。这就像不管演员演得怎么样,时间一到就强行换场,效果很差。
  • ADAPT 的做法:指挥员会时刻盯着画家的**“注意力”**(Attention)。
    • 比喻:就像老师教学生写字。老师不会死板地说“写 5 分钟”,而是看学生:“这个‘苹果’的‘果’字,你什么时候写得像样了,我就让你开始写下一个字。”
    • 原理:ADAPT 通过观察 AI 内部对每个词的“关注度”分数。当 AI 对“胡子”这个词的注意力足够稳定(收敛)时,它才放心地引入更复杂的概念。这样,切换提示词的时间是动态且精准的,完全取决于画画的进度,而不是死板的时间表。

第二招:PEM(池化嵌入操纵)—— “提取精华,保留底色”

  • 以前的做法:把“普通概念”和“稀有概念”简单混合在一起,结果往往是“普通概念”把“稀有概念”淹没了,或者两者打架,导致画面变脏。
  • ADAPT 的做法:它使用了一种**“正交投影”**(Orthogonal Projection)的数学技巧。
    • 比喻:想象“普通概念”是一杯白开水,“稀有概念”是一滴墨水。以前的方法是把墨水直接倒进去,可能倒多了水变黑,倒少了看不出颜色。
    • ADAPT 的做法是:先把白开水里的杂质(普通概念中重复的部分)过滤掉,只提取出那滴墨水独有的、不一样的部分(正交分量),然后再小心翼翼地加回去。
    • 效果:这样既保留了画面的基础结构(白开水),又精准地加上了稀有特征(墨水),互不干扰。

第三招:LSM(潜在空间操纵)—— “给特定属性加特效”

  • 以前的做法:有时候“稀有”不仅仅是一个词,而是一个复杂的属性(比如“由玻璃做的”)。简单的混合很难让 AI 理解这种材质感。
  • ADAPT 的做法:它把“属性”单独拎出来,在 AI 的**“潜空间”**(Latent Space,AI 理解世界的深层维度)里进行微调。
    • 比喻:这就像给 AI 画家戴上了一副**“属性眼镜”**。当画家画到“海象”时,这副眼镜会专门强化“玻璃材质”的笔触,而不会干扰海象的形状。
    • 效果:这让 AI 能更精准地控制像“金属质感”、“条纹”、“胡子”这些具体的细节,而不破坏整体形象。

3. 总结:ADAPT 带来了什么?

简单来说,ADAPT 不需要重新训练 AI(它是“免训练”的),而是通过更聪明的指挥方式,让现有的 AI 模型能画出以前画不出来的东西。

  • 更稳:不再依赖大语言模型随机生成的指令,而是根据 AI 自己的“注意力”来定节奏。
  • 更准:能精准地把“胡子”长在“苹果”上,而不是长在别的地方。
  • 更自然:画面既符合文字描述,又保持了真实感和美感。

一句话总结
ADAPT 就像给 AI 画家配了一位懂行、细心且懂得因材施教的导演,它不再死板地念剧本,而是看着画家的进度条,精准地提示“这里该加胡子了”、“那里该换材质了”,从而让 AI 能轻松画出各种天马行空的“稀有”创意。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →