Premier: Personalized Preference Modulation with Learnable User Embedding in Text-to-Image Generation

本文提出了 Premier 框架,通过引入可学习的用户偏好嵌入和偏好适配器,结合分散损失以增强个体区分度,并利用现有嵌入的线性组合实现少样本泛化,从而显著提升了文本到图像生成中的个性化偏好对齐与风格一致性。

Zihao Wang, Yuxiang Wei, Xinpeng Zhou, Tianyu Zhang, Tao Liang, Yalong Bai, Hongzhi Zhang, Wangmeng Zuo

发布于 2026-03-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Premier 的新方法,旨在解决一个让很多 AI 绘画用户头疼的问题:“我知道我喜欢什么图,但我说不清楚,AI 也听不懂我的潜台词。”

简单来说,Premier 就像是一个**“懂你的私人艺术管家”。它不需要你写长篇大论的指令,只需要看你以前“点赞”或“收藏”**过的图片,就能学会你的审美口味,并画出你真正想要的东西。

下面我用几个生活中的比喻来拆解它的核心原理:

1. 核心痛点:为什么以前的 AI 不够“懂你”?

以前的方法(比如让 AI 读你的评论,或者用大模型分析你的喜好)就像是一个**“笨拙的翻译官”**。

  • 你心里想的是“我喜欢那种暖洋洋、有点复古的色调”。
  • 翻译官(大模型)把它翻译成文字指令:“复古暖色调”。
  • 结果 AI 画出来的图,虽然符合文字,但完全没抓到那种“感觉”。
  • 问题在于:人类的喜好往往是模糊的、感性的,很难用精准的文字描述。而且,如果翻译官太啰嗦,AI 反而会因为指令太复杂而“抓不住重点”。

2. Premier 的解决方案:三个“秘密武器”

武器一:给每个用户发一张“专属身份证” (Learnable User Embedding)

Premier 不依赖文字描述,而是直接看你提供的**“偏好图片”**(比如你以前点赞的 8 张图)。

  • 比喻:想象一下,AI 给每个用户发了一张**“数字身份证”。这张身份证不是写名字,而是把你所有的审美偏好(喜欢什么颜色、什么构图、什么风格)压缩成了一串“密码”**(学名:可学习用户嵌入)。
  • 效果:这串密码比任何文字描述都更精准地代表了“你是谁”。

武器二:让“身份证”和“指令”实时对话 (Preference Modulation)

有了“身份证”还不够,AI 还得知道怎么把它用在你当下的指令上。

  • 比喻:以前的做法是把“身份证”和“指令”硬塞在一起(像把两张纸粘在一起),容易互相干扰。Premier 的做法是**“调制”**。
  • 场景:想象你在点菜。
    • 指令是:“我要一份牛排”。
    • 你的“身份证”里写着:“我喜欢五分熟,加黑胡椒,不要洋葱”。
    • Premier 就像一个**“超级厨师”,他拿着你的“身份证”,在厨师下锅前的每一秒,都悄悄调整火候和调料(这就是调制**)。
    • 他不是在最后才加料,而是在烹饪的每一个步骤里,都根据你的口味微调。这样画出来的图,既符合“牛排”这个指令,又完美契合你的个人口味。

武器三:防止大家“撞衫” (Dispersion Loss)

如果 AI 太努力想讨好所有人,可能会导致所有人的“身份证”长得太像,最后画出来的图大家也都差不多。

  • 比喻:就像学校里的**“防撞衫机制”**。
  • 原理:Premier 加了一个特殊的规则(分散损失函数),强迫不同用户的“身份证”在数学空间里离得远一点
  • 效果:确保喜欢“赛博朋克”的用户和喜欢“水墨画”的用户,他们的“密码”截然不同,AI 绝不会把水墨画画成赛博朋克风。

3. 新来的用户怎么办?(冷启动策略)

如果是一个刚注册的新用户,只上传了 1-2 张图,AI 很难直接算出完美的“身份证”,容易“过拟合”(死记硬背,画不出新东西)。

  • 比喻:这时候,Premier 就像一个**“老练的导师”**。
  • 做法:它不会从零开始教新学生,而是说:“虽然你只给了两张图,但你的风格很像我们库里已经训练好的 A 同学(30%)和 B 同学(70%)的混合体。”
  • 原理:它把新用户的“身份证”表示为老用户“身份证”的线性组合
  • 效果:即使数据很少,也能迅速生成一个稳定、靠谱的“身份证”,让 AI 立刻上手为你服务。

4. 总结:它好在哪里?

根据论文的实验结果,Premier 就像是一个**“既听话又有主见”**的艺术家:

  1. 更懂你:在同样的历史图片数量下,它画出的图最符合你的个人口味(ViPer 指标最高)。
  2. 更听话:它没有因为过度关注你的喜好而忽略了你的文字指令(图文一致性更好)。
  3. 更灵活:哪怕你只给很少的参考图,它也能通过“混合老用户经验”来快速适应。

一句话总结
Premier 不再让你费力去描述“我想要什么”,而是通过**“看你的喜好图 -> 生成专属密码 -> 在绘画过程中实时微调”**,让 AI 真正变成了你肚子里的“蛔虫”,画出你心中所想。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →