Few-Shot Generative Model Adaption via Identity Injection and Preservation

本文提出了一种名为身份注入与保持(I²P)的新方法,通过身份注入模块和包含风格 - 内容解耦器及重建调制器的身份替换模块,有效解决了少样本生成模型适应过程中源域身份知识遗忘的问题,从而显著提升了目标域生成图像的质量。

Yeqi He, Liang Li, Jiehua Zhang, Yaoqi Sun, Xichun Sheng, Zhidong Zhao, Chenggang Yan

发布于 2026-03-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 I2P(身份注入与保持)的新方法,旨在解决人工智能绘画中的一个棘手难题:如何用极少的图片(比如只有 10 张),让 AI 学会画新风格,同时还能认出它画的是谁。

为了让你更容易理解,我们可以把生成式 AI 模型想象成一位技艺高超的“老画家”

1. 核心难题:老画家的“失忆症”

想象一下,这位老画家(预训练好的 AI 模型)已经画了成千上万张人脸,他非常擅长捕捉每个人的独特特征(比如张三的鹰钩鼻、李四的双眼皮),这就是所谓的“身份(Identity)”。

现在,你只给了他10 张“梵高风格”的画,想让他学会用梵高的笔触来画张三。

  • 以前的方法(旧技术): 老画家为了适应这 10 张新画,拼命模仿梵高的笔触,结果把张三的鹰钩鼻给画丢了,或者把张三画成了完全陌生的另一个人。这就叫**“过拟合”(死记硬背了那 10 张图)和“模式崩溃”**(画出来的东西千篇一律,失去了多样性)。
  • 结果: 画是梵高风格的,但根本不像张三了。

2. 我们的解决方案:I2P(身份注入与保持)

为了解决这个问题,作者给老画家装上了两个“魔法工具”,分别叫**“身份注入”“身份替换”**。

工具一:身份注入(Identity Injection)—— “灵魂移植”

  • 比喻: 想象老画家在开始画新画之前,先喝了一杯“张三特制咖啡”。这杯咖啡里提取了张三所有独特的基因信息(比如他的五官轮廓)。
  • 作用: 即使老画家之后要模仿梵高的狂野笔触,这杯咖啡也能确保他**“心里装着张三”**。他在画布上落笔时,潜意识里知道:“哦,我要画的是张三,不能把他的鼻子画歪了。”
  • 技术原理: 把源域(老画家原本的知识)和目标域(新风格)的潜在特征融合,强行把“张三是谁”的信息注入到新的绘画过程中。

工具二:身份替换(Identity Substitution)—— “乐高积木拆解与重组”

  • 比喻: 想象老画家有一盒乐高积木
    • 以前,他画张三时,积木是粘在一起的(风格和内容混在一起)。
    • 现在,他有一个**“拆解器”**,能把画拆成两部分:
      1. 内容块(Content): 张三的脸型、五官(这是不变的“身份”)。
      2. 风格块(Style): 梵高的黄色漩涡、粗线条(这是要学的“新风格”)。
    • 接着,他有一个**“重组器”**,把“张三的脸”和“梵高的笔触”重新拼在一起。
  • 作用: 这样既能学会新风格,又不会把张三的脸给弄丢了。
  • 技术原理: 利用 CLIP 模型提取特征,通过“风格 - 内容解耦器”把两者分开,再通过“重建调制器”把它们重新组合。

工具三:身份一致性约束(Identity Consistency)—— “严格的质检员”

  • 比喻: 在老画家画完画后,有一个**“质检员”**拿着放大镜检查:
    1. 内容检查: 这张画还是张三吗?(如果鼻子变了,打回去重画)。
    2. 风格检查: 这画得像梵高吗?(如果线条太直,打回去重画)。
    3. 合成检查: 把张三的脸和梵高的风格拼在一起,看起来自然吗?(有没有违和感?)。
  • 作用: 通过这三个“检查点”,强迫 AI 在画的过程中,既不能丢掉身份,也不能丢掉风格,还要保证两者融合得自然。

3. 实验效果:画得更好,记得更牢

作者在多个数据集上做了测试(比如把“真人照片”变成“素描”,或者把“教堂”变成“鬼屋”):

  • 以前: 只有 10 张图时,AI 要么画得像鬼(过拟合),要么画得不像本人(身份丢失)。
  • 现在(I2P): 即使只有 10 张甚至 5 张图,AI 也能画出既像张三,又有新风格的高质量图片。
  • 数据证明: 在衡量“像不像”(FID 分数)和“多样性”(Intra-LPIPS)的考试中,I2P 的成绩都超过了目前最先进的方法。

4. 总结

简单来说,这篇论文就是给 AI 画家装了一套**“记忆锚点”“拆解重组”**的机制。

  • 以前: 学新风格 = 忘掉老本行。
  • 现在(I2P): 学新风格 = 带着老本行去学新本事

这就好比一个厨师,即使让他用全新的“分子料理”手法做菜,他依然能完美保留食材原本的味道(身份),而不是把菜做得面目全非。这让 AI 在数据非常稀缺的情况下,也能变得非常聪明和灵活。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →