A Survey on Generative Modeling with Limited Data, Few Shots, and Zero Shot

这篇论文针对医学、卫星成像等数据受限场景,系统综述了生成式建模在少样本和零样本条件下的挑战、任务分类与方法体系,并基于对 230 余篇文献的分析提出了涵盖基础模型适配与数据策略的未来发展路线图。

Milad Abdollahzadeh, Guimeng Liu, Touba Malekzadeh, Christopher T. H. Teo, Keshigeyan Chandrasegaran, Ngai-Man Cheung

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“在资源匮乏的厨房里做顶级大餐”的终极指南**。

想象一下,传统的生成式 AI(比如能画出逼真照片的 AI)就像是一个拥有无限食材和顶级厨师团队的大饭店。它们需要成千上万张图片和巨大的数据量来学习怎么画出一只猫或一个人。

但是,现实世界中有很多情况,我们没有那么多“食材”

  • 医学领域:某种罕见病的 X 光片可能只有几十张。
  • 艺术领域:你想让 AI 学习画你自家那只独一无二的宠物,但你只有它的一两张照片。
  • 卫星图像:某些特定地点的卫星图非常稀缺。

这篇论文(Survey)就是专门研究:当数据非常少(Few-shot)、甚至没有数据(Zero-shot)时,我们如何训练出高质量的生成模型?

作者把这种挑战称为**“数据受限下的生成建模” (GM-DC)**。为了让大家看懂这个复杂的领域,他们用了几个非常生动的比喻和分类:

1. 核心挑战:为什么“少数据”这么难?

  • 死记硬背(过拟合)
    想象一个学生,老师只给他看了一张猫的照片,就让他画猫。如果这个学生太笨,他可能会把那张照片里的每一根胡须、每一个像素都背下来,画出来的东西和原图一模一样,但换个姿势就画不出来了。这就是 AI 的“过拟合”——它记住了数据,却没学会规律。
  • 频率偏见(只画轮廓,忽略细节)
    AI 就像个喜欢画大轮廓的画家,它很容易学会画猫的“大致形状”(低频信息),但很难学会画猫毛的“细腻质感”(高频信息)。数据越少,它越容易忽略这些细节,画出来的东西看起来模糊、像塑料。
  • 错误的“知识迁移”
    这是最有趣的部分。假设你有一个画“人脸”的专家(预训练模型),你想让他改行画“花朵”。
    • 好的迁移:他学会了怎么画花瓣的纹理。
    • 坏的迁移:他太习惯画人脸了,结果画出来的花,花瓣上长出了眼睛,或者花蕊变成了鼻子(就像论文图 6 里展示的,把人脸的墨镜戴在了花上)。这就是“不兼容的知识迁移”。

2. 八大任务类型:我们要解决什么问题?

作者把这个问题分成了 8 种不同的“考试题型”:

  1. 无条件的“从零开始”:给你 100 张猫的照片,让你学会画猫。(没老师教,全靠自学)。
  2. 有老师的“跨域适应”:给你一个人脸专家模型,再给你 10 张猫的照片,让他学会画猫。(利用旧知识学新东西)。
  3. 纯文字的“无中生有”:给你一个人脸专家模型,只告诉你“我要画梵高的风格”,不给你任何梵高的画。(完全靠文字指令)。
  4. 有条件的“分类生成”:给你 100 张猫狗照片(带标签),让你学会画“猫”或者“狗”。
  5. 跨类别的“举一反三”:模型已经学会了画 80 种花,现在给你 3 张第 81 种花的照片,让它学会画这种新花。
  6. 跨领域的“带标签适应”:模型学过 ImageNet(很多类),现在要适应 Places365(地点),还要带标签。
  7. 单图“内部挖掘”:只给你一张图(比如一张风景照),让你画出这张图里所有可能的变体(比如把云换掉,但保留山的结构)。
  8. 主角驱动的“定制生成”:给你 3 张你背包的照片,告诉 AI“这是我的背包”,然后让它把背包画在各种场景里(比如背包在火星上)。

3. 七大解题策略:大厨们有什么绝招?

面对数据少的困境,研究者们想出了七种主要策略:

  • 策略一:借力打力(迁移学习)

    • 微调:像给老厨师穿上新围裙,只教他新菜系的几个关键步骤,不动他原来的基本功。
    • 潜空间挖掘:在老厨师的“记忆库”里寻找适合新菜系的灵感。
    • 自然语言引导:直接告诉老厨师:“这次我们要画梵高风格”,利用 CLIP 等模型把文字变成绘画指令。
    • 提示词微调:不改动厨师的大脑,只给他一张“提示卡”(Visual Prompt),让他照着卡上的感觉画。
  • 策略二:变废为宝(数据增强)

    • 把现有的几张猫的照片,通过旋转、变色、裁剪,变成几百张“看起来不一样”的照片,强行扩充数据集。但这有个风险:如果变太狠,AI 可能会学会画“旋转的猫”而不是“猫”。
  • 策略三:精简架构(网络设计)

    • 既然食材少,就别用那么大的锅。设计更轻量、更简单的模型,防止它因为太复杂而“撑死”(过拟合)。
  • 策略四:多任务学习(一鱼多吃)

    • 让 AI 在学画猫的同时,顺便学做别的题(比如分辨真假),强迫它理解更深层的逻辑,而不是死记硬背。
  • 策略五:关注细节(频率组件)

    • 专门给 AI 戴上一副“高倍眼镜”,强迫它关注图像的高频细节(如毛发、纹理),防止它只画个大概。
  • 策略六:学会学习(元学习)

    • 让 AI 先学“怎么学”。以前见过很多种花,现在给它一种新花,它能迅速利用以前的经验,只学一点点就能上手。
  • 策略七:单图内部挖掘

    • 既然只有一张图,那就研究这张图内部的规律(比如这张图里云的分布规律),利用这些规律生成新图。

4. 未来的方向:路在何方?

论文最后指出了几个还没被充分开发的“宝藏”:

  • 利用超级大脑(基础模型):现在的研究多用老模型(如 StyleGAN),未来应该更多利用像 Stable Diffusion 这样的大模型,它们脑子里的知识更丰富。
  • 画从未见过的东西:现在的零样本生成只能画大家熟知的概念。未来要能画出“2025 年罗马教皇就职典礼”这种还没发生、或者没被大量记录的事件。
  • 跨越巨大的鸿沟:目前从“人脸”转到“动物”还能凑合,但从“人脸”转到“花朵”这种跨度极大的领域,AI 还经常画崩。这需要更强的适应力。
  • 数据本身很重要:大家太关注怎么训练模型,却忽略了选什么样的数据。如果给 AI 的 10 张猫照片里,有 9 张是黑猫,1 张是白猫,它可能学偏了。如何精选数据是未来的关键。

总结

这篇论文就像是一份**“穷人的米其林指南”**。它告诉我们,即使没有海量的数据,通过巧妙的算法设计、利用已有的知识、以及聪明的数据策略,我们依然可以训练出强大的 AI,让它们学会在资源匮乏的领域(如医疗、艺术、小众领域)发挥巨大的作用。

它不仅总结了过去的 230 多篇论文,还画了一张巨大的“关系图”(Sankey 图),帮助研究者看清这个领域的脉络,为未来的创新指明了方向。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →