Fine-Tuning Diffusion Models via Intermediate Distribution Shaping

该论文提出通过重塑扩散模型中间噪声水平的分布来优化微调过程,统一了现有方法并引入 P-GRAFT 及逆噪声校正算法,在无需显式奖励的情况下显著提升了文本到图像、布局、分子及无条件图像生成等任务的性能。

Gautham Govind Anil, Shaan Ul Haque, Nithish Kannen, Dheeraj Nagaraj, Sanjay Shakkottai, Karthikeyan Shanmugam

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让 AI“画得更好”的新方法。为了让你轻松理解,我们可以把训练 AI 生成图像(比如 Stable Diffusion)的过程想象成教一个新手画家画画

1. 核心问题:新手画家需要“微调”

现在的 AI 模型(预训练模型)就像是一个已经看过几百万张画、有一定基础的新手画家。他画的大概像样,但如果你让他画“一只戴着墨镜的猫在冲浪”,他可能画得不够精准,或者猫看起来不像猫。

我们需要对他进行微调(Fine-tuning),让他更听指挥,画得更好。

2. 传统方法:笨拙的“试错法”

以前的微调方法(比如 PPO 或 DDPO)有点像让画家一边画一边改

  • 过程:画家画一笔,你告诉他“这里不对,改一下”,他再画一笔,你再告诉“那里也不对”。
  • 缺点:这就像在黑暗中摸索,画家需要记住整个作画过程的每一步(从第一笔到最后一笔),计算量巨大,而且很容易“走火入魔”(训练不稳定),导致画出来的东西更奇怪。

3. 论文的新方法:聪明的“筛选法” (GRAFT & P-GRAFT)

这篇论文提出了两个核心概念,我们可以用**“选照片”“中途截停”**的比喻来理解。

概念一:GRAFT(广义拒绝采样微调)—— “只挑最好的照片”

想象一下,你让画家画了 100 张“戴墨镜冲浪的猫”。

  • 传统做法:把这 100 张图都拿给画家看,告诉他“这张稍微好点,那张差一点”,让他慢慢学。
  • GRAFT 做法:你直接只挑出那 10 张画得最好的,把剩下的 90 张扔掉(拒绝采样)。然后,你只让画家照着这 10 张最好的图重新练习。
  • 好处:画家不再被那些画得烂的图干扰,只专注于学习“什么是好画”。这种方法在数学上被证明比“边画边改”更稳定、更高效。

概念二:P-GRAFT(部分 GRAFT)—— “中途截停,只练最难的部分”

这是论文最精彩的创新点。

  • 画画的阶段:AI 画画是从一团模糊的噪点(像电视雪花)开始,一步步去噪,最后变成清晰的图像。
    • 早期:从雪花变成模糊的轮廓(这时候画得像什么,其实很难判断,因为太模糊了)。
    • 中期:轮廓清晰,能看出是猫还是狗了。
    • 晚期:细节完善,加上墨镜和冲浪板。
  • 传统微调的痛点:如果让 AI 从头(雪花)开始学,它要处理的信息太复杂,就像让一个刚学画画的人直接去画复杂的细节,容易学歪(偏差大)。
  • P-GRAFT 的妙招
    1. 让画家(预训练模型)先自己画,画到中途(比如已经能看出是猫了,但还没加墨镜)。
    2. 这时候,你暂停一下,看看最终结果(加完墨镜的猫)好不好。
    3. 如果最终结果好,你就把**中途那个“猫的轮廓”**挑出来,告诉画家:“记住这个轮廓,以后你就从这种状态开始画!”
    4. 如果最终结果不好,就把那个中途的轮廓扔掉。
  • 为什么有效?
    • 比喻:这就好比教人开车。传统方法是让人从“怎么发动引擎”一直练到“怎么在高速上超车”,中间容易出错。P-GRAFT 是让人先练好“发动引擎和起步”(这是预训练模型擅长的),然后只教他“怎么在高速上超车”(这是微调要学的)。
    • 科学原理:论文发现,在画画的中途,AI 面临的“不确定性”比刚开始时小,但比结束时大。在这个中间阶段进行微调,既不会太难(像刚开始那样混乱),也不会太简单(像最后那样已经定型了),达到了**“难度适中,进步最快”**的平衡点。

4. 另一个大招:逆噪修正 (Inverse Noise Correction) —— “给颜料桶换个配方”

这部分主要针对另一种 AI 模型(Flow Models)。

  • 比喻:想象 AI 生成图像的过程,是从一个装满随机颜料的桶(噪声)开始,通过一个管道(模型),流出来变成一幅画。
  • 问题:有时候流出来的画颜色不对,可能是因为颜料桶里的颜料配方(初始噪声分布)本身就有问题,而不是管道(模型)坏了。
  • 解决方法
    1. 我们有一堆画得好的画(目标数据)。
    2. 我们把这些画倒着通过管道,推回颜料桶里。
    3. 这时候我们会发现,推回去的“颜料”和原来的“随机颜料”不一样。
    4. 于是,我们训练一个小模型,专门负责把普通的随机颜料变成这种“特制颜料”
    5. 以后 AI 画画时,先用这个小模型把颜料调好,再流进大管道。
  • 好处:不需要给 AI 奖励(比如“画得好给你糖吃”),只需要调整一下“原材料”,就能让画出来的东西质量大幅提升,而且速度更快。

5. 总结:这篇论文带来了什么?

  1. 更聪明地学习:不再让 AI 从头到尾死磕,而是只挑最好的结果,并且只在中途最关键的阶段进行强化训练。
  2. 效果更好:在文字生成图片(Text-to-Image)的任务上,比以前的方法画得更准、更听话(比如 VQAScore 分数更高)。
  3. 更省资源:不需要像以前那样算得那么累,就能达到更好的效果。
  4. 通用性强:不仅适用于画画,还能用来生成分子结构(制药)、设计房间布局等。

一句话总结
这篇论文教 AI 画画时,不再让它“笨拙地从头改到尾”,而是教它**“只盯着最好的结果,并在最关键的中途阶段进行特训”,甚至还能“调整原材料的配方”**,从而用更少的力气,画出更完美的画。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →