Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models

该论文针对无分类器引导(CFG)在扩散模型中因过度依赖次优预测而导致语义不连贯的问题,提出了一种利用随机块丢弃构建子网络进行自我引导的无训练增强方法 S²-Guidance,显著提升了文生图和文生视频任务的质量。

Chubin Chen, Jiashu Zhu, Xiaokun Feng, Nisha Huang, Chen Zhu, Meiqi Wu, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Xiu Li

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 S2-Guidance(随机自我引导) 的新方法,旨在让 AI 画图(文生图)和生成视频变得更聪明、更自然,而且不需要重新训练模型

为了让你轻松理解,我们可以把 AI 生成图像的过程想象成一位才华横溢但偶尔会“想太多”的画家在作画

1. 现状:画家遇到了什么麻烦?

目前,为了让 AI 画出的东西更听话(比如你让它画“一只戴墨镜的猫”,它就能画得很像),大家常用一种叫 CFG(无分类器引导) 的技术。

  • 比喻:CFG 就像是一个严厉的监工。当画家(AI 模型)开始画画时,监工会大声喊:“你要听指令!要像猫!要戴墨镜!”
  • 问题:这个监工喊得太用力了,导致画家虽然听话了,但画出来的东西往往僵硬、不自然,甚至出现奇怪的“幻觉”(比如猫的脸变形了,或者墨镜长在了耳朵上)。这就是论文里说的“次优结果”和“语义不连贯”。

2. 以前的解决方案:找个“笨”画家来帮忙

为了解决这个问题,以前的方法(比如 Autoguidance)是找另一个能力稍差一点的“笨”画家(弱模型)来当顾问。

  • 比喻:主画家画的时候,旁边站个笨画家。主画家问:“我这样画对吗?”笨画家说:“不对,我觉得那样画才像真的。”主画家就照着笨画家的建议改。
  • 缺点
    1. 你得专门去训练这个“笨画家”,很麻烦,而且大模型很难找到合适的“笨”版本。
    2. 如果这个“笨画家”选得不好,反而会带偏主画家。

3. 本文的妙招:S2-Guidance(随机自我引导)

这篇论文的作者发现了一个有趣的秘密:这位才华横溢的画家,其实身体里藏着好几个“分身”,这些分身虽然也是他,但在某些时候会犯一些不同的错误。

作者提出了一种不需要找外人,也不需要重新训练的方法:

  • 核心思想:利用画家自己的“分身”来纠正自己。
  • 具体操作(随机块丢弃)
    想象画家的大脑由很多个“思考模块”(神经网络层)组成。在画画的过程中,作者让画家随机地、暂时性地“关掉”一小部分模块(比如关掉 10% 的神经元)。
    • 比喻:这就像画家在画画时,偶尔会闭上一只眼睛,或者暂时忘掉一部分复杂的技巧,只用剩下的部分去画。这时候画出来的东西,虽然不完整,但往往能反映出一种“更原始、更自然”的直觉。
    • 自我引导:AI 会对比“全神贯注画出来的图”和“闭眼/少用技巧画出来的图”。它会发现:“哎,全神贯注时我好像把猫画歪了,而闭眼时反而更自然。”于是,它就用那个“闭眼”的直觉来修正“全神贯注”时的错误。

4. 为什么叫“随机”且“只需一次”?

  • 随机:每次画画时,随机关掉不同的模块,这样能捕捉到各种各样的“直觉”,避免死板。
  • 只需一次:作者发现,不需要每次画画都关很多次,每画一步,随机关掉一次就足够了。这就像你开车时,偶尔看一眼后视镜确认一下方向,不需要一直盯着后视镜开,既安全又省油(计算效率高)。

5. 效果如何?

论文通过大量实验证明(包括画猫、画风景、生成视频):

  • 更自然:生成的图片细节更丰富(比如宇航员的头盔反光、动物的毛发),视频里的动作更流畅(比如熊爬树、车加速)。
  • 更听话:能更准确地理解复杂的指令,不会出现“指鹿为马”的情况。
  • 更省钱:虽然多算了一点点(大约 40% 的时间),但换来的是画质的巨大提升,性价比极高。而且不需要额外的显卡内存,因为它是“串行”工作的(算完一步再算下一步)。

总结

S2-Guidance 就像是给 AI 画家装了一个**“自我纠错机制”。它不需要请外援,也不需要重新培训,而是让 AI 在创作过程中,偶尔“放松一下”或“换个角度”看看自己,利用这种随机的自我反思**,把那些因为太用力而画歪的地方修正回来。

这就好比你在写文章时,如果太纠结于语法,可能会写得不通顺;偶尔读一遍草稿,用一种“放松”的心态去审视,反而能发现并修正那些不自然的表达。这就是 S2-Guidance 的精髓。