Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 S2-Guidance（随机自我引导） 的新方法，旨在让 AI 画图（文生图）和生成视频变得更聪明、更自然，而且不需要重新训练模型。

为了让你轻松理解，我们可以把 AI 生成图像的过程想象成一位才华横溢但偶尔会“想太多”的画家在作画。

1. 现状：画家遇到了什么麻烦？

目前，为了让 AI 画出的东西更听话（比如你让它画“一只戴墨镜的猫”，它就能画得很像），大家常用一种叫 CFG（无分类器引导） 的技术。

比喻：CFG 就像是一个严厉的监工。当画家（AI 模型）开始画画时，监工会大声喊：“你要听指令！要像猫！要戴墨镜！”
问题：这个监工喊得太用力了，导致画家虽然听话了，但画出来的东西往往僵硬、不自然，甚至出现奇怪的“幻觉”（比如猫的脸变形了，或者墨镜长在了耳朵上）。这就是论文里说的“次优结果”和“语义不连贯”。

2. 以前的解决方案：找个“笨”画家来帮忙

为了解决这个问题，以前的方法（比如 Autoguidance）是找另一个能力稍差一点的“笨”画家（弱模型）来当顾问。

比喻：主画家画的时候，旁边站个笨画家。主画家问：“我这样画对吗？”笨画家说：“不对，我觉得那样画才像真的。”主画家就照着笨画家的建议改。
缺点：
1. 你得专门去训练这个“笨画家”，很麻烦，而且大模型很难找到合适的“笨”版本。
2. 如果这个“笨画家”选得不好，反而会带偏主画家。

3. 本文的妙招：S2-Guidance（随机自我引导）

这篇论文的作者发现了一个有趣的秘密：这位才华横溢的画家，其实身体里藏着好几个“分身”，这些分身虽然也是他，但在某些时候会犯一些不同的错误。

作者提出了一种不需要找外人，也不需要重新训练的方法：

核心思想：利用画家自己的“分身”来纠正自己。
具体操作（随机块丢弃）：
想象画家的大脑由很多个“思考模块”（神经网络层）组成。在画画的过程中，作者让画家随机地、暂时性地“关掉”一小部分模块（比如关掉 10% 的神经元）。
- 比喻：这就像画家在画画时，偶尔会闭上一只眼睛，或者暂时忘掉一部分复杂的技巧，只用剩下的部分去画。这时候画出来的东西，虽然不完整，但往往能反映出一种“更原始、更自然”的直觉。
- 自我引导：AI 会对比“全神贯注画出来的图”和“闭眼/少用技巧画出来的图”。它会发现：“哎，全神贯注时我好像把猫画歪了，而闭眼时反而更自然。”于是，它就用那个“闭眼”的直觉来修正“全神贯注”时的错误。

4. 为什么叫“随机”且“只需一次”？

随机：每次画画时，随机关掉不同的模块，这样能捕捉到各种各样的“直觉”，避免死板。
只需一次：作者发现，不需要每次画画都关很多次，每画一步，随机关掉一次就足够了。这就像你开车时，偶尔看一眼后视镜确认一下方向，不需要一直盯着后视镜开，既安全又省油（计算效率高）。

5. 效果如何？

论文通过大量实验证明（包括画猫、画风景、生成视频）：

更自然：生成的图片细节更丰富（比如宇航员的头盔反光、动物的毛发），视频里的动作更流畅（比如熊爬树、车加速）。
更听话：能更准确地理解复杂的指令，不会出现“指鹿为马”的情况。
更省钱：虽然多算了一点点（大约 40% 的时间），但换来的是画质的巨大提升，性价比极高。而且不需要额外的显卡内存，因为它是“串行”工作的（算完一步再算下一步）。

总结

S2-Guidance 就像是给 AI 画家装了一个**“自我纠错机制”。它不需要请外援，也不需要重新培训，而是让 AI 在创作过程中，偶尔“放松一下”或“换个角度”看看自己，利用这种随机的自我反思**，把那些因为太用力而画歪的地方修正回来。

这就好比你在写文章时，如果太纠结于语法，可能会写得不通顺；偶尔读一遍草稿，用一种“放松”的心态去审视，反而能发现并修正那些不自然的表达。这就是 S2-Guidance 的精髓。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为 《STOCHASTIC SELF-GUIDANCE FOR TRAINING-FREE ENHANCEMENT OF DIFFUSION MODELS》（用于扩散模型训练-free 增强的随机自引导）。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：扩散模型（Diffusion Models）在文本生成图像（T2I）和文本生成视频（T2V）领域取得了巨大成功。无分类器引导（Classifier-Free Guidance, CFG） 是目前提升条件生成质量的主流技术，它通过结合条件预测和无条件预测来增强对提示词（Prompt）的遵循度。
核心问题：尽管 CFG 有效，但实证分析表明其存在次优性（Suboptimal）。
- 语义不连贯与细节丢失：CFG 过度依赖其自身的预测，往往导致生成结果出现语义不一致、细节模糊或伪影（Artifacts）。
- 分布偏差：在理想的高斯混合分布实验中，CFG 生成的样本分布模式会发生偏移（Mode Shift），无法精确对齐真实数据分布。
- 现有方法的局限：之前的改进方法（如 Autoguidance）通常需要一个额外的“弱模型”（Weak Model）来提供引导信号。然而，获取或训练这样一个弱模型成本高昂，且往往需要针对特定任务进行繁琐的超参数调整，缺乏通用性。

2. 核心洞察与方法论 (Methodology)

作者提出了 S2-Guidance (Stochastic Self-Guidance)，一种无需训练、无需外部模块的自引导方法。

2.1 核心洞察

子网络即弱模型：作者发现，扩散模型（特别是基于 Transformer 的架构，如 DiT）内部存在显著的冗余。通过随机块丢弃（Stochastic Block-Dropping） 激活模型的子网络，这些子网络的输出行为类似于“弱模型”，能够捕捉到主模型预测中的误差区域。
自引导机制：利用模型自身的子网络预测作为“负向信号”，在去噪过程中将采样轨迹从次优区域（低质量、高不确定性区域）拉回高质量区域。

2.2 算法流程

S2-Guidance 在去噪的每一步（Timestep）中执行以下操作：

标准 CFG 计算：计算标准的引导分数 $\tilde{D}_{CFG}$ 。
随机块丢弃：在模型前向传播过程中，随机丢弃一部分 Transformer 块（Block），生成一个子网络预测 $\hat{D}_{sub}$ $\hat{D}_{s u b}$ 。
- 策略：保留关键结构块，随机丢弃约 10% 的非关键块。
自引导修正：将子网络预测与主模型预测的差值作为修正项，从 CFG 结果中减去。
- 公式：
  $\tilde{D}_{S2} = D_{\theta}(x_t|\phi) + \lambda (D_{\theta}(x_t|c) - D_{\theta}(x_t|\phi)) - \omega (\hat{D}_{\theta}(x_t|c, m_t) - D_{\theta}(x_t|c))$
  其中：
  - $\lambda$ 是 CFG 引导尺度。
  - $\omega$ 是 S2 引导尺度（控制自我修正的强度）。
  - $\hat{D}_{\theta}$ 是随机丢弃块后的子网络预测。
  - $m_t$ 是每一步生成的随机掩码。

2.3 简化版 (S2-Guidance vs. Naive S2-Guidance)

Naive S2-Guidance：在每一步采样中多次执行随机块丢弃并取平均，计算成本极高。
S2-Guidance (最终方案)：作者发现，每一步仅执行一次随机块丢弃操作，其期望值在数学上等同于多次采样的平均值（无偏估计）。因此，只需在每一步进行一次前向传播即可，大幅降低了计算开销，同时保持了性能。

3. 主要贡献 (Key Contributions)

理论分析与可视化：通过高斯混合模型（Gaussian Mixture）的玩具实验和真实数据，揭示了 CFG 的分布偏差问题，并证明了模型子网络具有类似“弱模型”的引导行为。
提出 S2-Guidance：设计了一种训练-free 的随机自引导机制。它利用模型内部的随机性（Block Dropping）动态构建子网络，无需额外训练弱模型，也无需手动设计特定的扰动方案。
高效性：证明了单步随机丢弃足以提供有效的引导信号，相比多次采样的朴素版本，显著降低了计算成本（仅增加约 40% 的推理时间，但无需额外显存峰值）。
广泛适用性：该方法可无缝集成到各类扩散模型（DiT, SiT 等）中，适用于图像分类条件生成、T2I 和 T2V 任务。

4. 实验结果 (Results)

论文在多个基准测试中进行了全面评估，结果表明 S2-Guidance 全面优于 CFG 及其他先进引导策略（如 CFG++, APG, SEG, CFG-Zero）。

图像生成 (ImageNet & T2I)：
- ImageNet (256x256)：在 Inception Score (IS) 和 FID 指标上均达到 SOTA。
- T2I (HPSv2.1 & T2I-CompBench)：在人类偏好评分（HPS）和组合能力（颜色、形状、纹理等）上均取得最高分。
- 定性分析：生成的图像具有更丰富的细节、更好的物理合理性（如运动轨迹）和更少的伪影。
视频生成 (T2V)：
- 在 Wan-1.3B 和 Wan-14B 模型上，S2-Guidance 在 VBench 的总评分及各项子指标（如主体一致性、背景一致性、物理合理性）上均超越基线。
- 有效解决了 CFG 在视频中常见的物体运动不自然（如卡车侧滑）和提示词遵循度差的问题。
消融实验：
- 丢弃比例：约 10% 的块丢弃率效果最佳。
- 应用区间：在去噪过程的中间 80% 区间应用效果最稳健。
- 计算效率：虽然增加了约 40% 的推理时间，但在“性能 - 效率”权衡曲线（Performance-Efficiency Trade-off）上，S2-Guidance 以 20 步推理达到了 CFG 60 步的效果，证明了其极高的效率。

5. 意义与影响 (Significance)

无需训练 (Training-Free)：S2-Guidance 是一个即插即用的模块，不需要对预训练模型进行微调或重新训练，极大地降低了部署门槛。
解决 CFG 根本缺陷：它不依赖外部弱模型，而是利用模型自身的结构冗余和不确定性来纠正次优预测，为理解扩散模型的引导机制提供了新视角。
通用性强：不仅适用于图像，也显著提升了视频生成的连贯性和物理真实性，为未来在更复杂的生成任务（如编辑、长视频生成）中的应用奠定了基础。
理论深度：从贝叶斯推断的角度（将随机丢弃视为对后验分布的蒙特卡洛估计）为该方法提供了坚实的理论支撑，将其解释为一种“不确定性感知”的修正机制。

总结：S2-Guidance 通过巧妙利用扩散模型内部的随机性，以极低的额外成本实现了生成质量的显著提升，是目前扩散模型引导技术中的一项突破性进展。