Momentum Guidance: Plug-and-Play Guidance for Flow Models

本文提出了动量引导(Momentum Guidance)方法,通过利用ODE轨迹的指数移动平均来外推速度,在不增加推理成本的前提下显著提升了预训练流模型的生成质量,并在ImageNet及Stable Diffusion 3等基准测试中取得了优异表现。

Runlong Liao, Jian Yu, Baiyu Su, Chi Zhang, Lizhang Chen, Qiang Liu

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“动量引导”(Momentum Guidance, MG)的新方法,旨在让 AI 画图(生成模型)变得更清晰、更细腻,而且不需要增加任何计算成本**。

为了让你轻松理解,我们可以把 AI 画图的过程想象成**“蒙着眼睛画一幅画”**。

1. 现状:AI 为什么会画得“糊”?

现在的 AI 画图模型(比如 Stable Diffusion 3 或 FLUX),就像是一个非常有才华但有点“老好人”的画家

  • 训练过程:它看了成千上万张图,学会了怎么画。
  • 问题:因为它看过的图太多了,而且为了“求稳”,它画出来的东西往往太平均、太模糊。就像你问一个老好人:“大家喜欢什么口味的菜?”他可能会回答:“大家都喜欢清淡的。”结果做出来的菜虽然没错,但没有灵魂,细节模糊,像隔着一层雾
  • 技术术语:这叫“过度平滑”(Over-smoothing)。AI 倾向于画出一个模糊的平均值,而不是锐利的细节。

2. 旧办法:代价高昂的“双倍努力”

为了解决这个问题,以前有一种叫**“无分类器引导”(CFG)**的方法。

  • 比喻:这就好比画家在画画时,旁边站了一个严厉的监工
    • 画家画一笔,监工说:“太糊了!再用力一点!”
    • 画家再画一笔,监工又说:“还是不够锐利!”
  • 缺点:为了听监工的意见,画家必须画两遍(一遍自己画,一遍听监工指挥再调整)。这相当于让 AI 多跑一次程序,速度直接慢了一半,成本翻倍。而且,如果监工太严厉,画出来的东西虽然清晰了,但可能会变得很奇怪,失去多样性。

3. 新办法:动量引导(MG)——“凭感觉的直觉”

这篇论文提出的动量引导(MG),不需要请那个“严厉的监工”,也不需要让画家多跑一趟。它利用了画家自己**“过去的动作”**来指导现在的动作。

核心比喻:滑雪或开车

想象你在滑雪下山(这就是 AI 生成图片的过程,从模糊的雪地慢慢滑向清晰的终点):

  • 普通画法:你只看脚下的这一小块雪,决定下一步往哪滑。因为雪是模糊的,你容易滑得犹豫不决,最后停在半路,画出来的图也是糊的。
  • 动量引导(MG):你不仅看脚下,你还记得刚才滑过来的速度和方向
    • 如果你刚才滑得很快,说明你正在冲向一个清晰的目标。
    • MG 就像是你身体里的**“惯性”**。它告诉你:“嘿,刚才那一瞬间你滑得很有力,别停!顺着这个冲劲再猛一点!”
    • 它通过计算**“过去的速度”(动量),来修正“现在的速度”**。它不需要额外的教练(监工),只需要利用自己刚才留下的“轨迹”。

它是如何工作的?

  1. 记住过去:AI 在画图的每一步,都会记住刚才画出的“速度”和“方向”。
  2. ** extrapolate(外推)**:它把刚才的“惯性”叠加到现在的动作上。
  3. 结果:就像开车时,你不仅看前方,还利用车辆的惯性冲过弯道。这让 AI 敢于画出更锐利的边缘、更清晰的纹理(比如羽毛的尖端、水波的细节),而不是画成一团模糊的色块。

4. 为什么它很厉害?(三大优势)

  1. 免费提速(Plug-and-Play)

    • 旧方法(CFG)需要 AI 算两次(双倍时间)。
    • 新方法(MG)只需要算一次。它只是把刚才算过的数据“再利用”了一下,就像你跑步时利用惯性冲线,不需要多跑一步。
    • 比喻:就像你骑自行车下坡,不需要别人推你,只要利用刚才的冲力,就能滑得更快更稳。
  2. 画质飞跃

    • 在测试中,使用 MG 后,画出来的图片清晰度(FID 分数)提升了 36%
    • 原本模糊的猫毛、建筑线条、水面反光,现在都变得锐利、清晰、有质感
  3. 兼容性强

    • 它既可以单独使用,也可以和旧方法(CFG)一起用。如果两者结合,效果更是锦上添花,但依然不需要增加计算成本。

5. 总结

这就好比:

  • 以前的 AI:像一个犹豫不决的画家,画出来的东西温吞水,细节模糊。
  • 旧改进方法:请个监工在旁边吼,虽然画得好了,但累得半死(计算成本高)。
  • 动量引导(MG):教会画家**“利用惯性”。画家不需要别人教,只要顺着自己刚才的势头,就能画出更锐利、更精彩的细节,而且不费吹灰之力**。

一句话总结:动量引导让 AI 画图时“顺势而为”,利用过去的经验让现在的笔触更有力,从而在不增加任何时间成本的情况下,让生成的图片变得清晰、锐利、充满细节

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →