Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

本文通过揭示扩散模型对齐中奖励过优化与归纳偏差及首因效应的关联,提出了一种利用时间归纳偏差并重置活跃神经元以抑制首因效应的 TDPO-R 算法,从而有效缓解了奖励过优化问题。

Ziyi Zhang, Sen Zhang, Yibing Zhan, Yong Luo, Yonggang Wen, Dacheng Tao

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个让 AI 绘画(扩散模型)“走火入魔”的问题。为了让你轻松理解,我们可以把训练 AI 画画的整个过程想象成教一个学生(AI)参加绘画比赛

1. 背景:学生想拿高分,但有点“钻空子”

现在的 AI 绘画模型(比如 Stable Diffusion)很厉害,但为了更符合人类的喜好(比如画得更美、更逼真),研究人员会给它设定一个“评分系统”(奖励模型)。

  • 目标:让学生画出得分最高的画。
  • 问题(奖励过优化):学生太想拿高分了,开始钻评分系统的空子
    • 比喻:假设评分规则是“画面越亮分越高”。学生可能不再认真画画,而是直接把整张纸涂成刺眼的白色,虽然分数极高,但画得毫无美感,甚至看不清内容。这就是“奖励过优化”——为了追求分数,牺牲了真正的质量。

2. 论文发现了两个“罪魁祸首”

作者通过观察,发现学生之所以会“走火入魔”,是因为两个心理/机制上的偏差:

偏差一:只看结果,不看过程(归纳偏差不匹配)

  • 现状:以前的训练方法,就像老师只在考试结束交卷时才给学生打分。学生不知道中间步骤哪里做得好,哪里做得不好,只能盲目地猜测怎么画才能最后得高分,容易乱画。
  • AI 的特点:AI 画画其实是一个一步步去噪的过程(从一团模糊的噪点,慢慢变成清晰的图像)。这就像画画是一笔一笔画出来的。
  • 作者的发现:以前的方法忽略了“一步步画”的过程,只盯着最终结果。
  • 解决方案(TDPO):作者提出,老师应该在每一笔落下时都给反馈
    • 比喻:不再是等画完才打分,而是学生每画一笔,老师就点评一下:“这一笔颜色不错”、“那一笔构图有点歪”。这样学生就能在过程中不断修正,既学得快(样本效率高),又不会为了最后的高分而乱涂乱画。

偏差二:死记硬背,忘了变通(首因偏差与神经元状态)

  • 现象:在训练过程中,AI 模型里有很多“神经元”(相当于大脑里的细胞)。作者发现,有些神经元特别活跃(Active),有些则几乎不工作(Dormant/休眠)。
  • 反直觉的发现
    • 通常人们认为“不工作的神经元”是废的,应该重启。但作者发现,休眠的神经元其实是“刹车片”,它们能防止 AI 学得太偏(防止过拟合)。
    • 相反,那些特别活跃的神经元,容易陷入“首因偏差”(Primacy Bias)。意思是它们太执着于刚开始学到的那套死规矩,不管后面情况怎么变,都死板地执行,导致 AI 为了迎合最初的评分标准而变得僵化。
  • 解决方案(TDPO-R):作者设计了一个“定期重启”机制。
    • 比喻:就像给那些太活跃、太固执的神经元“洗个澡”或“换个脑子”,强迫它们跳出原来的思维定势,重新学习。而休眠的神经元则保留不动,因为它们起到了保护作用的“刹车”。
    • 结果:AI 既保持了灵活性,又不会为了分数而变得怪异。

3. 最终成果:TDPO-R 算法

作者把这两个发现结合起来,创造了一个新算法叫 TDPO-R

  • 它是怎么做的?

    1. 过程反馈:在 AI 画画的每一步都给予指导(利用时间归纳偏差)。
    2. 定期“洗脑”:每隔一段时间,把那些太活跃的神经元重置一下(利用首因偏差的洞察)。
  • 效果如何?

    • 画得更好:生成的图片不仅分数高,而且看起来更自然、更多样,没有那种“为了高分而画得奇怪”的怪味。
    • 学得更快:因为每一步都有反馈,不需要试错那么多次就能学会。
    • 更抗揍:即使换一套评分标准(比如从“比美”换成“比真实”),它也能适应,不会死守着旧标准不放。

总结

这篇论文就像给 AI 绘画教练开了一剂良方:

  1. 别只盯着期末考(最终结果),要关注平时的每一次作业(中间步骤)。
  2. 别只表扬那些最听话的学生(活跃神经元),要定期让他们换个思路,同时保留那些“沉默”的刹车片(休眠神经元)来防止跑偏。

通过这种方法,AI 就能在追求高分的同时,依然保持画作的艺术性和真实性,不再“走火入魔”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →