A Quantitative Characterization of Forgetting in Post-Training

该论文基于双模态混合抽象,从理论上量化了生成模型持续后训练中的遗忘现象,揭示了前向与反向 KL 散度在质量遗忘和旧分量漂移上的不同机制,并阐明了重放策略及现有近于策略方法如何受散度方向、几何重叠度及采样机制的影响。

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan

发布于 Fri, 13 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在人工智能领域非常关键的问题:当我们在教一个已经学会了很多东西的 AI 模型学习新技能时,为什么它经常会把旧技能忘得一干二净?

这就好比一个老练的厨师,突然被要求学习做一道全新的异国料理。如果训练方法不当,他可能会把以前拿手的红烧肉配方彻底忘掉,甚至把红烧肉的做法也改得面目全非。

作者通过数学模型,把这个问题拆解成了两个核心概念,并对比了两种不同的“训练策略”。

1. 两个核心问题:AI 是怎么“忘”的?

作者把 AI 的记忆想象成两个不同的“模式”(比如:旧模式是“红烧肉”,新模式是“寿司”)。遗忘分为两种:

  • 模式一:彻底失忆(Mass Forgetting)
    • 比喻:就像厨师脑子里的“红烧肉”标签直接消失了。无论怎么问,他都不再认为自己是会做红烧肉的。
    • 现象:AI 完全不再分配任何“注意力”给旧任务,旧技能彻底从模型中消失。
  • 模式二:记忆漂移(Old-Component Drift)
    • 比喻:厨师还记得“红烧肉”这个概念,但他把配方记错了。比如把“糖”记成了“盐”,或者把火候记错了。虽然他还记得做这道菜,但做出来的味道已经变了,不再是原来的味道。
    • 现象:AI 还保留着旧任务的“权重”,但具体的参数(配方)发生了偏移,导致旧任务的表现变差。

2. 两种训练策略:为什么有的会忘,有的不会?

论文对比了两种主流的 AI 训练方法,用“方向”来比喻它们:

策略 A:前向 KL(Forward-KL)—— “只看新,不看旧”

  • 场景:这就像老师只给厨师看“寿司”的图片和视频,让他照着学,完全不提以前的“红烧肉”。
  • 结果
    • 彻底失忆:因为老师只给新数据,AI 发现“红烧肉”这个区域在数据里根本不存在。为了最小化错误,它会自动把“红烧肉”的权重降到
    • 结论:这种方法在只给新数据训练时,必然会导致旧技能彻底消失。
    • 补救:除非你强行把一些“红烧肉”的旧数据混进新数据里一起教(这叫“回放”),否则救不回来。

策略 B:反向 KL(Reverse-KL)—— “在旧基础上微调”

  • 场景:这就像老师让厨师在“保持红烧肉原味”的基础上,去学做寿司。老师会告诉厨师:“你的红烧肉做得很好,别乱动;现在请在这个基础上,把寿司也学会。”
  • 结果
    • 不会失忆:AI 的目标是匹配一个“混合目标”(既要红烧肉又要寿司)。只要目标里保留了红烧肉,AI 就不会把红烧肉的权重降到零。
    • 控制漂移:即使在学习寿司时,红烧肉的参数可能会受到一点点干扰(比如因为两种菜有相似之处),但这种干扰非常小。
    • 关键发现:干扰的大小取决于新旧技能的差异程度
      • 如果“红烧肉”和“寿司”差别很大(比如一个是咸的,一个是酸的),它们之间几乎没有重叠,那么学寿司时几乎不会影响红烧肉。
      • 如果它们很像,干扰就会大一点。但论文证明,只要差异足够大,这种干扰是指数级衰减的(几乎可以忽略不计)。

3. “回放”(Replay)的作用:旧数据的魔法

“回放”是指在学习新任务时,偶尔把旧数据拿出来复习一下。

  • 对于“只看新”的策略(前向 KL):回放必须混入训练数据中。如果你只是把旧数据放在一边看着,但训练时只用新数据,AI 还是会忘掉旧技能。只有把旧数据当成“新老师”的一部分,才能救回旧技能。
  • 对于“在旧基础上微调”的策略(反向 KL):回放的作用更像是防止“饥饿”
    • 比喻:想象 AI 在学寿司时,如果运气不好,连续几百次都没碰到“红烧肉”的样本,它可能会误以为红烧肉不重要了,从而开始乱改配方。
    • 作用:回放确保了 AI 在每一次“考试”(训练批次)中,都能稳定地看到一些红烧肉的样本,防止它因为“没见过”而误判。它不需要改变训练目标,只需要保证“能见度”。

4. 对现代新方法的分析

论文还分析了三种最近流行的 AI 训练新方法(SDFT, TTT-Discover, OAPL),发现它们本质上都是“反向 KL"的变体:

  • SDFT:像一个不断进化的老师,只要老师本身记得旧技能,学生就不会忘。
  • TTT-Discover:像是一个寻找高分的探险家。如果没有一个“锚点”(固定的参考标准)把它拉回来,它可能会为了追求新的高分而彻底抛弃旧技能;但如果有锚点,它就能在探索新技能时保护好旧技能。
  • OAPL:像一个基于旧地图的导航。它只能调整旧地图上已有的路线,不会凭空创造或消灭路线,因此非常安全,旧技能不会丢失。

总结:核心启示

这篇论文告诉我们,遗忘不是不可避免的,而是取决于你如何定义“学习目标”和“训练数据”

  1. 方向很重要:如果你只盯着新数据看(前向 KL),旧技能必死无疑。如果你把新旧技能看作一个整体目标(反向 KL),旧技能就能保住。
  2. 距离产生美:新旧技能差别越大,它们互相干扰的可能性就越小(指数级下降)。
  3. 复习很关键:对于稳健的训练方法,偶尔的“复习”(回放)能防止 AI 因为“没见过”而犯错,而不是为了强行改变目标。

简单来说,想要 AI 既学新东西又不忘旧本事,不要只给它看新的,要给它一个包含新旧的“混合目标”,并且时不时让它复习一下旧知识。