Free Lunch for Pass@kk? Low Cost Diverse Sampling for Diffusion Language Models

该论文提出了一种无需训练且计算成本极低的干预方法,通过在扩散语言模型的采样过程中顺序修改中间样本以排斥冗余特征,从而显著提升了生成多样性及 Pass@kk性能。

Sean Lamont, Christian Walder, Paul Montague, Amir Dezfouli, Michael Norrish

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 ODD (Orthogonal Diverse Diffusion,正交多样化扩散) 的新方法,旨在让“扩散语言模型”(一种新型 AI)在生成答案时更加多样化,避免“撞车”或“死脑筋”。

为了让你轻松理解,我们可以把 AI 生成答案的过程想象成一群探险家寻找宝藏

1. 背景:为什么我们需要“多样性”?

想象一下,你派出了 16 个探险家(AI 生成的 16 个样本)去一个复杂的迷宫(比如写代码或解数学题)寻找出口。

  • 传统方法的问题:这 16 个探险家虽然出发时方向不同,但走着走着,他们发现了一条看起来很像路的小径,于是所有人都挤到了同一条路上。结果就是,如果这条路是死胡同,16 个人全都会失败。这就是论文里说的“模式坍塌”(Mode Collapse)——大家想法太像了,浪费了人力。
  • 目标:我们希望这 16 个人能分散开,去探索迷宫的不同角落。只要其中一个人找到了出口,任务就算成功(这就是 Pass@k 指标)。

2. 核心创新:ODD 是怎么做的?

以前的方法要么需要重新训练 AI(太贵、太慢),要么像“排兵布阵”一样复杂(像光束搜索,计算量大)。

ODD 的做法非常聪明,它不需要重新训练 AI,而是在 AI“思考”的过程中,轻轻推一把。

创意比喻:无形的“斥力场”

想象这 16 个探险家是磁铁

  • 传统做法:大家各自为战,互不干扰。结果大家都被同一个“大磁铁”(最常见的错误答案)吸过去了。
  • ODD 的做法:我们在他们之间施加了一种智能的“斥力”
    • 当第 1 个探险家选定了一条路,第 2 个探险家准备出发时,ODD 会告诉他:“嘿,别走第 1 个人那条路,去个不一样的方向!”
    • 当第 3 个探险家出发时,他会同时避开第 1 和第 2 个人的路线。
    • 以此类推,每个人都在主动避开前面的人已经走过的路,强迫自己去探索那些还没人去过的“正交”(垂直/独立)区域。

关键细节:如何保证“乱跑”不会变成“瞎跑”?

你可能会问:“如果强行让他们分开,会不会有人为了不同而不同,跑去悬崖边(生成胡言乱语)?”

论文解决了一个关键问题:质量与多样性的平衡

  • ODD 不仅看“方向”,还看“信心”。如果某个探险家对某条路非常有信心(质量高),斥力就会变小,允许他继续走;如果他对某条路很犹豫,斥力就会变大,推他去别处。
  • 这就像一位经验丰富的向导,他既鼓励大家去探索新区域,又确保大家不会为了“不同”而跳进火坑。

3. 为什么这很厉害?(主要优势)

  1. 免费午餐(Free Lunch)

    • 不需要重新训练模型,不需要额外的昂贵硬件。它只是在 AI 生成答案的最后一刻,对内部数据做了一点点微调。
    • 比喻:就像给一群正在跑步的人发了一张“避免拥堵地图”,而不是重新训练他们的肌肉。
  2. 极低的成本

    • 论文测试显示,这种方法只增加了不到 6% 的时间成本,但带来的收益巨大。
    • 比喻:只多花了一点点油钱,却能让 16 辆车覆盖整个城市,而不是都堵在同一个路口。
  3. 效果显著

    • HumanEval(编程测试)和GSM8K(数学题)上,ODD 让 AI 找到正确答案的概率大幅提升。
    • 比喻:以前派 16 个人可能只有 1 个人找到宝藏;用了 ODD 后,可能有 3 到 4 个人找到,甚至更多。

4. 总结

这篇论文的核心思想就是:在 AI 生成多个答案时,不要让大家“随大流”,而是要用一种低成本、无需训练的方法,像“斥力”一样把大家推开,强迫他们去探索不同的解题思路。

这就好比在考试时,老师不让学生们互相抄袭,而是给每个人发一张“禁止重复”的提示卡,确保全班同学能覆盖尽可能多的解题思路,从而大大增加有人做对题目的几率。

一句话总结:ODD 是给 AI 装了一个“防跟风”和“防撞车”的导航系统,用极小的代价,让 AI 在解决难题时能更全面、更聪明地探索所有可能性。