Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training

该论文通过理论分析与实验揭示了在可验证任务中,直接优化 Pass@k 指标会因提示干扰导致梯度冲突,从而在提升 Pass@k 的同时意外降低 Pass@1 性能。

Anas Barakat, Souradip Chakraborty, Khushbu Pahwa, Amrit Singh Bedi

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在大语言模型(LLM)训练中非常有趣且反直觉的现象:为什么为了让模型“多试几次就能做对”(Pass@k),反而可能导致它“第一次尝试就更容易做错”(Pass@1)?

为了让你轻松理解,我们可以把训练大模型想象成训练一个学生参加数学竞赛

1. 背景:什么是 Pass@1 和 Pass@k?

  • Pass@1(单次通过率): 就像考试时,老师只给你一次机会。你必须在第一次就写出正确答案。这是最考验实力的指标,也是实际应用中(比如聊天机器人)最看重的,因为用户不想等太久,也不想付多次试错的钱。
  • Pass@k(k 次通过率): 就像老师给你k 次机会(比如 k=5)。你写 5 个答案,只要其中有一个是对的,就算你过关。这在代码生成或数学解题中很常见,因为我们可以让模型多生成几个方案,然后自动筛选出最好的那个。

2. 核心问题:为什么“多试几次”的优化会害了“一次过”?

论文发现,如果你专门针对"Pass@k"(多试几次能过)来训练模型,虽然它的"Pass@k"分数会飙升,但它的"Pass@1"分数(第一次就对的概率)反而会下降

这就像是为了让学生“多交几次卷总有一次能蒙对”,结果导致他“第一次交卷时反而更慌、更容易出错”。

3. 核心原因:提示词干扰(Prompt Interference)与“坏朋友”效应

论文用了一个非常生动的概念叫**“提示词干扰”**。我们可以这样比喻:

想象模型是一个万能教练,他面对一群学生(不同的数学题/提示词)。

  • 简单题(Easy Prompts): 学生 A、B、C 很容易做对。
  • 难题(Hard Prompts): 学生 D、E 很难做对,经常出错。

教练的困境:
教练的“大脑参数”是共享的。也就是说,他教学生 A 的方法,也会同时影响学生 D。

  • 有些难题(学生 D)和简单题(学生 A)长得特别像(比如都是代数题,只是数字不同),但解法却完全相反
  • 如果你为了让学生 D 做对(因为 Pass@k 优化会特别关注那些平时做不对的难题),教练必须调整教学方法。
  • 结果:为了教会学生 D,教练不得不改变教学生 A 的方法,导致学生 A 反而学乱了,第一次就错了。

论文把这个现象称为“负向干扰”(Negative Interference): 解决一个问题(难题)的指令,竟然会破坏解决另一个问题(简单题)的能力。

4. Pass@k 的“偏心”机制:为什么它会放大这种干扰?

这是论文最精彩的部分。

  • Pass@1 的视角: 教练看所有学生,大家一视同仁。如果大部分学生(简单题)都能做对,教练就倾向于维持现状,因为这样整体通过率最高。
  • Pass@k 的视角: 教练发现“只要多试几次,难题也能蒙对”。于是,Pass@k 的算法会疯狂地给“难题”加权
    • 它认为:“简单题反正你也会做,不用管了;那些平时做不对的难题,才是提升分数的关键!”
    • 于是,教练把 90% 的精力都花在教那些**“既难做对,又和简单题有冲突”**的难题上。

后果:
教练为了攻克这些“坏朋友”(负向干扰的难题),拼命调整策略。结果,这些策略像一阵强风,把原本做得很好的“简单题”学生也吹倒了。

  • 结果: 难题确实多试几次能过了(Pass@k 涨了),但简单题第一次就错了(Pass@1 跌了)。

5. 一个具体的数学比喻

想象你在调整一个旋钮(模型参数):

  • 简单题希望旋钮往顺时针转。
  • 难题希望旋钮往逆时针转。
  • 而且,这两个方向是完全相反的(负向干扰)。

Pass@1 优化: 因为简单题多,顺时针转一点,大家都能过得不错。
Pass@k 优化: 算法发现难题很难,于是给难题的“呼声”加了100 倍的音量(重加权)。虽然简单题也在喊“顺时针”,但音量太小被淹没了。
最终动作: 教练听信了难题的指挥,把旋钮猛地向逆时针转。
结局: 难题可能因为多试几次蒙对了,但简单题因为方向反了,直接掉进坑里。

6. 这对我们意味着什么?

  • 实际风险: 很多公司为了提升模型在代码或数学上的表现,直接优化 Pass@k。但这可能是一个陷阱:你的模型在“多轮尝试”场景下很强,但在“单次响应”场景下(比如用户只问一次,没有重试机会)可能变得不可靠。
  • 理论贡献: 这篇论文第一次从数学上解释了为什么会发生这种情况,并给出了判断标准:当那些“难解且与简单题冲突”的题目被过度关注时,这种退化就会发生。

总结

这篇论文告诉我们:不要盲目地为了“多试几次能过”而训练模型。

如果你只盯着“多试几次”的目标,模型可能会为了攻克那些“又难又捣乱”的题目,而牺牲掉原本擅长的简单题目。这就好比为了帮一个笨手笨脚的朋友练好投篮,你强行改变了整个篮球队的训练姿势,结果导致原本投篮很准的明星球员反而投不进篮了。

未来的方向: 我们需要更聪明的训练方法,既能提升模型解决难题的能力(Pass@k),又不会破坏它第一次就答对的能力(Pass@1),避免这种“顾此失彼”的干扰。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →