Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training

Each language version is independently generated for its own context, not a direct translation.

🍳 結論：「何回も試す」練習が、なぜ「1 回で決める」力を奪うのか？

この論文の核心は、**「AI が苦手な問題（難しい料理）に集中しすぎた結果、得意な問題（簡単な料理）の味まで壊してしまった」**という現象です。

1. 背景：Pass@k とは何か？

AI に「料理のレシピ」を教えるとき、2 つのテスト方法があります。

Pass@1（1 回勝負）： 1 回だけ作って、それが美味しければ合格。
Pass@k（k 回勝負）： 10 回（k=10）作らせて、そのうち1 つでも美味しければ合格。

最近の AI 研究では、「k 回勝負」で合格する確率を最大化するように AI を訓練する（Pass@k 最適化）のが流行っています。「何回も試せば正解が出るから、その方が実用的だよね」という考えからです。

2. 問題：Pass@k を上げると、Pass@1 が下がる？

しかし、実験をすると奇妙なことが起きます。
**「k 回勝負の成績はグングン伸びるのに、1 回勝負の成績は逆に下がってしまう」**のです。
まるで、「10 回中 1 回でも成功すればいいように練習したら、1 回で成功する確率が下がってしまった」ような状態です。

なぜこんなことが起きるのか？この論文は**「Prompt Interference（プロンプト干渉）」**という新しい概念で説明しています。

3. 原因：「苦手な人」を優先しすぎた結果

AI の学習は、「間違えた問題（苦手な料理）」に重点を置いて修正するという性質があります。

Pass@1 の場合： 得意な問題も苦手な問題も、平等に「1 回で正解する確率」を上げようとします。
Pass@k の場合： 「10 回中 1 回でも成功すればいい」という目標のため、「もともと成功率が低い（非常に難しい）問題」に極端に大きな重み（ポイント）を付けます。

ここで**「干渉（Interference）」**という現象が起きます。
AI の脳（パラメータ）は一つしかありません。

得意な問題を正解させるための「脳への修正」
苦手な問題を正解させるための「脳への修正」

これらが**「真逆の方向」**を指していることがあります。
（例：得意な料理の味付けを「甘く」すると、苦手な料理の味付けは「辛く」しなければいけない、みたいな矛盾です。）

4. 悲劇のメカニズム：「苦手な人」の声が大きすぎる

Pass@k の学習では、「苦手な問題」の修正ポイントが、Pass@1 の修正ポイントと真逆であることが多いのに、Pass@k はその「苦手な問題」に**「100 倍、1000 倍」の重み**を付けてしまいます。

Pass@1 の先生： 「得意な問題も苦手な問題も、バランスよく直そう」
Pass@k の先生： 「苦手な問題が最重要！ここを直せ！」

Pass@k の先生が「苦手な問題」の修正を強く指示すると、AI の脳はそれに従って大きく動きます。しかし、その動きは「得意な問題」にとっては**「壊す方向」**だったのです。

その結果、**「苦手な問題は少し良くなった（k 回勝負の成績 UP）」けれど、「得意な問題は壊れてしまった（1 回勝負の成績 DOWN）」**という、最悪のトレードオフが生まれます。

5. 具体的な例え話：「料理コンテスト」

想像してください。

AIは料理人です。
得意な料理は「卵焼き」（簡単）。
苦手な料理は「フレンチの複雑なソース」（難易度高）。

Pass@1 訓練：
「卵焼きもソースも、1 回で完璧に作れるように練習しなさい」と言われます。
→ 卵焼きは完璧、ソースも少し上手になります。

Pass@k 訓練（10 回勝負）：
「卵焼きは 10 回作れば 1 回は完璧に出せるからいい。でも、ソースは 10 回作っても 1 回も成功しない！だからソースに集中して練習しなさい！」と言われます。
さらに、「ソースを成功させるには、卵焼きの作り方を**完全に忘れる（逆の動きをする）**必要がある」という矛盾したルールがあります。

AI は「ソースを成功させる」ために必死に練習します。その結果、ソースは 10 回に 1 回くらい成功するようになりました（Pass@k 向上）。
しかし、その練習法が卵焼きの作り方を壊してしまったため、卵焼きはもう 1 回で完璧に作れなくなりました（Pass@1 低下）。

💡 この論文のメッセージ

この研究は、**「Pass@k（何回も試す）を最適化しすぎると、AI が『1 回で決める力』を失う危険性がある」**と警告しています。

なぜ重要か？ 現実世界では、AI が 10 回も答えを出す時間やコストがないことが多いです（チャットボットやリアルタイム処理など）。また、1 回で失敗すると致命的な場合もあります。
どうすればいい？ Pass@k の学習をするときは、「苦手な問題」に集中しすぎないよう、**「得意な問題の力も落とさないバランス」**を考慮する必要があります。

つまり、「何回も試せばいい」という安易な考えで AI を訓練すると、AI が「1 回で正解する天才」から「何回も試さないと正解できない凡人」に変わってしまうかもしれない、という重要な発見なのです。

Each language version is independently generated for its own context, not a direct translation.

1. 問題設定 (Problem)

大規模言語モデル（LLM）の推論タスク（数学的推論、コード生成など）において、Pass@k（ $k$ 回の独立した試行のうち 1 つでも正解であれば成功とする指標）は広く用いられている評価指標です。推論時に $k$ 回の試行が可能であれば、訓練目標も Pass@k に直接最適化すべきであるという考えから、Pass@k を目的関数とする方策勾配法（Policy Gradient）が提案されています。

しかし、実務的な課題として、Pass@k を最適化すると、単発の成功率である Pass@1 が低下するトレードオフが観測されています。

実用上の制約: 多くのデプロイ環境では、レイテンシやコストの制約により、1 回だけの推論（Pass@1）が必須である場合や、リトライが不可能なケースがあります。
未解決の問い: なぜ Pass@k の最適化が Pass@1 の性能を低下させるのか、その理論的なメカニズムと発生条件は不明瞭でした。

2. 手法と理論的枠組み (Methodology & Theory)

著者らは、このトレードオフの根本原因を**「プロンプト干渉（Prompt Interference）」と「勾配の衝突（Gradient Conflict）」**として理論的に定式化しました。

2.1 プロンプト干渉 (Prompt Interference) の定義

共有されたモデルパラメータ $\theta$ に対して、あるプロンプト $x$ の成功率を上げる方向への更新が、別のプロンプト $x'$ の成功率を低下させる現象を定義します。

類似度カーネル: 2 つのプロンプト $x, x'$ 間の Pass@1 勾配の類似度を $\kappa_\theta(x, x') = \langle \nabla p_\theta(x), \nabla p_\theta(x') \rangle$ で定義。
負の干渉 (Negative Interference): $\kappa_\theta(x, x') < 0$ となる場合、一方の成功率向上が他方の低下を招く「負の干渉」関係にあると定義されます。

2.2 Pass@k によるプロンプトの再重み付け (Reweighting)

Pass@k の目的関数 $J_k(\theta)$ の勾配は、Pass@1 の勾配 $\nabla J_1(\theta)$ に重み $w_{k,\theta}(x) = k(1-p_\theta(x))^{k-1}$ を掛けたものの期待値となります。

この重み $w_{k,\theta}(x)$ は、成功率 $p_\theta(x)$ が低い（難しい）プロンプトに対して非常に大きく、成功率が高いプロンプトに対してはほぼ 0 になります。
結果として、Pass@k 最適化は、「成功率が低いプロンプト」を過剰に強調することになります。

2.3 勾配の衝突メカニズム

Pass@k 最適化が Pass@1 を劣化させるメカニズムは以下の因果連鎖で説明されます。

Pass@k 最適化は、成功率の低い（難しい）プロンプトを強く重み付けする。
もし、これらの「難しいプロンプト」が、他のプロンプト群に対して**「負の干渉」**（勾配が反対方向を向く）を持つ場合、Pass@k 勾配は Pass@1 勾配と反対方向に強く引きずられる。
理論的に、Pass@k 勾配と Pass@1 勾配の内積が負（鈍角）になる条件を導出。このとき、Pass@k を改善する方向への更新は、Pass@1 を悪化させる方向になります。

3. 主要な貢献 (Key Contributions)

プロンプト干渉の概念導入: LLM 事後学習における、異なるプロンプト間の勾配相互作用を定式化し、「負の干渉」が Pass@k と Pass@1 のトレードオフの核心であることを示しました。
勾配衝突の理論的定式化: Pass@k 勾配と Pass@1 勾配の内積を明示的に表現し、Pass@k による重み付けが負の干渉を持つプロンプト領域を強調することで、勾配が衝突（内積が負）する条件を導出しました。
$k$ の影響と閾値の特定: $k$ が大きくなるほど、負の干渉を持つプロンプトの影響が支配的になり、勾配衝突が発生しやすくなることを示しました。特定の閾値 $k^*$ を超えると、Pass@1 の劣化が確率的に保証されることを証明しています。
Pass@1 劣化の証明: 適切なステップサイズ条件下で、Pass@k 勾配に沿った 1 回の更新が、Pass@k を増加させつつ Pass@1 を減少させることを数学的に証明しました。

4. 実験結果 (Results)

著者らは、数学推論タスク（MATH データセット）において、DeepSeek-R1-Distill-Llama-8B と Qwen-7B に対して実験を行いました。

理論的予測の検証:
- 同意スコア (Agreement Score): 難しいプロンプト（赤）は負の同意スコアを持ち、簡単なプロンプト（緑）は正のスコアを持つことが確認されました。
- 重みの偏り: Pass@k 重みは、難しいプロンプトに対して $10^{28}$ 倍もの巨大な重みを割り当て、簡単なプロンプトを無視することが確認されました。
- 勾配の衝突: 重み付けされた同意スコアの平均（紫色の矢印）は、無重みの平均（青い点線）から負の領域へ劇的にシフトしました。これにより、Pass@k 勾配と Pass@1 勾配の内積が負（例：-0.613 や -181）となり、勾配が衝突していることが実証されました。
性能変化: Pass@5 最適化を行った結果、Pass@5 は向上しましたが、Pass@1 は明確に低下しました（図 5）。

5. 意義と結論 (Significance & Conclusion)

理論的洞察: 単に「Pass@k を最適化すれば良い」という直観が、負の干渉を持つプロンプトが存在する場合には誤りであることを示しました。Pass@k 最適化は、暗黙的に「解きにくい（かつ他のタスクと干渉する）プロンプト」を強調し、それが全体の単発性能を損なうメカニズムを解明しました。
実用的示唆: 単発推論（Pass@1）が必須のシステムにおいて、安易に Pass@k 最適化を行うことはリスクを伴います。
将来の展望: この理論的知見に基づき、勾配手術（Gradient Surgery）や、負の干渉を抑制する新しい再重み付け手法の開発、あるいは Pass@1 を犠牲にしないためのより柔軟な推論時目的関数の設計が求められます。

この論文は、LLM の推論時最適化において、評価指標の選択がモデルの学習ダイナミクスに与える影響を、勾配の幾何学的な観点から初めて体系的に解明した重要な研究です。