Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training

Each language version is independently generated for its own context, not a direct translation.

🎒 비유: "시험 공부를 위한 두 가지 전략"

생각해 보세요. 여러분이 어려운 수학 시험을 준비한다고 칩시다.

Pass@1 전략 (한 번에 맞추기):
- "시험장에 들어가서 한 번만 문제를 풀어야 해. 틀리면 끝이야."
- 이 전략을 위해 공부하면, 가장 흔하고 쉬운 문제부터 완벽하게 외우게 됩니다. 왜냐하면 한 번에 맞출 확률을 높이는 게 목표니까요.
Pass@k 전략 (k 번 시도해서 맞추기):
- "시험장에 5 번까지 다시 칠 수 있어. 5 번 중 하나만 맞으면 합격이야."
- 이 전략을 위해 공부하면, AI 는 **"내가 잘 못하는 어려운 문제"**에 집중하게 됩니다. 왜냐하면 쉬운 문제는 이미 1 번에 맞출 수 있으니, 5 번 시도할 때 가장 큰 효과를 보는 건 '아직 못 풀던 어려운 문제'를 해결하는 것이기 때문입니다.

⚡ 여기서 무슨 일이 생길까요? (논문이 말하는 문제)

논문의 핵심은 **"Pass@k 전략으로 공부하면, 오히려 Pass@1 실력이 떨어질 수 있다"**는 놀라운 사실입니다.

왜 그럴까요? 바로 '간섭 (Interference)' 때문입니다.

상황: AI 는 '쉬운 문제'와 '어려운 문제'를 동시에 풀어야 합니다.
문제: 어떤 문제들은 서로 서로 다른 방향으로 힘을 쓸 때 충돌이 일어납니다.
- 예를 들어, "어려운 문제 A"를 해결하기 위해 AI 가 머리를 굴리는 방식 (학습 방향) 이, "쉬운 문제 B"를 해결하는 방식과 정반대일 수 있습니다.
- 마치 한 손으로 북을 치고, 다른 손으로 피아노를 치는 것과 비슷합니다. 북을 치는 손이 피아노 건반을 누르는 방향과 반대라면, 두 악기를 동시에 잘 치는 건 불가능해집니다.

Pass@k 의 함정:
Pass@k 전략은 AI 를 "어려운 문제" 쪽으로 더 강하게 밀어붙입니다. 그런데 그 '어려운 문제'가 바로 '쉬운 문제'와 **정반대 방향 (간섭)**을 가진 문제라면?

AI 는 어려운 문제를 더 잘 풀게 되어 Pass@k 점수는 올라갑니다.
하지만 그 과정에서 '쉬운 문제'를 푸는 능력이 망가져 Pass@1 점수는 떨어집니다.

📉 그림으로 이해하기 (논문 속 Figure 1)

논문의 그림을 상상해 보세요.

화살표 1 (Pass@1): "쉬운 문제"와 "어려운 문제"를 모두 잘 풀 수 있는 균형 잡힌 방향을 가리킵니다.
화살표 2 (Pass@k): "어려운 문제"를 해결하기 위해 어려운 문제 쪽으로 너무 강하게 쏠린 화살표입니다.
충돌: Pass@k 화살표가 너무 강하게 쏠리면서, Pass@1 화살표와 120 도 각도를 이루게 됩니다. (서로 반대 방향으로 당기는 것 같은 느낌)
결과: Pass@k 화살표 방향으로 한 걸음 내디디면, Pass@k 점수는 오르지만, Pass@1 점수는 뒤로 물러나게 됩니다.

💡 왜 이것이 중요할까요?

실제 세상에서는 **한 번에 맞추는 것 (Pass@1)**이 매우 중요합니다.

비용과 시간: 매번 5 번씩 시도하면 돈도 많이 들고, 시간도 오래 걸립니다.
신뢰성: 사용자가 "한 번만 물어봤는데 틀리면?"이라고 생각할 때, AI 는 즉시 정답을 줘야 합니다.

즉, "여러 번 시도해서 맞추는 기술 (Pass@k)"을 배우려고 하다 보니, "한 번에 맞추는 기본 실력 (Pass@1)"이 망가져 버리는 위험이 있다는 것입니다.

🛠️ 결론: 무엇을 배울 수 있나요?

이 논문은 AI 개발자들에게 중요한 경고를 보냅니다.

"단순히 '여러 번 시도하면 맞을 확률'만 높인다고 해서 AI 가 똑똑해지는 건 아닙니다. 오히려 어려운 문제를 해결하려는 욕심이 쉬운 문제를 망가뜨리는 간섭을 일으킬 수 있습니다."

해결책의 힌트:
AI 를 훈련시킬 때, 어려운 문제만 쫓아가지 말고 쉬운 문제와 어려운 문제 사이의 '간섭'을 잘 조절해야 합니다. 마치 북과 피아노를 동시에 치는 마술사처럼, 한 손이 다른 손을 방해하지 않도록 균형을 잡는 새로운 훈련 방법이 필요하다는 것입니다.

한 줄 요약:
"여러 번 시도해서 맞추는 법 (Pass@k) 을 배우려다 보니, 한 번에 맞추는 기본기 (Pass@1) 가 오히려 망가질 수 있다. 그 이유는 어려운 문제와 쉬운 문제가 서로 다른 방향으로 힘을 쓰기 때문이다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: Pass@k 는 수학 추론, 코드 생성 등 검증 가능한 태스크에서 널리 사용되는 성능 지표입니다. 이는 $k$ 개의 독립적인 샘플 중 하나라도 정답이면 성공으로 간주하는 방식입니다. 최근 연구들은 추론 시 $k$ 번의 시도를 가정하므로, 학습 목표도 Pass@k 를 직접 최적화해야 한다고 주장하며 이를 위한 정책 경사 (Policy Gradient) 기반 미세 조정 (Fine-tuning) 방법들이 제안되었습니다.
핵심 문제: Pass@k 를 최적화하는 과정에서 Pass@1(단일 시도의 성공률) 이 오히려 저하되는 현상이 반복적으로 관찰됩니다.
- 실제 배포 환경에서는 지연 시간 (latency) 과 비용 제약, 검증 도구의 불완전성, 그리고 신뢰할 수 있는 단일 시도 (single-shot) 백업의 필요성으로 인해 Pass@1 이 여전히 중요한 운영적 제약 조건입니다.
- 기존 연구들은 이 트레이드오프를 경험적으로 보고했으나, 왜 Pass@k 최적화가 Pass@1 을 해치는지에 대한 이론적 메커니즘과 발생 조건은 명확히 규명되지 않았습니다.

2. 방법론 및 핵심 통찰 (Methodology & Key Insights)

저자들은 이 현상의 원인을 **'프롬프트 간섭 (Prompt Interference)'**과 **기울기 충돌 (Gradient Conflict)**로 규명했습니다.

가. 프롬프트 간섭 (Prompt Interference) 의 정의

정의: 두 프롬프트 $x$ 와 $x'$ 가 있을 때, 한 프롬프트의 성공 확률을 높이는 정책 파라미터 업데이트가 다른 프롬프트의 성공 확률을 높이면 양적 간섭 (Positive Interference), 반대로 낮추면 **음적 간섭 (Negative Interference)**이라고 정의합니다.
수학적 표현: 프롬프트별 Pass@1 기울기 $\nabla p_\theta(x)$ 와 $\nabla p_\theta(x')$ 의 내적 (Similarity Kernel) 을 통해 간섭의 방향을 측정합니다. 내적이 음수이면 음적 간섭이 발생합니다.

나. Pass@k 최적화의 재가중 (Reweighting) 메커니즘

Pass@k 의 정책 기울기는 Pass@1 기울기에 가중치 $w_k(p) = k(1-p)^{k-1}$ 를 곱한 형태입니다.
이 가중치는 성공 확률 $p$ 가 낮은 (어려운) 프롬프트에 대해 매우 크게 작용하고, 성공 확률이 높은 (쉬운) 프롬프트에는 거의 0 에 수렴합니다.
즉, Pass@k 최적화는 학습 과정에서 어려운 프롬프트 (low-success prompts) 를 과도하게 강조하게 됩니다.

다. 기울기 충돌 (Gradient Conflict) 의 발생

메커니즘: 만약 '어려운 프롬프트'들이 **음적 간섭 (Negative Interference)**을 일으키는 경우 (즉, 어려운 프롬프트를 잘 풀게 하려는 기울기가 전체 Pass@1 을 떨어뜨리는 방향과 반대라면), Pass@k 최적화가 이러한 프롬프트를 과도하게 강조할 때 문제가 발생합니다.
결과: Pass@k 가 강조하는 음적 간섭 프롬프트들의 기울기가 전체 기울기 방향을 지배하게 되어, **Pass@k 기울기와 Pass@1 기울기 사이의 각도가 둔각 (Obtuse Angle, 내적 < 0)**이 됩니다.
결론: Pass@k 기울기 방향으로 업데이트하면 Pass@k 는 증가하지만, Pass@1 은 감소하게 됩니다.

3. 주요 기여 (Key Contributions)

프롬프트 간섭 개념 도입: LLM 후학습 (Post-training) 환경에서 프롬프트 간의 기울기 상호작용을 정량화하는 '프롬프트 간섭' 개념과 유사성 커널을 제안했습니다.
기울기 충돌의 이론적 규명: Pass@k 와 Pass@1 기울기 간의 내적 (Inner Product) 에 대한 해석 가능한 식을 유도했습니다. 이를 통해 Pass@k 가 음적 간섭을 일으키는 프롬프트 영역을 재가중할 때 기울기 충돌이 발생함을 증명했습니다.
충돌 발생 충분 조건 및 $k$ 의 영향 분석:
- 음적 간섭 프롬프트의 가중치 기여도가 양적 간섭 프롬프트보다 우세할 때 기울기 충돌이 발생함을 보였습니다.
- $k$ 값이 특정 임계값 ( $k^*$ ) 을 넘으면 기울기 충돌이 필연적으로 발생하며, 음적 간섭이 클수록 임계값이 낮아짐을 보였습니다.
Pass@1 저하의 엄밀한 증명: Pass@k 정책 업데이트 하에서 적절한 스텝사이즈 조건을 만족하면 Pass@1 이 감소하고 Pass@k 가 증가함을 수학적으로 증명했습니다.
실험적 검증: 수학 추론 태스크 (MATH 데이터셋) 와 대규모 언어 모델 (DeepSeek-R1-Distill-Llama-8B, Qwen-7B) 을 사용하여 이론적 예측을 검증했습니다.

4. 실험 결과 (Results)

데이터셋 및 모델: MATH 데이터셋 (2,000 개 문제) 과 DeepSeek-R1 기반 모델 (Llama-8B, Qwen-7B) 사용.
관찰된 현상:
- 간섭의 분리: '쉬운' 프롬프트는 양의 일치 점수 (Positive Agreement Score), '어려운' 프롬프트는 음의 일치 점수를 보였습니다.
- 극단적인 재가중: Pass@k 가 '어려운' 프롬프트에 부여하는 가중치는 '쉬운' 프롬프트에 비해 $10^{28}$ 배 이상 크게 나타났습니다.
- 기울기 충돌 확인: Pass@k 재가중으로 인해 전체 기울기의 내적이 양에서 음으로 반전되었습니다.
  - Llama-8B: 내적 $+2.80 \times 10^{-3} \rightarrow -1.12 \times 10^{-3}$ (충돌 발생)
  - Qwen-7B: 내적 $+2.97 \times 10^{-2} \rightarrow -2.74 \times 10^{-1}$ (심각한 충돌)
성능 변화: Pass@5 최적화를 수행한 결과, Pass@5 는 증가했으나 전체 Pass@1 성능은 감소하는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

이론적 기여: Pass@k 최적화가 왜 Pass@1 을 해칠 수 있는지에 대한 첫 번째 체계적인 이론적 설명을 제공했습니다. 단순히 "트레이드오프가 있다"는 것을 넘어, 음적 간섭 프롬프트의 재가중이 그 원인임을 규명했습니다.
실무적 시사점:
- Pass@1 이 중요한 운영 환경 (단일 시도 요구, 비용 제약) 에서는 무조건적인 Pass@k 최적화가 위험할 수 있음을 경고합니다.
- 모델 선택 및 배포 시, Pass@k 만을 보고 모델을 선정하는 것은 전체 시스템 신뢰성을 떨어뜨릴 수 있음을 시사합니다.
미래 작업 방향:
- 기울기 충돌을 완화하는 새로운 미세 조정 방법 (예: 기울기 수술, 간섭을 고려한 재가중 전략) 개발 필요.
- Pass@k 를 넘어 다른 추론 시간 목표 (Inference-time objectives) 와의 균형에 대한 연구 확대.

이 논문은 LLM 의 추론 능력 향상을 위한 최적화 전략이 단순히 성능 지표의 수치적 상승만을 의미하지 않으며, 프롬프트 간의 복잡한 상호작용 (간섭) 을 고려하지 않으면 오히려 핵심 성능 (Pass@1) 을 저하시킬 수 있음을 경고하는 중요한 연구입니다.