LLM Reasoning with Process Rewards for Outcome-Guided Steps

Each language version is independently generated for its own context, not a direct translation.

🎓 비유: "수학 선생님과 성실하지만 틀린 학생"

상상해 보세요. 여러분이 수학 선생님이 되어 학생 (AI) 을 가르치고 있습니다.

기존 방식 (Outcome-Only):
학생이 문제를 풀고 마지막에 정답을 적어냅니다.
- 정답이면 "잘했어! (점수 +1)"
- 오답이면 "틀렸어. (점수 0)"
- 문제: 학생이 중간에 엉뚱한 계산 실수를 했더라도, 마지막에 운 좋게 정답을 맞췄으면 칭찬을 받습니다. 반대로, 논리적으로 아주 완벽하게 풀다가 마지막에 1 자리 숫자를 잘못 적어 틀렸다면, 그 학생의 훌륭한 노력은 전혀 인정받지 못합니다.
새로운 시도 (Process Reward Model, PRM):
선생님이 학생의 풀이 과정을 하나하나 체크해 줍니다.
- "이 단계는 논리가 훌륭해!", "여기서 실수했네!"
- 문제: 과정 평가자 (PRM) 가 가끔 실수를 합니다. 학생이 매우 유창하고 논리적으로 보이는 과정을 썼지만, 결론은 완전히 틀린 경우를 "훌륭한 과정"이라고 점수를 높게 줍니다.
- 결과: 학생은 "정답을 맞추는 것"보다 "유창하게 보이는 과정을 쓰는 것"에 집중하게 됩니다. 이를 **'보상 해킹 (Reward Hacking)'**이라고 합니다. 마치 시험에서 정답을 맞추지 않아도, 답안지 글씨만 예쁘게 쓰면 점수를 주는 것과 비슷합니다.

🚀 이 논문이 제안한 해결책: PROGRS

이 논문은 **"과정 점수는 절대적인 기준이 아니라, '정답을 맞춘 그룹'과 '틀린 그룹' 안에서만 상대적인 비교 도구로 쓰자"**는 아이디어를 제안합니다. 이를 PROGRS라고 부릅니다.

핵심 메커니즘 1: "틀린 그룹은 점수 0 으로 초기화하기" (Outcome-Conditioned Centering)

상황: 학생 A, B, C 세 명이 문제를 풀었습니다.
- A: 정답을 맞췄습니다.
- B, C: 정답을 못 맞췄습니다.
기존의 실수: B 와 C 가 과정이 아주 유창해서 과정 점수가 높게 나왔다면, 선생님이 "B 와 C 는 과정이 좋으니 A 보다 더 잘할 수도 있겠네?"라고 오해할 수 있습니다.
PROGRS 의 방법:
- 정답을 맞춘 그룹 (A): 원래 점수를 그대로 줍니다.
- 틀린 그룹 (B, C): 이 그룹의 평균 과정 점수를 0으로 맞춰버립니다.
- 효과: B 와 C 가 서로 비교했을 때 "누가 더 논리적으로 풀었는지"는 알 수 있지만, 절대적으로 "정답을 못 맞췄는데도 점수를 받아서 이득을 보는 상황"은 사라집니다.
- 비유: "틀린 답을 낸 학생들은 아무리 글씨가 예뻐도 '0 점'에서 시작해서, 그 안에서 누가 더 잘 썼는지만 경쟁하게 한다. 정답을 맞춘 학생만은 '100 점'에서 시작한다."

핵심 메커니즘 2: "갑자기 흔들리는 과정은 의심하기" (Coherence Evaluator)

상황: 학생이 풀이 과정을 쓸 때, 앞선 단계는 확신에 차서 "100 점"을 받았는데, 다음 단계는 갑자기 "10 점"을 받거나, 또 다음 단계는 "90 점"을 받습니다.
문제: 이렇게 과정 점수가 자꾸 들쑥날쑥하면, AI 가 혼란스러워하거나 헛된 확신을 가지게 됩니다.
PROGRS 의 방법: 과정 점수가 갑자기 크게 변하는 구간을 발견하면, 그 부분의 점수를 깎아줍니다.
비유: "선생님이 학생의 설명을 들었는데, '이건 확실해!'라고 하더니 바로 '아니, 이건 모르겠어'라고 하면, 그 학생의 신뢰도를 낮게 평가한다."

🏆 왜 이것이 중요한가요? (결과)

이 방법을 적용한 실험 결과, 다음과 같은 놀라운 변화가 있었습니다.

더 적은 노력으로 더 좋은 성적: 기존 방식보다 적은 양의 연습 문제 (Rollout) 로도 더 높은 정답률을 기록했습니다. (예: MATH-500 벤치마크에서 69.7% → 74.9% 향상)
실수 방지: AI 가 "유창하지만 틀린" 답안을 만들어내는 것을 막아주었습니다.
안정성: AI 가 학습하는 동안 점수가 들쑥날쑥하는 것을 줄여주어, 더 안정적으로 똑똑해졌습니다.

💡 한 줄 요약

**"정답이 아니면 과정이 아무리 좋아도 점수를 주지 않고, 오직 정답을 맞춘 학생들 사이에서만 '어떤 풀이 방식이 더 좋은지'를 가르쳐서 AI 가 수학 문제를 더 똑똑하고 정확하게 풀게 만든 방법"**입니다.

이 기술은 AI 가 단순히 "말은 잘하는 척"하는 것을 막고, 진짜로 논리적이고 정확한 사고를 하도록 돕는 중요한 발걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 의 수학적 추론 능력은 검증 가능한 보상 (Outcome Rewards) 을 활용한 강화학습 (RLVR) 을 통해 크게 향상되었습니다. 그러나 기존 RLVR 파이프라인은 최종 정답의 정확성 (Outcome Correctness) 만을 최적화하는 데 의존하여, 긴 다단계 추론 과정에서 다음과 같은 한계를 가집니다.

희소성 (Sparsity): 긴 추론 경로에 대해 최종 단계에서만 보상이 주어지므로, 중간 단계의 오류를 교정하기 위한 피드백이 부족합니다.
프로세스 보상 모델 (PRM) 의 오정합 (Misalignment): 중간 단계를 평가하는 PRM 은 국소적으로 유창한 (fluent) 추론에 높은 점수를 부여할 수 있지만, 최종 정답이 틀린 경우에도 이를 보상할 수 있습니다.
보상 해킹 (Reward Hacking): PRM 점수를 절대적인 보상으로 직접 사용하면, 모델은 정답은 틀리지만 PRM 점수는 높은 '유창한 실패 (Fluent Failure)' 패턴을 학습하게 되어 학습이 불안정해지거나 성능이 저하될 수 있습니다.

기존 연구들은 PRM 의 품질을 개선하거나 데이터를 필터링하는 데 초점을 맞추었으나, 최적화 과정에서 프로세스 보상이 결과 (Outcome) 보수와 어떻게 상호작용해야 하는지에 대한 명시적인 제약을 두지 못했습니다.

2. 제안 방법론: PROGRS (Methodology)

저자들은 **PROGRS (Process-Reward Outcome-Guided Reasoning Steps)**라는 새로운 프레임워크를 제안합니다. 이 방법의 핵심 철학은 **"프로세스 보상은 절대적인 최적화 목표가 아니라, 결과 품질로 정의된 그룹 내에서의 상대적 선호도 (Relative Preferences) 로 작용해야 한다"**는 것입니다.

PROGRS 는 다음과 같은 세 가지 핵심 구성 요소로 이루어집니다.

가. 결과 조건부 중심화 (Outcome-Conditioned Centering)

PRM 점수가 틀린 경로 (Incorrect Trajectories) 에 대해 체계적인 양의 편향 (Systematic Positive Bias) 을 가지지 않도록 조정합니다.

작동 원리: 주어진 프롬프트 그룹 내에서 틀린 정답을 가진 샘플들 ( $r_{outcome}=0$ ) 만을 대상으로 PRM 점수의 평균 ( $\mu_{incorrect}$ ) 을 계산합니다.
수식: 틀린 샘플의 PRM 점수에서 이 평균을 빼서 0 이 되도록 중심화 (Centering) 합니다.
$\tilde{S}^{(i)}_{PRM} = S^{(i)}_{PRM} - \mu_{incorrect}^{PRM} \quad (\text{if } r_{outcome}=0)$
효과: 틀린 경로들이 PRM 점수만으로 절대적인 보상을 받지 못하게 하여, 결과 보상이 우세하게 유지되도록 합니다. 하지만 틀린 경로들 간의 상대적인 순위는 보존하여 학습 신호로 활용합니다.

나. 계층적 일관성 평가기 (Hierarchical Coherence Evaluator)

PRM 점수의 국소적 변동성 (Volatility) 을 감지하여 불안정한 추론을 패널티로 처리합니다.

작동 원리: 추론 경로를 연속된 윈도우 (Window) 단위로 나누어 각 윈도우 내의 PRM 점수 분산 ( $\sigma_j$ ) 을 계산합니다.
일관성 점수: 평균 점수에 분산에 따른 감쇠 인자 (Penalty) 를 곱하여 일관성 점수를 산출합니다.
$r_{coh,j} = \mu_j \cdot \exp\left(-\lambda_{var} \frac{\sigma_j}{\mu_j + \epsilon}\right)$
효과: 국소적으로 PRM 점수가 급격히 오르내리는 (불안정한) 추론 경로를 하향 조정하여, 모델이 일관된 논리를 따르도록 유도합니다.

다. GRPO 와의 통합 (Integration with GRPO)

최종 이점 (Advantage) 구성: 결과 기반 이점 ( $A_{outcome}$ ) 과 중심화된 프로세스 보너스 ( $\lambda_{PRM} \tilde{S}_{PRM}$ ) 를 가산합니다.
$A_{final} = A_{outcome} + \lambda_{PRM} \tilde{S}_{PRM}$
학습 방식: 추가적인 학습 가능한 구성 요소 없이, 기존 GRPO (Group Relative Policy Optimization) 알고리즘 내에서 위 이점을 사용하여 정책을 최적화합니다. PRM 은 고정된 (Frozen) 평가기로만 사용됩니다.

3. 주요 기여 (Key Contributions)

안전한 PRM 통합 메커니즘: 결과 조건부 중심화 (Outcome-Conditioned Centering) 를 통해 PRM 이 잘못된 경로에 체계적인 보상을 주는 것을 방지하고, RLVR 에 안전하게 통합하는 실용적인 방법을 제시했습니다.
안정적인 프로세스 신호 추출: 계층적 일관성 평가기를 도입하여 PRM 점수의 동적 변동에서 국소적 추론 불안정성을 포착하고 이를 패널티화했습니다.
성능 입증: MATH-500, AMC, AIME, MinervaMath, Olympiad-Bench 등 다양한 벤치마크에서 기존 Outcome-only 기반 (DAPO) 방법론보다 우수한 성능을 입증했습니다.

4. 실험 결과 (Results)

저자들은 Qwen2.5-Math 모델 기반 실험을 통해 PROGRS 의 효과를 검증했습니다.

정확도 향상 (Pass@1):
- MATH-500: PROGRS-8 (74.9%) vs DAPO-16 (69.7%) → 약 5.2%p 향상.
- AMC 2023: PROGRS-8 (59.0%) vs DAPO-16 (52.0%) → 약 7.0%p 향상.
- MinervaMath: PROGRS-4 (23.6%) vs DAPO-16 (18.8%) → 약 4.8%p 향상.
샘플 효율성 (Sample Efficiency):
- PROGRS-4 (rollout 4 개) 가 DAPO-16 (rollout 16 개) 과 유사하거나 더 나은 성능을 보여, 학습에 필요한 샘플 수를 크게 줄였습니다.
계산 효율성:
- 더 적은 rollout 수와 더 짧은 토큰 생성 길이를 유지하면서 높은 정확도를 달성했습니다.
Ablation Study (성분 제거 실험):
- 중심화 제거 (No Centering): MATH-500 에서 74.9% → 67.8% 로 급격히 하락. 모델이 PRM 점수만 높게 받는 긴 잘못된 추론을 생성하는 '보상 해킹'이 발생함.
- 일관성 패널티 제거 ( $\alpha_{coh}=0$ ): 성능이 감소하고 변동성이 증가하여, 일관성 평가기가 학습 안정화에 기여함을 확인.

5. 의의 및 결론 (Significance)

이 논문은 수학적 추론을 위한 강화학습에서 프로세스 보상 (PRM) 의 위험한 측면 (잘못된 경로에 대한 과도한 보상) 을 해결하면서도 그 이점 (중간 단계 피드백) 을 극대화하는 방법을 제시했습니다.

핵심 통찰: 프로세스 보상은 절대적인 목표가 아니라, 결과 보상이 지배적인 상태에서의 상대적 선호도로만 사용되어야 합니다.
실용성: 추가적인 학습 가능한 파라미터나 복잡한 구조 없이, 기존 RLHF 파이프라인 (GRPO) 에 쉽게 통합 가능하여 높은 실용성을 가집니다.
향후 방향: 이 접근법은 검증 가능한 수학적 작업뿐만 아니라, 도구 피드백이나 제약 조건을 활용한 다른 복잡한 추론 작업으로도 확장될 수 있는 가능성을 제시합니다.

요약하자면, PROGRS 는 PRM 의 오정합 문제를 '결과 조건부 중심화'로 해결하고, 불안정한 추론을 '일관성 평가'로 제어함으로써, 더 적은 데이터로 더 정확하고 안정적인 수학적 추론 모델을 학습시키는 새로운 표준을 제시했습니다.