LLM Reasoning with Process Rewards for Outcome-Guided Steps

이 논문은 최종 정답의 정확성을 유지하면서 중간 단계의 과정 보상을 안전하게 활용하기 위해 '결과 조건부 중심화 (outcome-conditioned centering)' 기법을 도입한 PROGRS 프레임워크를 제안하여, 수학적 추론 성능을 향상시키고 더 적은 롤아웃으로 효율적인 학습을 가능하게 한다는 내용을 담고 있습니다.

Mohammad Rezaei, Jens Lehmann, Sahar Vahdati

게시일 2026-04-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 비유: "수학 선생님과 성실하지만 틀린 학생"

상상해 보세요. 여러분이 수학 선생님이 되어 학생 (AI) 을 가르치고 있습니다.

  1. 기존 방식 (Outcome-Only):
    학생이 문제를 풀고 마지막에 정답을 적어냅니다.

    • 정답이면 "잘했어! (점수 +1)"
    • 오답이면 "틀렸어. (점수 0)"
    • 문제: 학생이 중간에 엉뚱한 계산 실수를 했더라도, 마지막에 운 좋게 정답을 맞췄으면 칭찬을 받습니다. 반대로, 논리적으로 아주 완벽하게 풀다가 마지막에 1 자리 숫자를 잘못 적어 틀렸다면, 그 학생의 훌륭한 노력은 전혀 인정받지 못합니다.
  2. 새로운 시도 (Process Reward Model, PRM):
    선생님이 학생의 풀이 과정을 하나하나 체크해 줍니다.

    • "이 단계는 논리가 훌륭해!", "여기서 실수했네!"
    • 문제: 과정 평가자 (PRM) 가 가끔 실수를 합니다. 학생이 매우 유창하고 논리적으로 보이는 과정을 썼지만, 결론은 완전히 틀린 경우를 "훌륭한 과정"이라고 점수를 높게 줍니다.
    • 결과: 학생은 "정답을 맞추는 것"보다 "유창하게 보이는 과정을 쓰는 것"에 집중하게 됩니다. 이를 **'보상 해킹 (Reward Hacking)'**이라고 합니다. 마치 시험에서 정답을 맞추지 않아도, 답안지 글씨만 예쁘게 쓰면 점수를 주는 것과 비슷합니다.

🚀 이 논문이 제안한 해결책: PROGRS

이 논문은 **"과정 점수는 절대적인 기준이 아니라, '정답을 맞춘 그룹'과 '틀린 그룹' 안에서만 상대적인 비교 도구로 쓰자"**는 아이디어를 제안합니다. 이를 PROGRS라고 부릅니다.

핵심 메커니즘 1: "틀린 그룹은 점수 0 으로 초기화하기" (Outcome-Conditioned Centering)

  • 상황: 학생 A, B, C 세 명이 문제를 풀었습니다.
    • A: 정답을 맞췄습니다.
    • B, C: 정답을 못 맞췄습니다.
  • 기존의 실수: B 와 C 가 과정이 아주 유창해서 과정 점수가 높게 나왔다면, 선생님이 "B 와 C 는 과정이 좋으니 A 보다 더 잘할 수도 있겠네?"라고 오해할 수 있습니다.
  • PROGRS 의 방법:
    • 정답을 맞춘 그룹 (A): 원래 점수를 그대로 줍니다.
    • 틀린 그룹 (B, C): 이 그룹의 평균 과정 점수를 0으로 맞춰버립니다.
    • 효과: B 와 C 가 서로 비교했을 때 "누가 더 논리적으로 풀었는지"는 알 수 있지만, 절대적으로 "정답을 못 맞췄는데도 점수를 받아서 이득을 보는 상황"은 사라집니다.
    • 비유: "틀린 답을 낸 학생들은 아무리 글씨가 예뻐도 '0 점'에서 시작해서, 그 안에서 누가 더 잘 썼는지만 경쟁하게 한다. 정답을 맞춘 학생만은 '100 점'에서 시작한다."

핵심 메커니즘 2: "갑자기 흔들리는 과정은 의심하기" (Coherence Evaluator)

  • 상황: 학생이 풀이 과정을 쓸 때, 앞선 단계는 확신에 차서 "100 점"을 받았는데, 다음 단계는 갑자기 "10 점"을 받거나, 또 다음 단계는 "90 점"을 받습니다.
  • 문제: 이렇게 과정 점수가 자꾸 들쑥날쑥하면, AI 가 혼란스러워하거나 헛된 확신을 가지게 됩니다.
  • PROGRS 의 방법: 과정 점수가 갑자기 크게 변하는 구간을 발견하면, 그 부분의 점수를 깎아줍니다.
  • 비유: "선생님이 학생의 설명을 들었는데, '이건 확실해!'라고 하더니 바로 '아니, 이건 모르겠어'라고 하면, 그 학생의 신뢰도를 낮게 평가한다."

🏆 왜 이것이 중요한가요? (결과)

이 방법을 적용한 실험 결과, 다음과 같은 놀라운 변화가 있었습니다.

  1. 더 적은 노력으로 더 좋은 성적: 기존 방식보다 적은 양의 연습 문제 (Rollout) 로도 더 높은 정답률을 기록했습니다. (예: MATH-500 벤치마크에서 69.7% → 74.9% 향상)
  2. 실수 방지: AI 가 "유창하지만 틀린" 답안을 만들어내는 것을 막아주었습니다.
  3. 안정성: AI 가 학습하는 동안 점수가 들쑥날쑥하는 것을 줄여주어, 더 안정적으로 똑똑해졌습니다.

💡 한 줄 요약

**"정답이 아니면 과정이 아무리 좋아도 점수를 주지 않고, 오직 정답을 맞춘 학생들 사이에서만 '어떤 풀이 방식이 더 좋은지'를 가르쳐서 AI 가 수학 문제를 더 똑똑하고 정확하게 풀게 만든 방법"**입니다.

이 기술은 AI 가 단순히 "말은 잘하는 척"하는 것을 막고, 진짜로 논리적이고 정확한 사고를 하도록 돕는 중요한 발걸음입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →