Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "모두 틀린 시험지"는 쓰레기일까?

과거의 AI 학습 방식 (GRPO 라고 부름) 은 다음과 같은 문제를 겪고 있었습니다.

상황: AI 학생에게 수학 문제를 5 개 풀게 합니다.
기존 방식의 반응: 만약 5 개 중 1 개도 정답이 없다면?
- 기존 AI 는 "아, 다 틀렸네. 이 데이터는 쓸모없어. 버려!"라고 생각하며 학습을 멈춥니다.
- 마치 "전부 틀렸으니 이 시험지는 아무 의미도 없어"라고 생각하며 종이를 구겨버리는 것과 같습니다.
현실과의 괴리: 하지만 인간은 어떨까요? 시험에서 5 개를 다 틀려도, "아, 1 번 문제는 개념은 맞았는데 계산 실수를 했구나", "2 번 문제는 공식을 잘못 썼구나"라고 틀린 이유를 분석하며 배웁니다.
결론: 기존 AI 는 '모두 틀린 실패'라는 소중한 학습 기회를 놓치고 있었습니다.

2. 해결책: SGPO (단계별 가이드 학습)

이 논문은 **"모두 틀린 실패도, 그 안에 정답에 가까운 부분들이 숨어있다"**는 아이디어를 제안합니다. 이를 SGPO(Stepwise Guided Policy Optimization)라고 부릅니다.

🎨 비유: "색칠하기 교재"와 "선생님의 눈"

**기존 방식 **(GRPO)
- 학생이 그림을 그리는데, 마지막에 "이게 사과인가요?"라고 물으면 "아니요"라고만 답합니다.
- 학생은 "아, 내가 실패했구나"라고만 생각하고, 어디가 잘못되었는지 전혀 모릅니다. 다음에도 똑같은 실수를 반복할 수 있습니다.
**새로운 방식 **(SGPO)
- 학생이 그림을 그립니다. 마지막에 "사과인가요?"라고 물으면 "아니요"라고 답합니다.
- 하지만 SGPO 는 **별도의 '단계별 심사위원 **(Judge Model)을 불러옵니다.
- 심사위원은 학생의 그림을 하나하나 훑어보며 말합니다.
  - "1 번 줄기는 잘 그렸네! (O)"
  - "2 번 잎사귀도 훌륭해! (O)"
  - "3 번에서 색깔을 잘못 섞었구나. (X)"
  - "4 번, 5 번은 그 색깔 때문에 망쳤네."
- 결과: 학생은 "아, 내가 처음 2 단계는 잘했는데, 3 단계에서 실수했구나!"라고 깨닫습니다. 틀린 시험지에서도 '잘한 부분'에 점수를 주고, '잘못한 부분'만 지적받게 됩니다.

3. 왜 이것이 중요한가요?

이 방법은 AI 가 더 빠르고 똑똑하게 성장하게 만듭니다.

실패를 두려워하지 않음: "다 틀렸으니 포기"하는 대신, "어디까지 잘했는지"를 확인하며 계속 나아갑니다.
초보자에게 특히 좋음: AI 가 아직 초보일 때는 정답을 맞추기 어렵습니다. 이때 SGPO 는 "정답은 아니지만, 정답에 가까운 시도"를 찾아내어 학습을 가속화합니다.
비용 절감: 정답을 완벽하게 만들어내는 똑똑한 AI(심판) 가 필요하지 않습니다. 단순히 "어디가 틀렸는지"만 지적할 수 있는 AI 라도 충분합니다.

4. 실험 결과: 실제로 효과가 있을까?

연구진은 다양한 크기의 AI 모델 (중학생 수준부터 대학생 수준까지) 로 실험을 했습니다.

결과: SGPO 를 적용한 AI 는 기존 방식보다 더 많은 문제를 풀고, 특히 어려운 문제를 해결하는 능력이 향상되었습니다.
특이점: AI 가 아직 어릴 때 (학습 초기) 에 효과가 가장 컸습니다. 이때는 실패가 많기 때문에, SGPO 가 "틀린 것에서 배우는 법"을 가르쳐주어 큰 차이를 만들었습니다.

5. 요약: 한 문장으로 정리하면?

"기존 AI 는 '다 틀리면' 학습을 멈췄지만, 새로운 SGPO 는 '다 틀려도 어디서부터 잘못되었는지' 찾아내어, 실패를 성장의 발판으로 바꿉니다. 마치 선생님이 학생의 오답 노트를 꼼꼼히 분석해 주어, 다음에는 더 잘할 수 있게 도와주는 것과 같습니다."

이 기술은 AI 가 인간의 사고방식처럼 "실수에서 배우는 능력"을 갖추도록 돕는 중요한 한 걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 대규모 언어 모델 (LLM) 의 추론 능력을 강화하기 위해 강화 학습 (RL), 특히 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 가 널리 사용되고 있습니다. GRPO 는 동일한 프롬프트에 대해 여러 응답을 생성하고, 정답 여부에 따라 보상 (1 또는 0) 을 부여한 후 그룹 내 상대적 이득 (Advantage) 을 계산하여 정책을 업데이트합니다.
핵심 문제 (All-Negative-Sample Groups): GRPO 의 치명적인 한계는 모든 샘플이 틀린 경우 (All-Negative-Sample Groups) 에 발생합니다.
- 그룹 내 모든 응답이 정답이 아니면 (보상이 모두 0), 그룹 내 평균 보상도 0 이 되고, 따라서 모든 샘플의 이득 (Advantage) 이 0 이 됩니다.
- 이 경우 정책 업데이트가 일어나지 않아 학습 신호가 소실됩니다.
- 이는 인간의 학습 방식 (실수로부터 학습) 과는 대조적으로, AI 는 실패 신호를 폐기함으로써 학습 기회를 놓치는 격차가 발생합니다.
- 특히 학습 초기나 중반 단계에서는 모델의 추론 능력이 부족하여 '모두 틀린 그룹'이 빈번하게 발생하므로, 이 문제는 학습 효율성을 크게 저해합니다.

2. 제안 방법론: SGPO (Methodology)

저자들은 단계별 유도 정책 최적화 (Stepwise Guided Policy Optimization, SGPO) 를 제안하여 위 문제를 해결합니다.

핵심 아이디어: 단순히 정답 (1) 과 오답 (0) 이 이분법적으로 구분되는 것이 아니라, 틀린 응답 내부에서도 부분적으로 올바른 추론 단계를 식별하여 차별화된 보상을 부여합니다.
단계별 판정 모델 (Step-wise Judge Model):
- 각 응답 (Trajectory) 을 단계별로 분석하여 첫 번째 오류가 발생한 위치를 식별합니다.
- 오류 발생 전까지의 단계들은 '올바른 추론'으로 간주합니다.
- 추론 궤적 점수 (Reasoning Trajectory Score, RTS): 전체 단계 수 대비 올바른 단계의 비율을 계산합니다. (예: 5 단계 중 3 단계까지 맞고 4 단계에서 틀렸다면 RTS = 3/5).
- 이 점수를 기반으로 보상 함수 $r_{SGPO}$ 를 설계합니다. 정답이면 1, 틀리면 RTS 와 스케일링 파라미터 ( $\beta, \gamma$ ) 를 적용한 시그모이드 함수 값을 부여합니다.
작동 원리:
- 기존 GRPO 와 동일한 그룹 샘플링 및 업데이트 파이프라인을 유지하되, 그룹 내 이득 (Advantage) 계산 시 사용하는 보상을 $r(x, y)$ 에서 $r_{SGPO}(y)$ 로 변경합니다.
- 이를 통해 모든 샘플이 틀린 그룹에서도, 상대적으로 더 많은 단계를 맞춘 샘플이 더 높은 이득을 받아 학습 신호를 유지할 수 있게 됩니다.
구현 세부사항:
- 판정 모델은 기존 LLM 을 파생하거나 직접 학습시킬 수 있으며, 정답을 생성할 필요 없이 오류 위치만 식별하면 됩니다.
- 판정 모델의 노이즈를 줄이기 위해 다수의 독립적 판정을 통해 다수결 (Majority Vote) 로 오류 위치를 결정합니다.
- 보상 안정성을 위해 $\beta$ (강도) 와 $\gamma$ (임계값) 파라미터를 도입하여 노이즈가 심한 신호의 영향을 줄입니다.

3. 주요 기여 (Key Contributions)

SGPO 프레임워크 제안: '모두 틀린 그룹' 내에서도 응답의 다양성을 확보하고 학습 신호를 복원하는 간단하고 효율적인 프레임워크를 제안했습니다.
이론적 증명: 단순화된 설정 (2 단계 추론, 2 개의 행동) 에서 SGPO 가 기존 GRPO 보다 학습 동역학 (Learning Dynamics) 을 가속화함을 수학적으로 증명했습니다.
- SGPO 는 부분적으로 올바른 추론 단계 (예: 첫 단계는 맞고 두 번째 단계는 틀린 경우) 에 대해 GRPO 보다 더 큰 이득을 부여하여, 최적 정책으로의 수렴 속도가 빠르다는 것을 보였습니다.
실증적 검증: 다양한 모델 크기 (7B, 14B, 32B) 와 오프라인/온라인 학습 환경에서 9 개의 추론 벤치마크를 통해 SGPO 의 효과를 입증했습니다.
지식 증류와의 차별화: SGPO 는 판정 모델이 정답을 생성할 필요가 없으며, 학생 모델의 실수를 식별하여 학습 신호를 제공하는 점에서 지식 증류 (Knowledge Distillation) 와 구별됩니다.

4. 실험 결과 (Results)

성능 향상:
- 오프라인 학습: 정답 데이터만 사용한 학습 (Positive-only) 과 비교했을 때, SGPO 를 적용한 '틀린 데이터만' (Negative-only) 학습에서도 대부분의 벤치마크에서 성능이 향상되거나 경쟁력 있는 결과를 보였습니다. 이는 틀린 데이터가 가진 학습 가치를 재확인한 것입니다.
- 온라인 학습: 9 개의 벤치마크 (AIME, MATH, Olympiads 등) 에서 GRPO 대비 평균 성능이 향상되었습니다. 특히 학습 초기 및 중반 단계에서 '모두 틀린 그룹'이 많을 때 SGPO 의 이점이 두드러졌습니다.
모델 크기 및 판정 모델 영향:
- 7B, 14B, 32B 모델 모두에서 효과를 보였으며, 강력한 폐쇄형 모델 (o4-mini, Claude3.7) 뿐만 아니라 오픈소스 모델 (QwQ-32B, Qwen3 등) 을 판정기로 사용해도 안정적인 성능 향상을 보였습니다.
- 파라미터 분석: $\beta$ 와 $\gamma$ 파라미터를 제거할 경우 성능 변동성이 커지고 성능이 저하됨을 확인하여, 보상 안정화 파라미터의 중요성을 입증했습니다.
학습 동역학:
- 정책 엔트로피 (Policy Entropy): SGPO 가 GRPO 보다 정책 엔트로피를 더 빠르게 감소시켜, 더 일찍 결정적인 추론 행동으로 수렴함을 보였습니다.
- 어려운 문제 해결: GRPO 가 실패한 난이도 높은 문제들 (Negative samples) 에서 SGPO 는 부분적인 추론 신호를 통해 추가적인 학습을 가능하게 하여 해결율을 높였습니다.

5. 의의 및 결론 (Significance)

학습 효율성 극대화: 기존 GRPO 가 폐기했던 '틀린 응답'을 유용한 학습 자원으로 전환함으로써, RL 기반 추론 모델의 학습 효율성을 크게 높였습니다.
비용 대비 효과: 고가의 판정 모델이 정답을 생성할 필요 없이 오류 위치만 식별하면 되므로, 계산 비용과 데이터 수집 비용을 절감하면서도 높은 성능을 달성할 수 있습니다.
인간 학습 모방: 인간이 실수를 통해 학습하는 방식을 AI 에 적용하여, '실패 신호'를 체계적으로 활용하는 새로운 RL 패러다임을 제시했습니다.
실용성: 오픈소스 모델과 저사양 하드웨어 환경에서도 적용 가능하여, 제한된 자원을 가진 연구 및 산업 현장에서도 실용적인 솔루션이 될 수 있습니다.

결론적으로, 이 논문은 SGPO를 통해 GRPO 의 근본적인 한계를 해결하고, 부정적 샘플 (Negative Samples) 을 구조화하여 추론 모델의 학습 속도와 정확도를 동시에 향상시키는 혁신적인 접근법을 제시했습니다.

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

1. 문제: "모두 틀린 시험지"는 쓰레기일까?

2. 해결책: SGPO (단계별 가이드 학습)

🎨 비유: "색칠하기 교재"와 "선생님의 눈"

3. 왜 이것이 중요한가요?

4. 실험 결과: 실제로 효과가 있을까?

5. 요약: 한 문장으로 정리하면?

1. 연구 배경 및 문제 제기 (Problem)

2. 제안 방법론: SGPO (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem