Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

이 논문은 그룹 내 모든 응답이 틀린 경우에도 학습 신호를 활용할 수 있도록 단계별 판정 모델을 도입하여 그룹 상대 정책 최적화 (GRPO) 의 한계를 극복하고 추론 능력을 향상시키는 '단계별 유도 정책 최적화 (SGPO)' 프레임워크를 제안합니다.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "모두 틀린 시험지"는 쓰레기일까?

과거의 AI 학습 방식 (GRPO 라고 부름) 은 다음과 같은 문제를 겪고 있었습니다.

  • 상황: AI 학생에게 수학 문제를 5 개 풀게 합니다.
  • 기존 방식의 반응: 만약 5 개 중 1 개도 정답이 없다면?
    • 기존 AI 는 "아, 다 틀렸네. 이 데이터는 쓸모없어. 버려!"라고 생각하며 학습을 멈춥니다.
    • 마치 "전부 틀렸으니 이 시험지는 아무 의미도 없어"라고 생각하며 종이를 구겨버리는 것과 같습니다.
  • 현실과의 괴리: 하지만 인간은 어떨까요? 시험에서 5 개를 다 틀려도, "아, 1 번 문제는 개념은 맞았는데 계산 실수를 했구나", "2 번 문제는 공식을 잘못 썼구나"라고 틀린 이유를 분석하며 배웁니다.
  • 결론: 기존 AI 는 '모두 틀린 실패'라는 소중한 학습 기회를 놓치고 있었습니다.

2. 해결책: SGPO (단계별 가이드 학습)

이 논문은 **"모두 틀린 실패도, 그 안에 정답에 가까운 부분들이 숨어있다"**는 아이디어를 제안합니다. 이를 SGPO(Stepwise Guided Policy Optimization)라고 부릅니다.

🎨 비유: "색칠하기 교재"와 "선생님의 눈"

  • **기존 방식 **(GRPO)

    • 학생이 그림을 그리는데, 마지막에 "이게 사과인가요?"라고 물으면 "아니요"라고만 답합니다.
    • 학생은 "아, 내가 실패했구나"라고만 생각하고, 어디가 잘못되었는지 전혀 모릅니다. 다음에도 똑같은 실수를 반복할 수 있습니다.
  • **새로운 방식 **(SGPO)

    • 학생이 그림을 그립니다. 마지막에 "사과인가요?"라고 물으면 "아니요"라고 답합니다.
    • 하지만 SGPO 는 **별도의 '단계별 심사위원 **(Judge Model)을 불러옵니다.
    • 심사위원은 학생의 그림을 하나하나 훑어보며 말합니다.
      • "1 번 줄기는 잘 그렸네! (O)"
      • "2 번 잎사귀도 훌륭해! (O)"
      • "3 번에서 색깔을 잘못 섞었구나. (X)"
      • "4 번, 5 번은 그 색깔 때문에 망쳤네."
    • 결과: 학생은 "아, 내가 처음 2 단계는 잘했는데, 3 단계에서 실수했구나!"라고 깨닫습니다. 틀린 시험지에서도 '잘한 부분'에 점수를 주고, '잘못한 부분'만 지적받게 됩니다.

3. 왜 이것이 중요한가요?

이 방법은 AI 가 더 빠르고 똑똑하게 성장하게 만듭니다.

  1. 실패를 두려워하지 않음: "다 틀렸으니 포기"하는 대신, "어디까지 잘했는지"를 확인하며 계속 나아갑니다.
  2. 초보자에게 특히 좋음: AI 가 아직 초보일 때는 정답을 맞추기 어렵습니다. 이때 SGPO 는 "정답은 아니지만, 정답에 가까운 시도"를 찾아내어 학습을 가속화합니다.
  3. 비용 절감: 정답을 완벽하게 만들어내는 똑똑한 AI(심판) 가 필요하지 않습니다. 단순히 "어디가 틀렸는지"만 지적할 수 있는 AI 라도 충분합니다.

4. 실험 결과: 실제로 효과가 있을까?

연구진은 다양한 크기의 AI 모델 (중학생 수준부터 대학생 수준까지) 로 실험을 했습니다.

  • 결과: SGPO 를 적용한 AI 는 기존 방식보다 더 많은 문제를 풀고, 특히 어려운 문제를 해결하는 능력이 향상되었습니다.
  • 특이점: AI 가 아직 어릴 때 (학습 초기) 에 효과가 가장 컸습니다. 이때는 실패가 많기 때문에, SGPO 가 "틀린 것에서 배우는 법"을 가르쳐주어 큰 차이를 만들었습니다.

5. 요약: 한 문장으로 정리하면?

"기존 AI 는 '다 틀리면' 학습을 멈췄지만, 새로운 SGPO 는 '다 틀려도 어디서부터 잘못되었는지' 찾아내어, 실패를 성장의 발판으로 바꿉니다. 마치 선생님이 학생의 오답 노트를 꼼꼼히 분석해 주어, 다음에는 더 잘할 수 있게 도와주는 것과 같습니다."

이 기술은 AI 가 인간의 사고방식처럼 "실수에서 배우는 능력"을 갖추도록 돕는 중요한 한 걸음입니다.