CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

이 논문은 GRPO 의 평균 기준이 잘못된 해법에도 긍정적 이점을 부여하는 문제를 해결하기 위해 정답 임계값을 기반으로 기준을 클리핑하는 'CoRPO'를 제안하여, 모델의 과적합을 방지하고 도메인 간 일반화 능력을 향상시킨다고 설명합니다.

Anisha Garg, Claire Zhang, Nishit Neema, David Bick, Ganesh Venkatesh, Joel Hestness

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 "코르포 (CoRPO)": AI 가 실수를 배우지 않도록 만드는 '안전장치'

이 논문은 최근 AI(대형 언어 모델) 가 수학이나 코딩 같은 복잡한 문제를 풀 때 사용하는 **'GRPO'**라는 학습 방법의 치명적인 약점을 발견하고, 이를 해결하는 새로운 방법인 **'CoRPO'**를 제안합니다.

비유를 들어 쉽게 설명해 드릴게요.


1. 기존 방식 (GRPO): "반대편이 나쁘면, 내가 잘한 거야?"

기존의 GRPO 방식은 AI 를 가르칠 때 **"비교"**에 의존합니다.
한 번에 4~16 개의 답안 (예: 코딩 코드나 수학 풀이) 을 만들어내고, 그중 평균적으로 가장 나쁜 답을 기준으로 삼아 다른 답안들을 평가합니다.

  • 상황: 시험을 치르는데, 반 전체 학생이 다 엉터리 답안을 썼어요.
    • A 학생: "1+1=3" (정답 아님)
    • B 학생: "1+1=2" (정답)
    • C 학생: "1+1=100" (정답 아님)
    • D 학생: "1+1=50" (정답 아님)
  • GRPO 의 판단: "평균 점수가 너무 낮네? 그럼 C 학생이 A 나 D 보다 조금 낫잖아? C 학생을 칭찬하자!"
  • 문제점: C 학생은 여전히 틀린 답을 냈는데, 다른 친구들이 더 못해서 상대적으로 '잘했다'는 평가를 받아 칭찬 (보상) 을 받습니다.
  • 결과: AI 는 "틀린 답이라도 다른 것보다 조금 낫다면 칭찬받는다"는 잘못된 규칙을 배우게 되어, 실수를 고치기보다 엉뚱한 방향으로 더 열심히 학습하게 됩니다. 이를 '과적합 (Overfitting)'이라고 합니다.

2. 새로운 방식 (CoRPO): "틀리면 무조건 감점!"

저자들은 이 문제를 해결하기 위해 CoRPO를 제안합니다. 핵심은 **'정답 기준선 (Correctness Threshold)'**을 설정하는 것입니다.

  • 규칙: "비교 대상이 누구든 상관없다. 정답의 기준선 (예: 0 점) 을 넘지 못하면, 아무리 다른 친구들보다 낫더라도 '감점'을 받는다."
  • 상황: 다시 위의 시험 상황을 보죠.
    • C 학생 (1+1=3) 은 평균보다 낫지만, 정답 기준선 (2) 을 못 넘었습니다.
    • CoRPO 의 판단: "너는 틀렸어. 평균이 낮다고 해서 너를 칭찬하지 않아. 감점!"
    • B 학생 (1+1=2) 은 기준선을 넘었으니 칭찬받습니다.
  • 효과: AI 는 **"틀린 답은 절대 칭찬받지 못한다"**는 것을 확실히 깨닫습니다. 그래서 엉뚱한 답을 고집하는 대신, 진짜 정답을 찾기 위해 더 안전하게 탐색하게 됩니다.

3. 왜 이것이 중요한가요? (실제 효과)

이 논문은 이 방법이 단순히 점수만 올리는 게 아니라, AI 의 '지능'을 더 넓고 튼튼하게 만든다고 말합니다.

  • 비유:
    • GRPO 로 학습한 AI: 특정 학교 (훈련 데이터) 에서만 잘하는 '특기생'입니다. 그 학교 문제만 풀면 100 점이지만, 다른 학교 (새로운 문제) 로 가면 당황해서 망칩니다.
    • CoRPO 로 학습한 AI: **원리를 제대로 이해한 '진짜 천재'**입니다. 훈련할 때는 조금 더디게 성장할지 몰라도, 전혀 다른 문제 (수학 vs 코딩, 혹은 다른 난이도) 가 나와도 유연하게 대처합니다.

실제 실험 결과:

  • 코딩 문제로 훈련한 AI 가 수학 문제를 풀 때, 기존 방식 (GRPO) 보다 CoRPO 가 훨씬 잘 풀었습니다.
  • 이는 AI 가 특정 문제의 '해법'을 외우는 게 아니라, 문제를 푸는 '논리' 자체를 배우게 되었다는 뜻입니다.

4. 요약: CoRPO 가 가져온 변화

  1. 안전장치 설치: "틀리면 무조건 감점"이라는 규칙을 넣어, AI 가 엉뚱한 답을 칭찬받지 못하게 막았습니다.
  2. 탐험의 자유: AI 가 "틀리면 안 돼"라는 두려움 때문에 무조건 안전한 (하지만 틀린) 답만 고집하지 않고, 진짜 정답을 찾기 위해 더 과감하게 시도할 수 있게 했습니다.
  3. 범용성 향상: 한 분야 (코딩) 에서 배운 지식이 다른 분야 (수학) 로도 잘 전달되도록 만들었습니다.

🎯 결론

이 논문은 **"AI 를 가르칠 때, '남보다 낫다'는 기준보다 '진짜 맞다'는 기준이 더 중요하다"**는 사실을 증명했습니다. CoRPO 는 AI 가 실수를 반복하며 나쁜 습관을 들이는 것을 막고, 진짜 지혜를 배우도록 도와주는 훌륭한 '스승' 역할을 합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →