Rewards as Labels: Revisiting RLVR from a Classification Perspective

Each language version is independently generated for its own context, not a direct translation.

🎓 이야기의 배경: AI 는 어떻게 배우나요?

지금까지 AI 가 수학 문제를 풀며 배우는 방식은 **'GRPO'**라는 방법론이 대세였습니다. 이 방식은 AI 가 같은 문제를 여러 번 풀게 한 뒤, 정답을 맞춘 경우 (긍정) 에는 "잘했어!"라고 칭찬하고, 틀린 경우 (부정) 에는 "틀렸어!"라고 지적하는 식으로 학습을 시켰습니다.

하지만 연구자들은 이 방식에 두 가지 치명적인 문제가 있음을 발견했습니다.

🚨 문제 1: "잘한 아이"를 너무 과하게 칭찬하고, "애쓰는 아이"를 무시함 (Gradient Misassignment)

상황: AI 가 문제를 풀었을 때, 이미 확신이 높은 정답을 낸 경우와, 겨우 맞춘 어려운 문제를 낸 경우가 있습니다.
기존 방식의 문제: 기존 방식은 확신이 높은 정답 (이미 잘하는 것) 에는 **너무 큰 칭찬 (큰 학습 신호)**을 보냈습니다. 반면, 애써서 맞춘 어려운 문제 (잘못된 부분을 고쳐야 할 부분) 에는 작은 칭찬만 보냈습니다.
비유: 마치 반에서 이미 시험을 100 점 맞은 학생에게는 "천재야!"라고 큰 소리로 칭찬하고, 60 점 맞았지만 열심히 노력한 학생에게는 "그래도 60 점이야"라고 가볍게 대하는 꼴입니다. 결과적으로 열심히 노력해야 할 부분 (어려운 문제) 은 개선되지 않고, 이미 잘하는 부분만 더 과하게 강화됩니다.

🚨 문제 2: "틀린 아이" 중 가장 자신감 있는 아이에게만 화를 냄 (Gradient Domination)

상황: AI 가 틀린 답을 냈을 때, 확신이 높은 틀린 답과 확신이 낮은 틀린 답이 있습니다.
기존 방식의 문제: 틀린 답 중에서도 자신감 있게 틀린 답에 대해 AI 는 엄청난 '화 (학습 신호)'를 받습니다. 이 신호가 너무 커서 다른 중요한 학습 신호들을 덮어버립니다.
비유: 선생님이 틀린 문제를 고칠 때, "내가 100% 틀리지 않았는데!"라고 소리치는 학생 (자신감 있는 오답) 에게만 모든 화를 쏟아붓고, "아마 틀렸을 거예요"라고 조심스럽게 말한 학생 (다른 오답) 은 무시해버리는 상황입니다. 이로 인해 학습이 불안정해집니다.

💡 해결책: REAL (보상을 레이블로)

이 연구팀은 이 문제를 해결하기 위해 시선을 **보상 (Reward)**에서 **레이블 (Label)**로 돌렸습니다.

1. 생각의 전환: "점수"가 아닌 "정답/오답"으로 보기

기존 방식은 "얼마나 잘했나?"라는 **점수 (Scalar)**로 보았습니다. 하지만 이 연구팀은 **"이건 정답 (Positive) 이고, 이건 오답 (Negative) 이다"**라는 분류 (Classification) 문제로 바라봤습니다.

비유: 점수판 (100 점, 90 점, 80 점...) 을 보며 "어느 정도 잘했나?"를 고민하는 대신, **"이건 합격 (O), 이건 불합격 (X)"**이라고 딱딱 구분하는 것입니다.

2. 새로운 학습 방법: "분류 게임"

이제 AI 는 "어떤 답이 정답이고 어떤 답이 오답인지"를 구분하는 분류 게임을 합니다.

정답 (Positive): 확신이 낮더라도 정답이면 "정답이야!"라고 확실히 가르칩니다. (기존 방식보다 어려운 문제를 더 잘 학습하게 됨)
오답 (Negative): 확신이 높더라도 오답이면 "오답이야!"라고 명확히 가르칩니다. (자신감 있는 오답이 학습을 방해하지 않도록 통제됨)

3. '앵커 (Anchor)'라는 안전장치

학습이 너무 흔들리지 않도록 **'0 점 (앵커)'**이라는 기준점을 설정했습니다.

정답은 0 점보다 높게, 오답은 0 점보다 낮게 만들도록 유도합니다.
비유: 줄다리기에서 줄의 중앙 (0 점) 을 잡게 해서, 양쪽이 너무 세게 당기면 줄이 끊어지지 않도록 (학습이 불안정해지지 않도록) 조절하는 역할을 합니다.

🏆 결과: 왜 이 방법이 더 좋은가요?

이 새로운 방법 (REAL) 을 적용한 결과, 기존 방식 (GRPO, DAPO 등) 보다 훨씬 안정적이고 효과적이었습니다.

균형 잡힌 학습: 어려운 문제 (낮은 확신의 정답) 도 소홀히 하지 않고, 자신감 있는 오답도 학습을 방해하지 않습니다.
안정성: AI 가 학습하는 동안 정신이 나가는 현상 (엔트로피 붕괴) 이나, 너무 흥분해서 망치는 현상 (엔트로피 폭발) 이 사라졌습니다.
성능 향상: 수학 추론 벤치마크에서 기존 최고 성능을 내던 모델들보다 약 6~7% 더 높은 점수를 기록했습니다. 특히 작은 모델 (15 억 개 파라미터) 에서도 큰 효과를 보였습니다.

📝 한 줄 요약

"AI 에게 '얼마나 잘했는지' 점수를 매겨주는 대신, '정답인지 오답인지' 딱 구분해 주는 분류 게임을 시켰더니, AI 가 더 균형 잡히고 안정적으로 똑똑해졌습니다."

이 논문은 AI 가 복잡한 문제를 풀 때, 단순히 점수를 매기는 방식이 아니라 분류의 관점으로 접근하면 훨씬 더 효율적으로 학습할 수 있음을 증명했습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 **검증 가능한 보상 (Verifiable Rewards) 을 이용한 강화학습 (RLVR)**은 대규모 언어 모델 (LLM) 의 복잡한 추론 능력 향상에 큰 성과를 거두었습니다. 특히 GRPO (Group Relative Policy Optimization) 및 그 변형 모델들은 수학 및 프로그래밍 추론 작업에서 뛰어난 성능을 보였습니다.

그러나 저자들은 GRPO 스타일의 방법론이 근본적인 기울기 할당 (Gradient Assignment) 불일치 문제를 겪고 있음을 발견했습니다. 이는 다음과 같은 두 가지 주요 결함으로 요약됩니다.

긍정적 샘플에서의 기울기 오할당 (Gradient Misassignment in Positives):
- 현재 정책 하에서 이미 확률이 높은 토큰 (쉬운 토큰) 에는 과도한 업데이트가 이루어지는 반면, 확률이 낮은 토큰 (어려운 토큰) 에는 기울기가 약하게 할당됩니다.
- 이로 인해 최적화가 필요한 부분 (하드 토큰) 은 제대로 학습되지 않고, 이미 잘 학습된 부분에 자원이 집중되는 비효율이 발생합니다.
부정적 샘플에서의 기울기 지배 (Gradient Domination in Negatives):
- 부정적 샘플 (오답) 의 경우, 상대적 로그 확률이 높은 토큰에 대해 기울기 크기가 무제한으로 증가할 수 있습니다.
- 이로 인해 소수의 '어려운 부정적 샘플'이 전체 그룹의 업데이트를 지배하게 되어, 다른 정보력 있는 샘플들의 기여가 억제되고 학습이 불안정해집니다.

이러한 문제들은 효율적인 신용 할당 (Credit Assignment) 을 방해하고, 정책이 최적이 아닌 지역 최적점 (Local Optima) 에 조기 수렴하거나 학습이 불안정해지는 원인이 됩니다.

2. 제안 방법론: REAL (Methodology)

저자들은 이러한 문제를 해결하기 위해 **REAL (Rewards as Labels)**이라는 새로운 프레임워크를 제안합니다. 핵심 아이디어는 검증 가능한 보상을 **스칼라 가중치 (Scalar Weight)**가 아닌 **범주형 레이블 (Categorical Label)**로 재해석하여, 정책 최적화 문제를 **분류 문제 (Classification Problem)**로 재정의하는 것입니다.

주요 구성 요소:

분류 관점의 재정의:
- 주어진 프롬프트에 대해 생성된 여러 롤아웃 (Rollouts) 을 검증 규칙에 따라 '긍정 (Correct, $r=1$ )'과 '부정 (Incorrect, $r=0$ )'으로 분류합니다.
- 정책 학습의 목표는 긍정 롤아웃의 로그 확률을 높이고 부정 롤아웃의 로그 확률을 낮추는 이진 분류로 설정됩니다.
상대적 로그 확률 (Relative Log-Prob) 을 로짓 (Logit) 으로 사용:
- 각 롤아웃의 토큰들에 대한 상대적 로그 확률의 평균 ( $\bar{s}_k$ ) 을 계산하여 분류 모델의 입력 로짓으로 사용합니다.
- $\bar{s}_k > 0$ 은 긍정적 강화, $\bar{s}_k < 0$ 은 억제를 의미합니다.
ANCHOR LOGITS 도입:
- 명확한 학습 방향을 부여하기 위해 고정된 **앵커 로짓 (Anchor Logit, 값 0)**을 도입합니다.
- 긍정 샘플의 경우 0 을 '부정' 레이블로, 부정 샘플의 경우 0 을 '긍정' 레이블로 간주하여, 긍정 샘플은 0 이상으로, 부정 샘플은 0 이하로 로짓을 분리하도록 학습합니다.
손실 함수 (Loss Function):
- 소프트맥스 교차 엔트로피 (Softmax Cross-Entropy) 를 기반으로 한 통합 손실 함수를 사용합니다.
- $L_{REAL} = L_{CE}(S_+, S_0) + L_{CE}(S_0, S_-)$ 형태로, 긍정과 부정 샘플 간의 마진 (Margin) 을 최대화합니다.

이론적 장점 (기울기 분석):

유계된 기울기 (Bounded Gradient): GRPO 와 달리 REAL 은 기울기 크기가 상한선 ($1/\tau$) 을 가지며, 상대적 로그 확률에 따라 단조롭게 감소합니다.
자동 클리핑 (Implicit Clipping): 이 유계된 기울기 특성은 명시적인 KL 발산 정규화 (KL Penalty) 나 클리핑 (Clipping) 파라미터 없이도 학습의 안정성을 보장하며, GRPO 의 기울기 오할당 및 지배 문제를 자연스럽게 해결합니다.

3. 주요 기여 (Key Contributions)

GRPO 기반 RLVR 의 근본적 문제 규명: 긍정 샘플에서의 기울기 오할당과 부정 샘플에서의 기울기 지배 현상을 이론적 및 통계적으로 규명했습니다.
REAL 프레임워크 제안: 보상을 레이블로 간주하고 분류 문제로 전환함으로써, 기울기 할당의 불균형을 해결하고 학습 안정성을 획기적으로 개선했습니다.
포괄적인 실험적 검증: 다양한 수학 추론 벤치마크와 모델 규모 (1.5B, 7B) 에서 GRPO, DAPO, GSPO 등 최첨단 베이스라인을 능가하는 성능을 입증했습니다.

4. 실험 결과 (Results)

저자들은 DeepSeek-R1-Distill-Qwen 모델 (1.5B 및 7B) 을 기반으로 AIME 2024/2025, MATH 500, AMC 2023 등 6 가지 수학 추론 벤치마크에서 실험을 수행했습니다.

성능 향상:
- 1.5B 모델: DAPO 대비 평균 Pass@1 이 6.7%p 향상되었습니다. (GRPO 대비 9.5%p 향상)
- 7B 모델: DAPO 대비 6.2%p, GSPO 대비 1.7%p 향상되었습니다.
- 간단한 이진 교차 엔트로피 (BCE) 사용 시에도: KL 페널티 없이도 DAPO 대비 평균 4.5%p 높은 성능을 기록하며 안정성을 입증했습니다.
학습 안정성:
- GRPO 는 엔트로피 붕괴 (Entropy Collapse), DAPO 는 엔트로피 폭발 (Entropy Explosion) 을 보인 반면, REAL 은 1,400 스텝 내내 안정적인 엔트로피 분포를 유지하며 일관된 성능 향상을 보였습니다.
- 명시적인 KL 페널티 없이도 학습이 안정적으로 수렴하여, 계산 오버헤드를 줄일 수 있음을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 RLVR 의 최적화 패러다임에 새로운 통찰을 제공합니다.

원칙적인 접근: 보상을 단순한 스칼라 신호가 아닌 분류 레이블로 간주함으로써, 수학적으로 더 엄밀하고 안정된 최적화 경로를 제시했습니다.
실용성: 복잡한 클리핑 전략이나 추가적인 정규화 항 없이도 강력한 성능과 안정성을 달성할 수 있어, 추론 모델 학습의 효율성을 높입니다.
미래 영향: REAL 프레임워크는 신뢰할 수 있고 투명한 AI 시스템 개발을 위한 기반이 되며, 향후 더 복잡한 추론 작업에 적용될 수 있는 강력한 베이스라인을 제시합니다.

요약하자면, REAL은 기존 RLVR 방법론의 기울기 할당 결함을 분류 문제의 관점에서 해결하여, 더 안정적이고 효율적인 대규모 언어 모델의 추론 능력 향상을 가능하게 한 획기적인 연구입니다.