Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: 왜 AI 는 공부할수록 망가질까?

최근 AI 는 수학이나 코딩 같은 어려운 문제를 풀 때, 여러 가지 답안 (예: A, B, C) 을 만들어내고 그중 가장 좋은 답을 골라 학습합니다. 이를 **'그룹 비교 학습'**이라고 합니다.

하지만 이 방식은 장기적으로 두 가지 치명적인 문제를 일으킵니다.

문제 1: 쓸데없는 노력 (학습세, Learning Tax)
- 비유: 시험에서 '정답'이 100 점이고 '오답'이 0 점인데, AI 는 정답과 오답의 마지막 글자만 다르고 앞의 긴 설명은 똑같은 경우가 많습니다.
- AI 는 "정답이니까 설명 부분도 더 잘해야지!"라고 생각해서, 정답과 상관없는 긴 설명 부분까지 열심히 수정합니다. 하지만 이 설명은 점수에 영향을 주지 않죠.
- 결과: AI 는 정답을 더 잘하게 될 것 같지만, 사실은 **정답과 무관한 부분 (예: 문장 구조, 반복되는 단어)**만 계속 수정하며 에너지를 낭비합니다. 이를 '학습세'라고 부릅니다.
문제 2: 사고의 폭 좁아짐 (엔트로피 붕괴)
- 비유: "10+10 은?"이라는 질문에 "20 입니다"와 "10 더하기 10 은 20 입니다"라는 두 가지 정답이 있습니다. 둘 다 맞습니다.
- 그런데 AI 가 학습하는 과정에서 우연히 "20 입니다"라는 표현을 조금 더 점수 높게 받아들이면, AI 는 점점 "10 더하기 10 은 20 입니다"라는 표현을 잊어버리고 오직 한 가지 표현만 반복하게 됩니다.
- 결과: AI 는 다양한 방식으로 답을 낼 수 있는 유연성을 잃고, 딱딱한 패턴만 반복하게 되어 결국 실력이 정체되거나 떨어집니다.

2. 원인 분석: 왜 이런 일이 일어날까?

논문의 핵심은 **"그룹 내의 비교 방식이 잘못되어 있다"**는 것입니다.

기존 방식의 문제: AI 가 여러 답안을 비교할 때, 문장 전체의 길이나 전체적인 흐름을 하나로 묶어서 점수를 매깁니다.
비유: 두 학생 (A, B) 이 같은 문제를 풀었습니다. A 는 3 줄로, B 는 5 줄로 썼습니다. 둘 다 정답입니다.
- 기존 방식은 "B 가 더 길게 썼으니 B 의 전체 점수를 더 높게 쳐줘"라고 합니다.
- 하지만 A 와 B 가 처음 3 줄은 똑같이 썼는데, B 가 4~5 줄을 더 썼을 뿐이라면? 처음 3 줄에 대한 점수 차이는 없어야 합니다.
- 그런데 시스템이 "B 가 더 길었으니 처음 3 줄도 B 가 더 잘했다"고 오해하게 되면, AI 는 정답과 상관없는 4~5 줄을 더 길게 쓰려고 노력하게 됩니다. 이것이 바로 '학습세'가 쌓이는 이유입니다.

3. 해결책: "공통된 부분은 서로 상쇄하자"

저자들은 이 문제를 해결하기 위해 **"그룹 내의 공통된 부분은 서로 상쇄 (Cancelling) 되어야 한다"**는 원칙을 세웠습니다.

핵심 아이디어:
- 여러 답안에서 **똑같이 나타나는 부분 (공통된 단어, 문장)**은 점수 차이를 내는 요소가 될 수 없습니다.
- 따라서 AI 가 학습할 때, 이 공통된 부분의 점수 변화는 0 이 되어야 합니다. (A 가 1 점 올랐다면 B 는 1 점 내려서 합계가 0 이 되도록)
- 오직 **다른 부분 (정답을 결정짓는 핵심 차이점)**만 점수를 주고받아야 합니다.
구현 방법 (DFPO):
- 저자들은 AI 가 학습할 때, 그룹 안의 모든 답안에 동일한 기준을 적용하도록 수정했습니다.
- 비유: 시험 채점할 때, "너희가 쓴 글자 수 (길이) 가 다르니까 점수를 다르게 주지 말고, 가장 짧은 글자 수에 맞춰서 모두 똑같이 채점하자"라고 정한 것입니다.
- 이렇게 하면, 길이가 다르거나 불필요한 부분 때문에 생기는 점수 편차가 사라지고, AI 는 오직 진짜 정답과 관련된 부분에만 집중하게 됩니다.

4. 결과: 더 똑똑하고 안정적인 AI

이 방법을 적용한 실험 결과 (DFPO 라는 이름의 알고리즘) 는 다음과 같은 성과를 냈습니다.

더 빠른 학습: 쓸데없는 부분 (학습세) 을 수정하는 데 에너지를 쓰지 않으므로, 같은 시간 안에 더 높은 점수를 받습니다.
더 안정적인 성장: 학습 곡선이 들쑥날쑥하지 않고 꾸준히 올라갑니다.
최종 실력 향상: 다양한 문제 (수학, 코딩) 에서 기존 방법보다 더 높은 정확도를 기록했습니다.

요약

이 논문은 **"AI 가 학습할 때, 정답과 무관한 공통된 부분까지 점수 차이를 만들어내면 AI 는 헛수고를 하고 망가진다"**는 사실을 발견했습니다.

그리고 **"그룹 안의 공통된 부분은 서로 상쇄시켜, 오직 진짜 차이점 (핵심 정답) 만 학습하게 하자"**는 간단한 규칙을 적용하여, AI 가 더 효율적이고 똑똑하게 성장할 수 있도록 도왔습니다.

한 줄 요약:

"AI 가 공부할 때, 정답과 상관없는 공통된 부분까지 점수를 매겨 혼란을 주지 말고, 진짜 차이점만 골라 학습하게 해주세요."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 이 희소 종료 보상 (sparse termination rewards, 예: 수학 문제 정답 여부, 코드 실행 성공/실패) 을 통해 추론 능력을 강화학습 (RL) 으로 미세 조정할 때, 그룹 내 비교 (Intra-Group Comparison) 기반 방법론 (GRPO, GSPO 등) 이 주류를 이루고 있습니다. 그러나 장기적인 학습 과정에서 다음과 같은 심각한 불안정성 문제가 발생합니다.

비효율적 업데이트 누적 (Learning Tax): 보수와 무관한 공통 토큰 (예: 템플릿, 빈번한 접두사) 에 대해 불필요한 기울기가 누적되어 모델이 학습하지 않아도 되는 방향으로 파라미터가 이동합니다.
해답 확률 편향 (Solution Probability Drift): 의미적으로 동일한 정답 (예: "20"과 "10+10=20") 이 서로 다른 확률로 수렴하게 되어, 한 형태만 선호하는 현상이 발생합니다.
엔트로피 붕괴 (Entropy Collapse): 모델이 탐색을 멈추고 특정 패턴으로만 수렴하여 다양성이 사라집니다.

기존 연구들은 이를 보상 희소성이나 최적화 노이즈로 해석했으나, 본 논문은 시퀀스 수준 가중치 (Sequence-level weights) 가 토큰 단위 기울기 교환 가능성 (Exchangeability) 을 파괴하는 구조적 한계에서 기인한다고 주장합니다.

2. 핵심 통찰 및 이론적 배경 (Key Insights & Theory)

본 논문은 토큰 단위 신용 부여 (Token-level credit assignment) 관점에서 다음과 같은 필요 조건을 제시합니다.

기울기 상쇄 (Gradient Cancellation) 의 필요성: 그룹 내 여러 경로 (Trajectory) 가 동일한 컨텍스트 - 토큰 쌍을 공유할 때, 보수와 무관한 토큰에 대한 기울기 합이 0 이 되어야 (상쇄되어야) 합니다.
교환 가능성 (Exchangeability) 파괴:
- GRPO (Token-factorized): 토큰 단위로 가중치를 적용하므로, 공유 토큰에 대해 기울기가 자연스럽게 상쇄됩니다.
- GSPO (Sequence-coupled): 시퀀스 전체의 확률 곱 (Sequence likelihood) 을 가중치로 사용합니다. 이 경우, 공유 토큰의 기울기 계수가 경로별 시퀀스 가중치 ( $s_i = \prod r_{i,t}$ ) 에 의해 곱해지므로, 경로 간 가중치 차이가 발생하면 기울기 상쇄가 구조적으로 불가능해집니다.
- 비대칭 클리핑 (Asymmetric Clipping): GRPO 의 클리핑 연산이 보수의 부호에 따라 다르게 작용하면, 동일한 토큰 비율이라도 경로별로 다른 계수가 적용되어 상쇄가 깨집니다.
결과: 교환 가능성이 깨지면, 보수와 무관한 토큰에 대해 체계적인 편향 (Drift) 이 발생하여 학습 세금을 지불하고 엔트로피가 붕괴됩니다.

3. 제안 방법 (Methodology)

저자들은 기존 알고리즘의 핵심 프레임워크를 변경하지 않으면서, **그룹 내 변환 (Intra-group Transformations)**을 통해 기울기 상쇄 구조를 복원하거나 근사하는 두 가지 방법을 제안합니다. 이를 **DFPO (Drift Fixing Policy Optimization)**라고 명명했습니다.

기본 원리: 시퀀스 수준 가중치 벡터 ( $w$ ) 와 그룹 내 상대적 우위 (Advantage, $\hat{A}$ ) 간의 비대칭적 상관관계를 제거하여, 공유 토큰 공간에서 기울기 상쇄를 유도합니다.
구현 방식 (Stop-Gradient 적용): 변환된 가중치 $\tilde{w}$ 를 역전파 시 상수 계수로 취급 (Stop-Gradient) 하여, 변환 자체가 기울기 추정에 추가적인 불필요한 결합을 일으키지 않도록 합니다.

주요 두 가지 변환 전략:

Group-Constant (Min-Replace): 그룹 내 모든 경로의 가중치를 해당 그룹의 최소값으로 통일합니다.
- 효과: 경로 간 가중치 차이를 제거하여 공유 토큰의 기울기 상쇄를 보장합니다.
Adv-Orthogonal Reweighting (Orth-Proj): 가중치 벡터와 우위 벡터 ( $\hat{A}$ $\hat{A}$ ) 의 내적이 0 이 되도록 (직교하도록) 가중치를 재조정합니다.
- 효과: 우위 신호와 무관한 가중치 변동을 제거하여 체계적 편향을 줄입니다.

4. 실험 결과 (Results)

HMMT25, AIME25, LiveCodeBench 등 수학 및 코딩 추론 벤치마크에서 Qwen3-32B 및 Qwen3-Next-80B 모델을 사용하여 검증했습니다.

계산 효율성 향상: 동일한 계산 비용 (Compute-matched) 하에서 목표 성능 도달에 필요한 단계 수가 감소했습니다. (학습 세금 감소로 인한 효율성 증대)
학습 안정성: 훈련 곡선의 진동 (Jitter) 이 감소하고, 수렴이 더 안정적이었습니다.
최종 성능 향상:
- AIME25: GSPO 대비 약 3.4%p 향상 (80B 모델 기준 93.2% vs 89.8%).
- LiveCodeBench: 75.1% vs 71.0%.
- HMMT25: 80.1% vs 75.8%.
메커니즘 검증:
- 그룹 내 기울기 변조 비대칭성 (Asymmetry) 이 유의미하게 감소했습니다.
- 고빈도 토큰 (공통 템플릿 등) 에 대한 불필요한 기울기 에너지 (Learning Tax) 가 감소했습니다.
Ablation Study: Stop-Gradient 를 제거하거나 그룹 내 일관성을 전역 스케일링으로 대체할 경우 성능이 급격히 하락하여, 제안된 방법의 성능 향상이 단순한 학습률 감소가 아닌 구조적 교정에서 비롯됨을 입증했습니다.

5. 주요 기여 및 의의 (Contributions & Significance)

구조적 한계의 규명: 그룹 내 비교 학습의 불안정성이 단순한 하이퍼파라미터 문제가 아니라, **토큰 단위 기울기 교환 가능성 (Gradient Exchangeability)**을 위반하는 구조적 결함에서 비롯됨을 수학적으로 증명했습니다.
설계 조건 제시: 희소 보상 환경에서 안정적인 RL 을 위해 **기울기 상쇄 (Gradient Cancellation)**가 필수적이라는 설계 원칙을 제시했습니다.
실용적 해결책: 기존 알고리즘 (GRPO, GSPO 등) 을 크게 수정하지 않고, 최소한의 그룹 내 변환 (Min-Replace, Orth-Proj) 만으로 학습 안정성과 최종 성능을 동시에 개선할 수 있음을 입증했습니다.
학습 세금 (Learning Tax) 개념 정립: 보수와 무관한 토큰에 대한 누적된 비효율적 업데이트가 모델의 일반화 능력과 엔트로피에 미치는 부정적 영향을 체계적으로 분석했습니다.

결론

본 논문은 강화학습 기반 LLM 미세 조정의 장기적 불안정성을 해결하기 위해, 시퀀스 수준 가중치로 인한 기울기 상쇄 실패를 근본 원인으로 규명하고, 이를 해결하는 구조적 설계 조건과 **실용적인 알고리즘 (DFPO)**을 제안했습니다. 이는 추론 모델 학습의 효율성과 안정성을 높이는 중요한 이정표가 될 것으로 기대됩니다.

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

1. 문제 상황: 왜 AI 는 공부할수록 망가질까?

2. 원인 분석: 왜 이런 일이 일어날까?

3. 해결책: "공통된 부분은 서로 상쇄하자"

4. 결과: 더 똑똑하고 안정적인 AI

요약

1. 문제 정의 (Problem)

2. 핵심 통찰 및 이론적 배경 (Key Insights & Theory)

3. 제안 방법 (Methodology)

4. 실험 결과 (Results)

5. 주요 기여 및 의의 (Contributions & Significance)

결론

유사한 논문

Sparse Goodness: How Selective Measurement Transforms Forward-Forward Learning

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals