Each language version is independently generated for its own context, not a direct translation.
1. 문제 정의 (Problem)
대형 언어 모델 (LLM) 의 추론 능력을 향상시키기 위해 검증 가능한 보상을 활용한 강화 학습 (RLVR) 이 유망한 패러다임으로 부상했습니다. 그러나 기존 RLVR 방법론은 다음과 같은 한계를 겪고 있습니다.
- 탐색과 압축의 혼재: 기존 보상 체계는 '정답을 찾기 위한 긴 탐색 과정 (Exploration)'과 '이미 습득된 지식을 효율적으로 표현하는 과정 (Compression)'을 구분하지 못합니다. 모든 정답 출력에 동일한 보상을 부여하고, 오답에는 0 을 부여하는 이진적 접근은 학습 동역학을 왜곡시킵니다.
- 엔트로피 붕괴 및 과도한 verbosity: 모델이 정답을 찾지 못했을 때 충분한 탐색을 하지 못하거나 (엔트로피 붕괴), 정답을 찾은 후에도 불필요하게 긴 설명을 생성하는 (과도한 verbosity) 문제가 발생합니다.
- 학습 단계의 비구조화: 인간 학습자는 어려운 문제에는 '책을 두껍게 읽는 (Thickening, 탐색)' 과정을 거치고, 이해가 된 후에는 '책을 얇게 읽는 (Thinning, 압축)' 과정을 거칩니다. 기존 RLVR 은 이러한 단계적 학습 동역학 (Stage-wise learning dynamics) 을 명시적으로 반영하지 못합니다.
2. 방법론 (Methodology: T2T)
저자들은 인간의 학습 패턴 (화라생의 "책을 두껍게 읽었다가 얇게 읽는다"는 원칙) 에서 영감을 받아 T2T (Thickening-to-Thinning) 라는 새로운 보상 설계 프레임워크를 제안했습니다. 이는 모델의 현재 능력 (정답 확률) 에 따라 보상 신호를 동적으로 조절합니다.
핵심 메커니즘
T2T 는 정답 여부 (V) 와 모델의 현재 성공 확률 (p), 그리고 응답 길이 (sL) 를 기반으로 보상을 계산합니다.
두꺼워지기 (Thickening - 탐색 단계):
- 상황: 모델이 문제를 해결하지 못했을 때 (V=0) 또는 성공 확률이 낮을 때 (p≈0).
- 동작: 긴 응답 (긴 추론 체인) 을 장려합니다.
- 보상 식: R=α⋅sL(o)⋅(1−p)
- 의미: 실패한 시도일수록 더 긴 탐색을 통해 새로운 해결 경로를 찾도록 유도하여 검색 공간 (Search Space) 을 확장합니다.
얇아지기 (Thinning - 압축 단계):
- 상황: 모델이 문제를 정확히 해결했을 때 (V=1) 또는 성공 확률이 높을 때 (p≈1).
- 동작: 짧고 간결한 응답을 장려하며 불필요한 반복을 억제합니다.
- 보상 식: R=1−α⋅sL(o)⋅p
- 의미: 정답이 확보된 후에는 불필요한 토큰을 제거하여 추론의 효율성을 높이고 모델의 신뢰도를 강화합니다.
수학적 설계
T2T 보상 함수는 다음과 같이 정의됩니다 (Eq. 17):
RT2T(q,o,θ)={1−αsL(o)pαsL(o)(1−p)if V(q,o)=1(Correct)if V(q,o)=0(Incorrect)
- 여기서 p는 현재 정책 하에서의 그룹 내 통과율 (Pass-rate) 로 추정됩니다.
- 우선순위: T2T 는 정답을 최우선으로 하되, 정답 내에서는 짧을수록, 오답 내에서는 길수록 높은 보상을 받도록 하여 다음과 같은 선호 순서를 유도합니다:
정답 (짧음) > 정답 (긴) > 오답 (긴) > 오답 (짧음)
3. 주요 기여 (Key Contributions)
- 인간 학습 동역학의 RLVR 통합: 추론 학습을 '탐색 (Thickening)'과 '압축 (Thinning)'이라는 두 단계로 명확히 분리하고, 이를 보상 설계에 반영하여 학습 효율성을 극대화했습니다.
- 경량화 및 호환성: 추가적인 보조 모델이나 토큰 수준의 감독 없이, 기존 GRPO(Group Relative Policy Optimization) 파이프라인에 보상 함수만 변경하여 적용 가능합니다. 추론 시 추가 오버헤드가 없습니다.
- 동적 길이 조절 메커니즘: 모델의 능력과 문제 난이도에 따라 자동으로 '생성 길이'를 조절합니다. 어려운 문제에서는 긴 추론을, 쉬운 문제나 습득된 지식에서는 짧은 추론을 유도합니다.
4. 실험 결과 (Results)
수학적 추론 벤치마크 (MATH-500, AIME, AMC) 에서 Qwen 및 DeepSeek 시리즈 모델을 대상으로 실험을 수행했습니다.
- 성능 향상: T2T 는 표준 GRPO 및 최신 베이스라인 (LASER, W-REINFORCE, EntroPIC) 보다 Pass@1 및 Pass@64 지표에서 일관되게 우수한 성능을 보였습니다.
- 특히 Qwen3-14B 모델에서 모든 지표에서 1 위를 기록하며 확장성 (Scalability) 을 입증했습니다.
- Qwen2.5-3B와 Qwen3-4B에서도 AMC 및 AIME 벤치마크에서 큰 개선을 보였습니다.
- 학습 동역학 분석:
- 엔트로피 유지: 명시적인 엔트로피 정규화 없이도, T2T 는 학습 초기에 탐색을 장려하여 엔트로피를 높게 유지하다가 후기에는 안정화되는 동역학을 보였습니다. 이는 GRPO 의 엔트로피 붕괴 문제를 해결합니다.
- 길이 조절: 작은 모델 (3B) 에서는 긴 추론을 장려하여 성능을 높이는 반면, 큰 모델 (14B) 에서는 정답 시 길이를 줄여 효율성을 높이는 적응적 조절이 관찰되었습니다.
- Ablation Study: '난이도 인식 (Difficulty Awareness)', 'Thickening', 'Thinning' 중 하나라도 제거하면 성능이 저하됨을 확인하여, 두 단계의 조화가 필수적임을 증명했습니다.
- 일반화 능력: 수학 도메인 외의 논리 추론 (BBH) 및 코드 생성 (HumanEval) 작업에서도 성능 저하 없이 유지되거나 오히려 향상되어 '정렬 세금 (Alignment Tax)'이 없음을 보였습니다.
5. 의의 및 결론 (Significance)
- 계산 효율성 최적화: T2T 는 RLVR 을 통해 테스트 시간 확장 (Test-Time Scaling) 의 이점을 학습 단계로 이전 (Amortize) 시키면서도, 불필요한 계산 낭비를 방지하는 계산 인식형 (Compute-aware) 학습 프레임워크를 제시했습니다.
- 새로운 학습 패러다임: 추론 능력을 향상시키기 위해 단순히 더 많은 데이터를 학습하거나 모델을 키우는 것을 넘어, 학습의 '단계'를 설계하는 것이 중요함을 보여줍니다.
- 실용성: 복잡한 알고리즘 변경 없이 기존 RLVR 파이프라인에 쉽게 통합 가능하여, 실제 LLM 추론 시스템에 적용하기 용이합니다.
요약하자면, 이 논문은 인간의 학습 원리를 모방하여 '탐색'과 '정제'를 동적으로 조절하는 보상 설계가 LLM 의 추론 능력을 획기적으로 향상시킬 수 있음을 증명했습니다.