Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

📚 핵심 비유: "책을 두껍게 읽고, 얇게 정리하기"

중국 수학자 화로증 (Hua Luogeng) 은 "책을 읽을 때는 처음엔 두껍게 (Thick) 읽고, 나중에 얇게 (Thin) 정리하라"고 했습니다. 이 논문의 T2T 는 이 원리를 인공지능 학습에 적용했습니다.

1. 첫 번째 단계: "두꺼워지기" (Thickening) - 탐험의 시간

상황: 인공지능이 문제를 풀지 못했거나, 매우 어려운 문제에 부딪혔을 때.
인간의 행동: 우리는 모르는 문제가 나오면 바로 답을 내지 않습니다. 여러 가지 방법을 시도해보고, 실수도 하고, 길게 설명하며 다양한 가능성을 탐색합니다.
T2T 의 역할: 인공지능이 틀렸을 때는 "더 길고, 더 많은 말을 하라"고 보상합니다.
- 마치 미로에서 길을 잃었을 때일수록 더 넓은 범위를 뒤져보는 것과 같습니다.
- "아직 답을 찾지 못했으니, 더 많이 생각하고 더 길게 설명하며 새로운 길을 찾아봐!"라고 장려합니다.

2. 두 번째 단계: "얇아지기" (Thinning) - 정리의 시간

상황: 인공지능이 문제를 성공적으로 풀었을 때.
인간의 행동: 답을 찾으면 불필요한 수다를 줄이고, 핵심만 간결하게 정리해서 기억합니다.
T2T 의 역할: 인공지능이 맞았을 때는 "짧고 간결하게 말하라"고 보상합니다.
- 마치 여행에서 좋은 사진을 찍고 나면 불필요한 짐을 버리고 핵심만 챙기는 것과 같습니다.
- "이미 답을 찾았으니, 불필요한 말은 빼고 핵심만 간결하게 정리해서 기억해!"라고 가르칩니다.

🤖 기존 방식 vs T2T 방식

기존 방식 (GRPO 등):
- "정답이면 무조건 점수 100 점, 오답이면 0 점."
- 문제는 정답을 찾았더라도 길게 말하든 짧게 말하든 똑같이 점수를 줍니다.
- 결과: 인공지능이 정답을 찾아도 불필요하게 길게 떠들거나 (지루함), 어려운 문제를 풀 때 너무 빨리 포기하는 (탐색 부족) 문제가 생깁니다.
T2T 방식 (이 논문):
- "어려운 문제 (틀렸을 때)" → 길게 말하면 점수 UP (탐색 장려)
- "쉬운 문제 (맞았을 때)" → 짧게 말하면 점수 UP (효율성 장려)
- 결과: 인공지능은 어려운 문제일수록 더 깊게 생각하게 되고, 이미 아는 문제일수록 더 빠르게 답을 내게 됩니다.

🧪 실험 결과: 무엇이 달라졌나요?

연구진은 수학 경시대회 문제 (MATH, AIME 등) 로 이 방법을 테스트했습니다.

더 똑똑해짐: 기존 방식보다 훨씬 더 어려운 수학 문제를 맞혔습니다.
더 효율적임: 정답을 낼 때 불필요한 말을 줄여, 계산 속도가 빨라졌습니다.
모델 크기에 따라 적응:
- 작은 모델 (초보생) 은 "두꺼워지기" 단계에서 더 많이 생각하도록 도와주어 실력을 키웠습니다.
- 큰 모델 (고수) 은 "얇아지기" 단계를 통해 이미 아는 내용을 더 깔끔하게 정리하게 되었습니다.

💡 결론: 왜 이 방법이 중요한가요?

이 방법은 인공지능에게 "무조건 짧게 말하라"거나 "무조건 길게 생각하라"는 고정된 규칙을 강요하지 않습니다. 대신, 상황에 따라 유연하게 생각하게 합니다.

모를 때는: "더 많이, 더 길게, 더 깊게 생각해보자!" (두꺼워지기)
알 때는: "핵심만 간결하게 정리하자!" (얇아지기)

이처럼 인간의 학습 과정을 모방한 이 방식은 인공지능이 복잡한 문제를 해결할 때, 불필요한 에너지를 낭비하지 않으면서도 필요한 곳에는 충분히 집중하게 만들어줍니다. 마치 우리가 공부할 때, 모르는 부분은 꼼꼼히 파고들고, 아는 부분은 빠르게 훑어보는 것과 똑같은 원리입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 의 추론 능력을 향상시키기 위해 검증 가능한 보상을 활용한 강화 학습 (RLVR) 이 유망한 패러다임으로 부상했습니다. 그러나 기존 RLVR 방법론은 다음과 같은 한계를 겪고 있습니다.

탐색과 압축의 혼재: 기존 보상 체계는 '정답을 찾기 위한 긴 탐색 과정 (Exploration)'과 '이미 습득된 지식을 효율적으로 표현하는 과정 (Compression)'을 구분하지 못합니다. 모든 정답 출력에 동일한 보상을 부여하고, 오답에는 0 을 부여하는 이진적 접근은 학습 동역학을 왜곡시킵니다.
엔트로피 붕괴 및 과도한 verbosity: 모델이 정답을 찾지 못했을 때 충분한 탐색을 하지 못하거나 (엔트로피 붕괴), 정답을 찾은 후에도 불필요하게 긴 설명을 생성하는 (과도한 verbosity) 문제가 발생합니다.
학습 단계의 비구조화: 인간 학습자는 어려운 문제에는 '책을 두껍게 읽는 (Thickening, 탐색)' 과정을 거치고, 이해가 된 후에는 '책을 얇게 읽는 (Thinning, 압축)' 과정을 거칩니다. 기존 RLVR 은 이러한 단계적 학습 동역학 (Stage-wise learning dynamics) 을 명시적으로 반영하지 못합니다.

2. 방법론 (Methodology: T2T)

저자들은 인간의 학습 패턴 (화라생의 "책을 두껍게 읽었다가 얇게 읽는다"는 원칙) 에서 영감을 받아 T2T (Thickening-to-Thinning) 라는 새로운 보상 설계 프레임워크를 제안했습니다. 이는 모델의 현재 능력 (정답 확률) 에 따라 보상 신호를 동적으로 조절합니다.

핵심 메커니즘

T2T 는 정답 여부 ( $V$ ) 와 모델의 현재 성공 확률 ( $p$ ), 그리고 응답 길이 ( $s_L$ ) 를 기반으로 보상을 계산합니다.

두꺼워지기 (Thickening - 탐색 단계):
- 상황: 모델이 문제를 해결하지 못했을 때 ( $V=0$ ) 또는 성공 확률이 낮을 때 ( $p \approx 0$ ).
- 동작: 긴 응답 (긴 추론 체인) 을 장려합니다.
- 보상 식: $R = \alpha \cdot s_L(o) \cdot (1 - p)$
- 의미: 실패한 시도일수록 더 긴 탐색을 통해 새로운 해결 경로를 찾도록 유도하여 검색 공간 (Search Space) 을 확장합니다.
얇아지기 (Thinning - 압축 단계):
- 상황: 모델이 문제를 정확히 해결했을 때 ( $V=1$ ) 또는 성공 확률이 높을 때 ( $p \approx 1$ ).
- 동작: 짧고 간결한 응답을 장려하며 불필요한 반복을 억제합니다.
- 보상 식: $R = 1 - \alpha \cdot s_L(o) \cdot p$
- 의미: 정답이 확보된 후에는 불필요한 토큰을 제거하여 추론의 효율성을 높이고 모델의 신뢰도를 강화합니다.

수학적 설계

T2T 보상 함수는 다음과 같이 정의됩니다 (Eq. 17):
$R_{T2T}(q, o, \theta) = \begin{cases} 1 - \alpha s_L(o) p & \text{if } V(q, o) = 1 \quad (\text{Correct}) \\ \alpha s_L(o) (1 - p) & \text{if } V(q, o) = 0 \quad (\text{Incorrect}) \end{cases}$

여기서 $p$ 는 현재 정책 하에서의 그룹 내 통과율 (Pass-rate) 로 추정됩니다.
우선순위: T2T 는 정답을 최우선으로 하되, 정답 내에서는 짧을수록, 오답 내에서는 길수록 높은 보상을 받도록 하여 다음과 같은 선호 순서를 유도합니다:
정답 (짧음) > 정답 (긴) > 오답 (긴) > 오답 (짧음)

3. 주요 기여 (Key Contributions)

인간 학습 동역학의 RLVR 통합: 추론 학습을 '탐색 (Thickening)'과 '압축 (Thinning)'이라는 두 단계로 명확히 분리하고, 이를 보상 설계에 반영하여 학습 효율성을 극대화했습니다.
경량화 및 호환성: 추가적인 보조 모델이나 토큰 수준의 감독 없이, 기존 GRPO(Group Relative Policy Optimization) 파이프라인에 보상 함수만 변경하여 적용 가능합니다. 추론 시 추가 오버헤드가 없습니다.
동적 길이 조절 메커니즘: 모델의 능력과 문제 난이도에 따라 자동으로 '생성 길이'를 조절합니다. 어려운 문제에서는 긴 추론을, 쉬운 문제나 습득된 지식에서는 짧은 추론을 유도합니다.

4. 실험 결과 (Results)

수학적 추론 벤치마크 (MATH-500, AIME, AMC) 에서 Qwen 및 DeepSeek 시리즈 모델을 대상으로 실험을 수행했습니다.

성능 향상: T2T 는 표준 GRPO 및 최신 베이스라인 (LASER, W-REINFORCE, EntroPIC) 보다 Pass@1 및 Pass@64 지표에서 일관되게 우수한 성능을 보였습니다.
- 특히 Qwen3-14B 모델에서 모든 지표에서 1 위를 기록하며 확장성 (Scalability) 을 입증했습니다.
- Qwen2.5-3B와 Qwen3-4B에서도 AMC 및 AIME 벤치마크에서 큰 개선을 보였습니다.
학습 동역학 분석:
- 엔트로피 유지: 명시적인 엔트로피 정규화 없이도, T2T 는 학습 초기에 탐색을 장려하여 엔트로피를 높게 유지하다가 후기에는 안정화되는 동역학을 보였습니다. 이는 GRPO 의 엔트로피 붕괴 문제를 해결합니다.
- 길이 조절: 작은 모델 (3B) 에서는 긴 추론을 장려하여 성능을 높이는 반면, 큰 모델 (14B) 에서는 정답 시 길이를 줄여 효율성을 높이는 적응적 조절이 관찰되었습니다.
Ablation Study: '난이도 인식 (Difficulty Awareness)', 'Thickening', 'Thinning' 중 하나라도 제거하면 성능이 저하됨을 확인하여, 두 단계의 조화가 필수적임을 증명했습니다.
일반화 능력: 수학 도메인 외의 논리 추론 (BBH) 및 코드 생성 (HumanEval) 작업에서도 성능 저하 없이 유지되거나 오히려 향상되어 '정렬 세금 (Alignment Tax)'이 없음을 보였습니다.

5. 의의 및 결론 (Significance)

계산 효율성 최적화: T2T 는 RLVR 을 통해 테스트 시간 확장 (Test-Time Scaling) 의 이점을 학습 단계로 이전 (Amortize) 시키면서도, 불필요한 계산 낭비를 방지하는 계산 인식형 (Compute-aware) 학습 프레임워크를 제시했습니다.
새로운 학습 패러다임: 추론 능력을 향상시키기 위해 단순히 더 많은 데이터를 학습하거나 모델을 키우는 것을 넘어, 학습의 '단계'를 설계하는 것이 중요함을 보여줍니다.
실용성: 복잡한 알고리즘 변경 없이 기존 RLVR 파이프라인에 쉽게 통합 가능하여, 실제 LLM 추론 시스템에 적용하기 용이합니다.

요약하자면, 이 논문은 인간의 학습 원리를 모방하여 '탐색'과 '정제'를 동적으로 조절하는 보상 설계가 LLM 의 추론 능력을 획기적으로 향상시킬 수 있음을 증명했습니다.