DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Each language version is independently generated for its own context, not a direct translation.

🎓 비유: "지식 쌓기"와 "고난도 훈련"의 조화

이 논문의 주인공인 인공지능을 한 명의 학생이라고 상상해 보세요. 이 학생이 과학과 수학의 모든 문제를 해결하는 '천재'가 되려면 두 가지 훈련이 필요합니다.

SFT (지도 학습): 선배나 선생님이 푼 정답 예제를 보고 따라 하는 훈련입니다.
RL (강화 학습): 정답을 직접 찾아내고, 틀리면 다시 시도하며 스스로 고민하는 훈련입니다.

지금까지 많은 연구자들은 "강화 학습 (RL) 만 하면 무조건 더 똑똑해진다"고 믿었습니다. 하지만 이 논문의 연구자들은 **"아니요, 그건 틀렸습니다"**라고 말합니다.

🚫 기존 방식의 문제점: "무작위 섞기"

기존 방식은 학생에게 문제를 줄 때, 쉬운 문제부터 어려운 문제까지 무작위로 섞어서 주었습니다.

결과: 학생은 기본적인 과학 지식 (예: 물리 공식, 역사 연대기) 을 익히는 데 시간이 너무 오래 걸렸고, 강화 학습만으로는 그 기초 지식을 채우기엔 비효율적이었습니다. 마치 축구 선수가 기초 체력 훈련 없이 바로 월드컵 결승전 같은 고난도 경기만 치르려다 지쳐버리는 상황과 같습니다.

✅ DeReason 의 해결책: "난이도별 커리큘럼"

이 논문은 **"어떤 문제를, 언제, 어떻게 가르칠지"**를 지능적으로 나누는 DeReason을 제안합니다.

1 단계: 기초 다지기 (SFT)
- 대상: "기억력"이 필요한 쉬운 문제들 (예: "물의 끓는점은?", "피타고라스 정리는?").
- 방법: 선생님이 푼 정답을 보여주고 그대로 따라 하게 합니다.
- 이유: 이런 기초 지식은 스스로 시행착오를 겪으며 찾기보다, 정답을 보고 외우는 게 훨씬 빠르고 효율적입니다.
2 단계: 고난도 훈련 (RL)
- 대상: "추론"이 필요한 아주 어려운 문제들 (예: 복잡한 물리 문제, 여러 단계를 거쳐야 풀리는 수학 문제).
- 방법: 이제 학생이 스스로 고민하고, 틀리면 다시 시도하며 정답을 찾게 합니다.
- 이유: 기초 지식이 갖춰진 상태에서, 어려운 문제를 해결하는 '사고력'을 기르는 데는 강화 학습이 가장 효과적입니다.

🌟 왜 이 방법이 더 좋은가요? (핵심 발견)

연구자들은 실험을 통해 놀라운 사실을 발견했습니다.

기초가 없는 상태 (Base Model) 에서 강화 학습만 시키면: 학생은 엉뚱한 길로 헤매며 시간을 낭비합니다. (비효율적)
기초를 먼저 다진 후 (SFT) 강화 학습을 시키면: 학생은 이미 알고 있는 지식을 바탕으로, 어려운 문제 해결에 집중할 수 있습니다. (효율적)

비유하자면:

기존 방식: 초보 운전자가 복잡한 산길 (RL) 을 바로 운전하라고 시킨다. -> 사고가 나기 쉽고 배움이 느림.
DeReason 방식: 먼저 평지 (SFT) 에서 운전법과 차량 조작을 익히고, 그다음 복잡한 산길 (RL) 로 가서 고난도 운전 기술을 연마한다. -> 훨씬 안전하고 빠르게 실력이 늘음.

📊 실제 결과

이 방법을 적용한 모델은 다음과 같은 성과를 냈습니다.

쉬운 문제: 기초 지식을 잘 쌓아서 정답률이 높음.
어려운 문제: 스스로 추론하는 능력이 뛰어나서, 다른 모델들이 틀리는 문제도 맞힘.
전반적: 무작위로 문제를 섞어서 학습한 모델보다 훨씬 뛰어난 성능을 보였습니다.

💡 결론

이 논문은 **"인공지능을 가르칠 때, 모든 문제를 한 번에 다 가르치지 말고, 학생의 수준에 맞춰 '기초 지식'과 '고급 추론'을 나누어 가르쳐야 한다"**는 교훈을 줍니다.

단순히 더 많은 데이터를 주는 것이 아니라, 데이터를 '난이도'에 따라 잘게 나누어 (Decoupling) 적절한 시기에 적절한 방법으로 학습시키는 것이 인공지능을 진짜 천재로 만드는 비결이라는 것을 증명했습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 검증 가능한 보상 (Verifiable Rewards) 을 활용한 강화학습 (RLVR) 은 수학 및 코딩 분야에서 대형 언어 모델 (LLM) 의 추론 능력을 극대화하는 강력한 패러다임으로 부상했습니다. 최근 연구들은 이를 일반 과학 (STEM) 분야로 확장하려는 시도를 하고 있습니다.
문제점:
1. SFT 와 RL 의 역할 불명확: 일반 STEM 분야에서는 지도 미세조정 (SFT) 과 강화학습 (RL) 의 상호작용이 충분히 연구되지 않았습니다.
2. RL 의 비효율성: 베이스 모델에 직접 RL 을 적용하는 것은 샘플 효율성이 매우 낮으며, 중간 품질의 답변으로 SFT 를 수행하는 것보다 성능이 consistently 낮게 나타납니다.
3. 데이터 할당의 부재: SFT 와 RL 이 상호 보완적인 역할을 한다는 점은 알려져 있으나, 어떤 데이터를 어떤 단계 (SFT 또는 RL) 에 할당해야 최적의 성능을 낼지에 대한 체계적인 전략이 부족합니다. 기존 연구들은 주로 알고리즘적 개선에 집중했으나, 데이터 선택 (Data Selection) 수준에서의 최적화는 간과되었습니다.

2. 제안 방법: DeReason (Methodology)

저자들은 DeReason이라는 새로운difficulty 기반의 데이터 분해 (Decoupling) 전략을 제안합니다. 이는 학습 데이터를 '추론 강도 (Reasoning Intensity)'에 따라 분류하여 SFT 와 RL 단계에 각각 최적화된 데이터를 할당하는 커리큘럼 학습 방식입니다.

핵심 아이디어:
- SFT 단계: 지식 회상 (Knowledge Recall) 이나 단순한 사실 적용이 필요한 쉬운/광범위한 데이터를 할당합니다. 이는 강력한 교사 모델로부터 지식을 효율적으로 전이 (Distillation) 받기 위함입니다.
- RL 단계: 다단계 유도 및 복잡한 추론이 필요한 어려운/집중된 데이터를 할당합니다. 이는 모델이 교사 모델의 시연을 넘어 복잡한 추론 경로를 탐색하도록 유도하기 위함입니다.
구체적인 파이프라인:
1. 난이도 추정 (Difficulty Estimation): 학습 데이터의 각 문제에 대해 LLM (동일한 크기의 인스트럭트 모델) 을 사용하여 1 에서 5 까지의 난이도 점수를 부여합니다.
  - 점수 1~3: 주로 지식 회상이 필요한 문제.
  - 점수 4~5: 다단계 추론이 필요한 복잡한 문제.
2. 데이터 분할 (Data Partitioning):
  - $D_{SFT}$ : 난이도 점수가 낮은 (쉬운) 데이터셋.
  - $D_{RL}$ : 난이도 점수가 높은 (어려운) 데이터셋.
3. 커리큘럼 학습 (Curriculum Training):
  - 1 단계: $D_{SFT}$ 를 사용하여 베이스 모델을 SFT 합니다.
  - 2 단계: SFT 된 모델을 초기값으로 하여, $D_{RL}$ 에서 GRPO (Group Relative Policy Optimization) 를 적용한 RLVR 을 수행합니다.

3. 주요 기여 (Key Contributions)

SFT 와 RLVR 의 체계적 분석: 수학 및 일반 STEM 작업에 대해 통제된 실험을 수행하여, 작은 모델의 경우 SFT 가 순수 RLVR 보다 지식 습득과 콜드 스타트 (Cold-start) 메커니즘으로서 필수적임을 입증했습니다.
DeReason 커리큘럼 제안: 데이터를 난이도에 따라 분할하여 (쉬운 데이터는 SFT, 어려운 데이터는 RL) 학습하는 새로운 전략을 제시했습니다. 이는 무작위 분할이나 단일 단계 학습보다 성능이 월등히 뛰어납니다.
세부 행동 분석: 학습 역학에 대한 미세한 분석을 제공했습니다.
- 정책 엔트로피 (Policy Entropy): 베이스 모델에서 시작할 때 RL 은 엔트로피를 급격히 낮추어 결정론적 정책을 형성하는 반면, SFT 초기화 모델은 이미 좁혀진 분포를 유지하며 점진적으로 수렴함을 확인했습니다.
- 응답 길이 (Response Length): RL 학습 과정에서 모델이 고득점 답변은 길이를 유지하거나 늘리는 반면, 저득점 답변은 길이를 줄이는 (압축) 경향을 보임을 관찰했습니다.

4. 실험 결과 (Results)

실험 설정: Qwen3-4B 모델을 베이스로 하여 WebInstruct-Verified 와 Webscale-RL 데이터셋에서 실험 수행. 평가 벤치마크로는 MMLU-Pro, GPQA-Diamond, SuperGPQA, BBEH, AIME, MATH500 등이 사용되었습니다.
주요 결과:
- 성능 우위: DeReason (SFT on Easy + RL on Hard) 은 SFT-only, RL-only, 그리고 무작위 분할 (Random-split) 기반의 SFT-then-RL 베이스라인보다 모든 벤치마크에서 일관되게 우수한 성능을 보였습니다.
- 일반 STEM vs 수학:
  - 일반 STEM (GPQA 등): SFT-only 가 RL-only 보다 성능이 좋았으며, DeReason 전략이 이를 더 향상시켰습니다.
  - 수학 (AIME, MATH): DeReason 전략이 가장 높은 점수를 기록했습니다.
- 난이도별 차이: 지식 회상이 필요한 쉬운 벤치마크 (MMLU-Pro) 에서는 SFT-only 와의 격차가 작았으나, 복잡한 추론이 필요한 어려운 벤치마크 (BBEH) 에서는 DeReason 전략이 다른 모든 베이스라인을 압도하는 개선을 보여주었습니다.
- 샘플 효율성: 베이스 모델에 직접 RL 을 적용하는 것보다 SFT 를 먼저 거친 후 RL 을 적용하는 것이 훨씬 효율적임을 재확인했습니다.

5. 의의 및 결론 (Significance)

데이터 중심 접근의 중요성: 알고리즘을 변경하는 대신, 데이터의 선택과 할당을 최적화함으로써 SFT 와 RL 의 시너지를 극대화할 수 있음을 증명했습니다. 이는 기존 알고리즘 개선과 직교 (Orthogonal) 하는 접근법으로, 다양한 학습 프레임워크에 즉시 적용 가능합니다.
일반화된 후학습 (Post-training) 레시피: 일반 STEM 분야에서의 추론 능력 향상을 위해, "지식은 SFT 로, 복잡한 추론은 RL 로"라는 원칙을 따르는 체계적인 데이터 할당 전략을 제시했습니다.
미래 방향: 이 연구는 다단계 LLM 후학습에서 데이터 할당 전략에 대한 체계적인 연구를 장려하며, 추론 능력 향상을 위한 효율적이고 일반화된 방법론을 제공합니다.

요약하자면, 이 논문은 **난이도 인식 커리큘럼 (DeReason)**을 통해 SFT 와 RL 의 역할을 명확히 분리하고 데이터를 최적화함으로써, 일반 과학 및 수학 추론 분야에서 기존 방법론보다 뛰어난 성능을 달성하는 새로운 패러다임을 제시합니다.

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

🎓 비유: "지식 쌓기"와 "고난도 훈련"의 조화

🚫 기존 방식의 문제점: "무작위 섞기"

✅ DeReason 의 해결책: "난이도별 커리큘럼"

🌟 왜 이 방법이 더 좋은가요? (핵심 발견)

📊 실제 결과

💡 결론

1. 연구 배경 및 문제 제기 (Problem)

2. 제안 방법: DeReason (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models

Artificial Intelligence for Sentiment Analysis of Persian Poetry