Each language version is independently generated for its own context, not a direct translation.

쉬운 것부터 어려운 것까지: AI 의 '두뇌'를 키우는 새로운 비법

이 논문은 인공지능 (AI) 이 복잡한 문제를 해결하는 '추론 능력'을 어떻게 더 잘 기를 수 있는지에 대한 새로운 방법을 제안합니다. 제목은 **'E2H Reasoner(쉬운 것에서 어려운 것까지 학습하는 AI)'**입니다.

이 내용을 일반인도 쉽게 이해할 수 있도록 비유와 이야기로 풀어보겠습니다.

1. 문제: 왜 AI 는 어려운 문제를 못 할까요?

지금까지 AI 를 가르칠 때, 어려운 수학 문제나 복잡한 코딩을 바로 던져주곤 했습니다. 하지만 AI 는 처음부터 이런 문제를 풀면 "무슨 말인지 모르겠다"며 포기하거나, 엉뚱한 답을 내놓습니다.

비유: 마치 초등학생에게 바로 '대학원 수준의 미적분'을 가르치고 "이거 풀어봐"라고 하는 것과 같습니다. 학생은 당황할 뿐, 진짜 실력이 늘지 않습니다.
기존 방법의 한계: AI 가 실수를 하면 점수를 주지 않는 '강화 학습 (RL)' 방식을 썼는데, 어려운 문제만 주면 AI 가 점수를 한 번도 못 받아서 학습이 멈춰버립니다. (너무 어렵기 때문에)

2. 해결책: '커리큘럼 학습 (E2H)'의 등장

이 논문은 인간이 배우는 방식을 AI 에게 적용했습니다. 바로 **'쉬운 것부터 시작해서 점차 어려운 것까지'**라는 방식입니다.

비유:
- 기존 방식: 수영을 배우는데 바로 '깊은 바다'로 뛰어들게 하는 것. (물론 익사할 확률이 높습니다.)
- 이 방법 (E2H): 먼저 수영장 가장자리에서 발을 담그고 (쉬운 문제), 그다음 얕은 물에서 발을 놀리고 (중간 문제), 마지막으로 깊은 물에서 헤엄치는 (어려운 문제) 순서로 가르치는 것입니다.

이렇게 단계별로 배우면 AI 는 기초 체력을 기르고, 나중에 어려운 문제를 마주했을 때 "아, 이건 전에 배운 원리를 응용하면 되겠구나!"라고 깨닫게 됩니다.

3. 핵심 기술: '학습 스케줄러' (언제, 무엇을 가르칠지 정하는 선생님)

단순히 쉬운 것부터 어려운 것까지 순서대로만 가르친다면 또 다른 문제가 생깁니다.

문제 1 (잊어버림): 어려운 문제로 넘어가면, 이전에 배운 쉬운 내용을 잊어버릴 수 있습니다.
문제 2 (게으름): 쉬운 문제만 계속 풀면, AI 가 "어려운 문제 안 해도 돼, 쉬운 거로 점수 다 따면 되지"라고 생각하며 게을러질 수 있습니다. (이를 '보상 해킹'이라고 합니다.)

이를 해결하기 위해 논문은 두 가지 '스케줄링 (학습 일정)' 전략을 제안합니다.

A. 코사인 스케줄링 (E2H-C)

비유: 서서히 기울어지는 경사길을 걷는 것.
처음에는 쉬운 문제를 많이 풀게 하고, 시간이 지날수록 자연스럽게 어려운 문제의 비중을 늘려갑니다. 너무 급격하게 변하지 않아 AI 가 적응하기 좋습니다.

B. 가우시안 스케줄링 (E2H-G)

비유: 초반에 집중하다가 빠르게 전환하는 스프린트.
쉬운 문제는 아주 초반에만 집중적으로 풀게 하고, 중반부터는 빠르게 어려운 문제로 넘어가게 합니다. AI 가 쉬운 문제에 너무 익숙해져서 게을러지는 것을 막아줍니다.

4. 실험 결과: 작은 AI 도 천재가 될 수 있다?

이론적으로만 좋은 게 아니라, 실제로 실험해 보니 놀라운 결과가 나왔습니다.

결과: 원래는 아주 간단한 문제만 풀던 작은 AI 모델 (15 억~30 억 개의 파라미터) 이도, 이 방법으로 훈련하자 매우 어려운 수학 경시대회 문제나 복잡한 계획 수립 문제를 해결할 수 있게 되었습니다.
비유: 작은 강아지 (작은 AI) 가 훈련을 통해 사냥개 (큰 AI) 못지않은 실력을 갖추게 된 것과 같습니다.
효율성: 어려운 문제만 쑥쑥 가르치는 것보다, 쉬운 문제부터 차근차근 가르치는 것이 더 적은 데이터와 시간으로 더 좋은 결과를 냈습니다.

5. 결론: 왜 이 연구가 중요한가요?

이 논문은 AI 를 가르칠 때 **"무조건 어려운 걸부터 시키지 말고, 단계별로 가르쳐라"**는 단순하지만 강력한 진리를 증명했습니다.

핵심 메시지: AI 의 두뇌를 키우려면 기초를 탄탄히 다지는 과정이 필수적입니다.
미래 전망: 이 방법을 사용하면, 거대한 슈퍼컴퓨터가 아니더라도 작고 가벼운 AI 모델도 복잡한 문제를 해결할 수 있게 되어, 더 많은 사람이 고성능 AI 를 쉽게 이용할 수 있게 될 것입니다.

한 줄 요약:

"AI 에게 어려운 문제를 바로 던지지 말고, 쉬운 문제부터 차근차근 가르쳐주면, 작은 AI 도 천재처럼 복잡한 문제를 해결할 수 있게 됩니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 의 추론 능력을 향상시키기 위해 강화 학습 (RL) 이 널리 사용되고 있지만 (예: DeepSeek-R1, OpenAI o1), 기존 RL 기반 후학습 (Post-training) 방법론에는 다음과 같은 근본적인 한계가 존재합니다.

희소 보상 (Sparse Reward) 문제: RL 은 정답일 때만 보상을 받기 때문에, 사전 학습된 모델이 제로샷 (Zero-shot) 성능이 낮은 난이도 높은 작업에서는 학습 신호가 매우 희소하여 학습이 어렵습니다.
분포 간극 (Distribution Gap): 사전 학습 데이터 분포와 목표하는 난이도 높은 작업 분포 사이의 차이가 크면, 모델이 직접적인 학습을 시도할 때 과적합 (Overfitting) 이나 일반화 실패가 발생합니다.
기존 커리큘럼 학습의 부족: 기존 커리큘럼 학습 (Curriculum Learning) 은 단순히 '쉬운 작업 → 어려운 작업' 순서로 고정된 단계로 전환하는 방식을 사용하는데, 이는 이전 단계의 작업을 잊어버리게 하거나 (Task Forgetting), 쉬운 작업에 과도하게 적응하여 복잡한 추론을 배우지 못하는 (Reward Hacking) 문제를 야기합니다.

2. 방법론 (Methodology)

저자들은 E2H Reasoner (Easy-to-Hard Reasoner) 라는 새로운 커리큘럼 강화 학습 (CRL) 프레임워크를 제안합니다. 이는 작업을 난이도별로 분해하고, 확률적 스케줄링을 통해 모델이 점진적으로 추론 능력을 구축하도록 유도합니다.

가. 작업 분해 (Task Decomposition)

학습 데이터를 인간 주석이나 모델의 오류율을 기반으로 난이도별로 4 단계로 분할합니다.

단계: Trivial (매우 쉬움) → Easy → Medium → Hard.
목적: 복잡한 추론 작업을 단순한 단계로 나누어 모델이 핵심 원리를 먼저 학습한 후, 이를 더 어려운 작업에 적용할 수 있도록 합니다.
- 예시: Countdown 작업에서 2 개의 숫자만 사용하는 문제 (Trivial) 로 시작하여 6 개의 숫자를 사용하는 문제 (Hard) 로 점진적으로 확장.

나. 학습 스케줄링 전략 (Training Schedulers)

단순한 순차적 전환을 피하고, 과적합과 망각을 방지하기 위해 두 가지 확률적 스케줄링 전략을 도입합니다.

Cosine Scheduler (E2H-C):
- 코사인 함수를 사용하여 학습 초기에는 쉬운 작업의 샘플링 확률이 높고, 학습이 진행됨에 따라 어려운 작업으로 자연스럽게 전환됩니다.
- 매개변수 없이 적용 가능하며, MATH 와 같이 모든 난이도에서 어느 정도 성능이 나오는 작업에 효과적입니다.
Gaussian Scheduler (E2H-G):
- 가우시안 혼합 모델을 기반으로 한 전략으로, 쉬운 작업에 대한 샘플링 확률을 학습 초기에 빠르게 감소시키고 어려운 작업으로 집중합니다.
- 핵심 이점: Blocksworld 와 같이 보상이 희소한 작업에서 쉬운 작업에 과적합되는 것을 방지하고, 모델이 어려운 작업에 더 오래 집중하도록 유도하여 일반화 성능을 극대화합니다.
- 두 하이퍼파라미터 ( $\sigma$ : 분산, $\beta$ : 이동 속도) 를 통해 학습 과정을 미세 조정할 수 있습니다.

다. 이론적 분석 (Theoretical Analysis)

Approximate Policy Iteration (API) 프레임워크를 기반으로 E2H Reasoner 의 수렴성을 증명했습니다.
유한 샘플 복잡도 (Finite-sample Complexity): 잘 설계된 커리큘럼을 사용하면, 난이도 높은 작업에 직접 학습하는 것보다 적은 총 샘플 수로 목표 성능에 도달할 수 있음을 수학적으로 보였습니다. 이는 커리큘럼이 분포 간극을 줄이고 추정 오차를 감소시켜 샘플 효율성을 높이기 때문입니다.

3. 주요 기여 (Key Contributions)

E2H Reasoner 제안: LLM 이 초기에 제로샷으로 실패했던 난이도 높은 작업도 학습할 수 있도록, '쉬운 작업에서 어려운 작업'으로 점진적으로 전환하는 확률적 커리큘럼 RL 방법론을 제시했습니다.
이론적 보장: 커리큘럼 RL 이 직접 학습 (Direct Learning) 대비 샘플 효율성이 높고 수렴 보장을 가진다는 것을 API 프레임워크 하에 증명했습니다.
실증적 성과: 다양한 모델 (Qwen 1.5B, LLaMA 3.2 3B 등) 과 벤치마크 (Blocksworld, Countdown, MATH, GSM8K, AQuA) 에서 기존 RL 방법론 (GRPO, Self-Evolve 등) 과 비교하여 우수한 성능을 입증했습니다.
작은 모델의 추론 능력 증대: 소규모 LLM 이도 체계적인 커리큘럼을 통해 복잡한 추론 능력을 습득할 수 있음을 보여주었습니다.

4. 실험 결과 (Results)

성능 향상: E2H Reasoner 는 Blocksworld, Countdown, MATH 등 5 가지 추론 작업에서 State-of-the-Art (SOTA) 성능을 기록했습니다. 특히 난이도 높은 (Hard) 및 분포 외 (OOD) 작업에서 기존 베이스라인 대비 큰 개선을 보였습니다.
- 예시: LLaMA 3.2 3B 모델의 경우, E2H-G 를 적용한 후 Countdown 작업에서 Hard 난이도 성능이 47.9% 에서 73.3% 로 크게 향상되었습니다.
작업 분해의 중요성: Table 1 에서 보듯, Trivial 및 Easy 작업을 포함하지 않고 Hard 작업만 학습한 경우 (GRPO Hard) 성능이 현저히 떨어졌으며, 쉬운 작업을 포함한 커리큘럼 학습이 핵심 원리 습득에 필수적임을 확인했습니다.
스케줄링 전략 비교:
- E2H-G: 희소 보상이 있는 작업 (Blocksworld) 에서 과적합을 방지하고 일반화 성능을 높이는 데 가장 효과적이었습니다.
- E2H-C: 보상이 비교적 풍부한 작업 (MATH) 에서 효과적이었습니다.
DAPO 와의 결합: DAPO (Adaptive sampling) 와 E2H 를 결합하면 학습 중 'Advantage 가 0 인 배치'의 비율이 감소하여, 모델의 현재 능력에 더 잘 맞는 정보를 학습하게 됨을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 추론 능력 향상을 위해 단순한 RL 후학습을 넘어 체계적인 커리큘럼 학습의 필요성을 강조합니다.

실용성: 인간 주석이 없는 데이터셋에서도 모델의 오류율을 기반으로 난이도를 자동 분류하여 적용 가능하므로, 다양한 도메인에 확장성이 있습니다.
이론적 기반: 경험적 성과뿐만 아니라 수렴성과 샘플 효율성에 대한 이론적 근거를 제공하여, 커리큘럼 RL 의 신뢰성을 높였습니다.
소규모 모델의 가능성: 대규모 모델이 아닌 소규모 모델 (1.5B~3B) 이도 적절한 학습 전략을 통해 복잡한 추론 과제를 해결할 수 있음을 보여주어, 비용 효율적인 AI 개발에 기여합니다.

결론적으로, E2H Reasoner는 LLM 이 복잡한 추론 문제를 해결하는 능력을 점진적으로 구축하도록 돕는 확장 가능하고 이론적으로 검증된 프레임워크를 제공합니다.

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning