Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

이 논문은 언어 모델의 추론 능력을 향상시키기 위해 쉬운 작업에서 어려운 작업으로 점진적으로 학습하는 커리큘럼 강화학습 방법인 E2H Reasoner 를 제안하며, 이를 통해 소규모 모델에서도 기존 강화학습 단독 학습보다 우수한 성능을 달성하고 이론적 수렴 보장을 입증했습니다.

Shubham Parashar, Shurui Gui, Xiner Li, Hongyi Ling, Sushil Vemuri, Blake Olson, Eric Li, Yu Zhang, James Caverlee, Dileep Kalathil, Shuiwang Ji

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

쉬운 것부터 어려운 것까지: AI 의 '두뇌'를 키우는 새로운 비법

이 논문은 인공지능 (AI) 이 복잡한 문제를 해결하는 '추론 능력'을 어떻게 더 잘 기를 수 있는지에 대한 새로운 방법을 제안합니다. 제목은 **'E2H Reasoner(쉬운 것에서 어려운 것까지 학습하는 AI)'**입니다.

이 내용을 일반인도 쉽게 이해할 수 있도록 비유와 이야기로 풀어보겠습니다.


1. 문제: 왜 AI 는 어려운 문제를 못 할까요?

지금까지 AI 를 가르칠 때, 어려운 수학 문제복잡한 코딩을 바로 던져주곤 했습니다. 하지만 AI 는 처음부터 이런 문제를 풀면 "무슨 말인지 모르겠다"며 포기하거나, 엉뚱한 답을 내놓습니다.

  • 비유: 마치 초등학생에게 바로 '대학원 수준의 미적분'을 가르치고 "이거 풀어봐"라고 하는 것과 같습니다. 학생은 당황할 뿐, 진짜 실력이 늘지 않습니다.
  • 기존 방법의 한계: AI 가 실수를 하면 점수를 주지 않는 '강화 학습 (RL)' 방식을 썼는데, 어려운 문제만 주면 AI 가 점수를 한 번도 못 받아서 학습이 멈춰버립니다. (너무 어렵기 때문에)

2. 해결책: '커리큘럼 학습 (E2H)'의 등장

이 논문은 인간이 배우는 방식을 AI 에게 적용했습니다. 바로 **'쉬운 것부터 시작해서 점차 어려운 것까지'**라는 방식입니다.

  • 비유:
    • 기존 방식: 수영을 배우는데 바로 '깊은 바다'로 뛰어들게 하는 것. (물론 익사할 확률이 높습니다.)
    • 이 방법 (E2H): 먼저 수영장 가장자리에서 발을 담그고 (쉬운 문제), 그다음 얕은 물에서 발을 놀리고 (중간 문제), 마지막으로 깊은 물에서 헤엄치는 (어려운 문제) 순서로 가르치는 것입니다.

이렇게 단계별로 배우면 AI 는 기초 체력을 기르고, 나중에 어려운 문제를 마주했을 때 "아, 이건 전에 배운 원리를 응용하면 되겠구나!"라고 깨닫게 됩니다.

3. 핵심 기술: '학습 스케줄러' (언제, 무엇을 가르칠지 정하는 선생님)

단순히 쉬운 것부터 어려운 것까지 순서대로만 가르친다면 또 다른 문제가 생깁니다.

  • 문제 1 (잊어버림): 어려운 문제로 넘어가면, 이전에 배운 쉬운 내용을 잊어버릴 수 있습니다.
  • 문제 2 (게으름): 쉬운 문제만 계속 풀면, AI 가 "어려운 문제 안 해도 돼, 쉬운 거로 점수 다 따면 되지"라고 생각하며 게을러질 수 있습니다. (이를 '보상 해킹'이라고 합니다.)

이를 해결하기 위해 논문은 두 가지 '스케줄링 (학습 일정)' 전략을 제안합니다.

A. 코사인 스케줄링 (E2H-C)

  • 비유: 서서히 기울어지는 경사길을 걷는 것.
  • 처음에는 쉬운 문제를 많이 풀게 하고, 시간이 지날수록 자연스럽게 어려운 문제의 비중을 늘려갑니다. 너무 급격하게 변하지 않아 AI 가 적응하기 좋습니다.

B. 가우시안 스케줄링 (E2H-G)

  • 비유: 초반에 집중하다가 빠르게 전환하는 스프린트.
  • 쉬운 문제는 아주 초반에만 집중적으로 풀게 하고, 중반부터는 빠르게 어려운 문제로 넘어가게 합니다. AI 가 쉬운 문제에 너무 익숙해져서 게을러지는 것을 막아줍니다.

4. 실험 결과: 작은 AI 도 천재가 될 수 있다?

이론적으로만 좋은 게 아니라, 실제로 실험해 보니 놀라운 결과가 나왔습니다.

  • 결과: 원래는 아주 간단한 문제만 풀던 작은 AI 모델 (15 억~30 억 개의 파라미터) 이도, 이 방법으로 훈련하자 매우 어려운 수학 경시대회 문제복잡한 계획 수립 문제를 해결할 수 있게 되었습니다.
  • 비유: 작은 강아지 (작은 AI) 가 훈련을 통해 사냥개 (큰 AI) 못지않은 실력을 갖추게 된 것과 같습니다.
  • 효율성: 어려운 문제만 쑥쑥 가르치는 것보다, 쉬운 문제부터 차근차근 가르치는 것이 더 적은 데이터와 시간으로 더 좋은 결과를 냈습니다.

5. 결론: 왜 이 연구가 중요한가요?

이 논문은 AI 를 가르칠 때 **"무조건 어려운 걸부터 시키지 말고, 단계별로 가르쳐라"**는 단순하지만 강력한 진리를 증명했습니다.

  • 핵심 메시지: AI 의 두뇌를 키우려면 기초를 탄탄히 다지는 과정이 필수적입니다.
  • 미래 전망: 이 방법을 사용하면, 거대한 슈퍼컴퓨터가 아니더라도 작고 가벼운 AI 모델도 복잡한 문제를 해결할 수 있게 되어, 더 많은 사람이 고성능 AI 를 쉽게 이용할 수 있게 될 것입니다.

한 줄 요약:

"AI 에게 어려운 문제를 바로 던지지 말고, 쉬운 문제부터 차근차근 가르쳐주면, 작은 AI 도 천재처럼 복잡한 문제를 해결할 수 있게 됩니다!"

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →