Each language version is independently generated for its own context, not a direct translation.
🎓 비유: "지식 쌓기"와 "고난도 훈련"의 조화
이 논문의 주인공인 인공지능을 한 명의 학생이라고 상상해 보세요. 이 학생이 과학과 수학의 모든 문제를 해결하는 '천재'가 되려면 두 가지 훈련이 필요합니다.
- SFT (지도 학습): 선배나 선생님이 푼 정답 예제를 보고 따라 하는 훈련입니다.
- RL (강화 학습): 정답을 직접 찾아내고, 틀리면 다시 시도하며 스스로 고민하는 훈련입니다.
지금까지 많은 연구자들은 "강화 학습 (RL) 만 하면 무조건 더 똑똑해진다"고 믿었습니다. 하지만 이 논문의 연구자들은 **"아니요, 그건 틀렸습니다"**라고 말합니다.
🚫 기존 방식의 문제점: "무작위 섞기"
기존 방식은 학생에게 문제를 줄 때, 쉬운 문제부터 어려운 문제까지 무작위로 섞어서 주었습니다.
- 결과: 학생은 기본적인 과학 지식 (예: 물리 공식, 역사 연대기) 을 익히는 데 시간이 너무 오래 걸렸고, 강화 학습만으로는 그 기초 지식을 채우기엔 비효율적이었습니다. 마치 축구 선수가 기초 체력 훈련 없이 바로 월드컵 결승전 같은 고난도 경기만 치르려다 지쳐버리는 상황과 같습니다.
✅ DeReason 의 해결책: "난이도별 커리큘럼"
이 논문은 **"어떤 문제를, 언제, 어떻게 가르칠지"**를 지능적으로 나누는 DeReason을 제안합니다.
1 단계: 기초 다지기 (SFT)
- 대상: "기억력"이 필요한 쉬운 문제들 (예: "물의 끓는점은?", "피타고라스 정리는?").
- 방법: 선생님이 푼 정답을 보여주고 그대로 따라 하게 합니다.
- 이유: 이런 기초 지식은 스스로 시행착오를 겪으며 찾기보다, 정답을 보고 외우는 게 훨씬 빠르고 효율적입니다.
2 단계: 고난도 훈련 (RL)
- 대상: "추론"이 필요한 아주 어려운 문제들 (예: 복잡한 물리 문제, 여러 단계를 거쳐야 풀리는 수학 문제).
- 방법: 이제 학생이 스스로 고민하고, 틀리면 다시 시도하며 정답을 찾게 합니다.
- 이유: 기초 지식이 갖춰진 상태에서, 어려운 문제를 해결하는 '사고력'을 기르는 데는 강화 학습이 가장 효과적입니다.
🌟 왜 이 방법이 더 좋은가요? (핵심 발견)
연구자들은 실험을 통해 놀라운 사실을 발견했습니다.
- 기초가 없는 상태 (Base Model) 에서 강화 학습만 시키면: 학생은 엉뚱한 길로 헤매며 시간을 낭비합니다. (비효율적)
- 기초를 먼저 다진 후 (SFT) 강화 학습을 시키면: 학생은 이미 알고 있는 지식을 바탕으로, 어려운 문제 해결에 집중할 수 있습니다. (효율적)
비유하자면:
기존 방식: 초보 운전자가 복잡한 산길 (RL) 을 바로 운전하라고 시킨다. -> 사고가 나기 쉽고 배움이 느림.
DeReason 방식: 먼저 평지 (SFT) 에서 운전법과 차량 조작을 익히고, 그다음 복잡한 산길 (RL) 로 가서 고난도 운전 기술을 연마한다. -> 훨씬 안전하고 빠르게 실력이 늘음.
📊 실제 결과
이 방법을 적용한 모델은 다음과 같은 성과를 냈습니다.
- 쉬운 문제: 기초 지식을 잘 쌓아서 정답률이 높음.
- 어려운 문제: 스스로 추론하는 능력이 뛰어나서, 다른 모델들이 틀리는 문제도 맞힘.
- 전반적: 무작위로 문제를 섞어서 학습한 모델보다 훨씬 뛰어난 성능을 보였습니다.
💡 결론
이 논문은 **"인공지능을 가르칠 때, 모든 문제를 한 번에 다 가르치지 말고, 학생의 수준에 맞춰 '기초 지식'과 '고급 추론'을 나누어 가르쳐야 한다"**는 교훈을 줍니다.
단순히 더 많은 데이터를 주는 것이 아니라, 데이터를 '난이도'에 따라 잘게 나누어 (Decoupling) 적절한 시기에 적절한 방법으로 학습시키는 것이 인공지능을 진짜 천재로 만드는 비결이라는 것을 증명했습니다.