Each language version is independently generated for its own context, not a direct translation.
이 논문은 **"코딩을 잘하는 AI(모델) 가 더 똑똑해지려면 어떻게 훈련시켜야 할까?"**라는 질문에 대한 답을 찾은 연구입니다.
기존의 방법으로는 최신 AI 가 가진 '긴 생각'과 '복잡한 문제 해결' 능력을 끌어올리기 어려웠는데, 이 연구팀은 새로운 훈련 방법, 더 어려운 교재, 그리고 더 정확한 채점 시스템을 만들어 문제를 해결했습니다.
이 내용을 일상적인 비유로 설명해 드릴게요.
1. 문제 상황: "옛날 교재로는 최신 학생을 가르칠 수 없다"
과거의 AI 코딩 훈련 방식은 마치 초등학교 학생에게 고등학교 수학 문제를 가르치려다 실패한 상황과 비슷했습니다.
- 옛날 방식: AI 가 코드를 작성할 때, 너무 길게 쓰면 "짧게 써!"라고 막았습니다. 하지만 최신 AI 는 복잡한 문제를 풀려면 긴 설명과 긴 코드가 필요합니다.
- 결과: 최신 AI (Qwen 3 등) 를 옛날 방식으로 훈련시키면, AI 는 "이건 너무 쉬워"라고 생각하거나, 반대로 "어떻게 써야 할지 모르겠어"라고 혼란을 겪으며 실력이 늘지 않았습니다.
2. 해결책: "MicroCoder-GRPO" (새로운 훈련 시스템)
연구팀은 이 문제를 해결하기 위해 세 가지 혁신적인 훈련 규칙을 만들었습니다.
① "긴 답안도 인정해 주는 '조건부 잘라내기'"
- 비유: 시험을 치는데, 답이 너무 길어서 종이가 다 찢어지면 (최대 길이 도달) 점수를 아예 0 점으로 처리하는 옛날 방식이 있었습니다.
- 새 규칙: "너무 길어서 잘려도, 정답에 가깝고 (오류가 없고), 중복되지 않는다면 점수를 줘!"라고 규칙을 바꿨습니다.
- 효과: AI 가 "아, 내가 길게 써도 괜찮구나"라고 생각하며 더 깊고 복잡한 코드를 작성할 수 있게 되었습니다.
② "적당한 '온도 조절'으로 창의성 유지"
- 비유: AI 의 '온도 (Temperature)'는 창의성을 조절하는 버튼입니다. 온도가 너무 낮으면 (0.6) 똑같은 답만 반복하고, 너무 높으면 (1.8) 엉뚱한 소리를 합니다.
- 새 규칙: 훈련 초기에는 차분하게 (낮은 온도) 시작하다가, AI 가 안정화되면 조금 더 자유롭게 (높은 온도) 생각하게 해주는 동적 온도 조절을 도입했습니다.
- 효과: AI 가 지루하게 같은 코드만 짜지 않고, 다양한 해결책을 시도하도록 유도했습니다.
③ "과도한 '규제' 제거와 '높은 장벽'"
- 비유: 기존에는 AI 가 원래의 성격을 잃지 않도록 (KL Loss) 너무 강하게 통제했습니다. 하지만 최신 AI 는 이미 충분히 똑똑하므로, 이제 그 규제를 없애고 오직 '정답'과 '다양성'만 추구하게 했습니다.
- 새 규칙: 규제 (KL Loss) 를 없애고, 실수가 나더라도 바로 멈추지 않고 계속 시도하게 하는 '높은 장벽 (High Clipping)'을 적용했습니다.
- 효과: AI 가 더 자유롭게 실험하며, 더 다양하고 긴 코드를 만들어낼 수 있게 되었습니다.
3. 새로운 교재와 채점 시스템
단순히 훈련 방법만 바꾼 게 아니라, 교재와 채점관도 바꿨습니다.
- MicroCoder-Dataset (새로운 교재):
- 기존 교재 (DeepCoder) 는 최신 AI 에겐 너무 쉬워서 "아, 이거 내가 이미 다 알고 있어"라며 실력이 늘지 않았습니다.
- 연구팀은 훨씬 더 어렵고 복잡한 문제로 가득 찬 새로운 교재를 만들었습니다. 이 교재로 훈련하니, AI 는 짧은 시간 (300 단계) 에 기존 교재보다 3 배나 더 큰 실력 향상을 보였습니다.
- MicroCoder-Evaluator (새로운 채점관):
- 기존 채점관은 "정답과 100% 똑같아야 점수"라고 해서, 의미는 같은데 띄어쓰기나 형식이 조금 다른 정답도 틀리게 처리했습니다.
- 새로운 채점관은 유연하게 정답을 판단합니다. (예:
1.0과1.0001을 같은 것으로 인정). - 효과: AI 가 "내가 맞았구나"라는 정확한 피드백을 받아 훈련 속도가 40% 빨라지고, 실수 없이 더 잘 성장했습니다.
4. 결론: "작은 AI 도 큰 AI 를 이길 수 있다"
이 연구의 가장 큰 성과는 적은 비용으로 더 좋은 성능을 냈다는 점입니다.
- 결과: 이 새로운 방법으로 훈련한 작은 AI(4B 모델) 는, 기존 방법으로 훈련한 큰 AI 들보다 LiveCodeBench라는 시험에서 17.6% 더 높은 점수를 받았습니다.
- 의미: 단순히 AI 를 키우는 것 (규모 확장) 만이 답이 아니라, 어떻게 훈련시키느냐 (훈련 방법) 가 훨씬 중요하다는 것을 증명했습니다.
한 줄 요약:
"최신 AI 코딩 모델을 가르칠 때는, 더 어려운 문제를 주고, 긴 답을 허용하며, 창의적인 사고를 장려하는 새로운 훈련 시스템이 필요합니다."