Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"코딩을 잘하는 AI(모델) 가 더 똑똑해지려면 어떻게 훈련시켜야 할까?"**라는 질문에 대한 답을 찾은 연구입니다.

기존의 방법으로는 최신 AI 가 가진 '긴 생각'과 '복잡한 문제 해결' 능력을 끌어올리기 어려웠는데, 이 연구팀은 새로운 훈련 방법, 더 어려운 교재, 그리고 더 정확한 채점 시스템을 만들어 문제를 해결했습니다.

이 내용을 일상적인 비유로 설명해 드릴게요.

1. 문제 상황: "옛날 교재로는 최신 학생을 가르칠 수 없다"

과거의 AI 코딩 훈련 방식은 마치 초등학교 학생에게 고등학교 수학 문제를 가르치려다 실패한 상황과 비슷했습니다.

옛날 방식: AI 가 코드를 작성할 때, 너무 길게 쓰면 "짧게 써!"라고 막았습니다. 하지만 최신 AI 는 복잡한 문제를 풀려면 긴 설명과 긴 코드가 필요합니다.
결과: 최신 AI (Qwen 3 등) 를 옛날 방식으로 훈련시키면, AI 는 "이건 너무 쉬워"라고 생각하거나, 반대로 "어떻게 써야 할지 모르겠어"라고 혼란을 겪으며 실력이 늘지 않았습니다.

2. 해결책: "MicroCoder-GRPO" (새로운 훈련 시스템)

연구팀은 이 문제를 해결하기 위해 세 가지 혁신적인 훈련 규칙을 만들었습니다.

① "긴 답안도 인정해 주는 '조건부 잘라내기'"

비유: 시험을 치는데, 답이 너무 길어서 종이가 다 찢어지면 (최대 길이 도달) 점수를 아예 0 점으로 처리하는 옛날 방식이 있었습니다.
새 규칙: "너무 길어서 잘려도, 정답에 가깝고 (오류가 없고), 중복되지 않는다면 점수를 줘!"라고 규칙을 바꿨습니다.
효과: AI 가 "아, 내가 길게 써도 괜찮구나"라고 생각하며 더 깊고 복잡한 코드를 작성할 수 있게 되었습니다.

② "적당한 '온도 조절'으로 창의성 유지"

비유: AI 의 '온도 (Temperature)'는 창의성을 조절하는 버튼입니다. 온도가 너무 낮으면 (0.6) 똑같은 답만 반복하고, 너무 높으면 (1.8) 엉뚱한 소리를 합니다.
새 규칙: 훈련 초기에는 차분하게 (낮은 온도) 시작하다가, AI 가 안정화되면 조금 더 자유롭게 (높은 온도) 생각하게 해주는 동적 온도 조절을 도입했습니다.
효과: AI 가 지루하게 같은 코드만 짜지 않고, 다양한 해결책을 시도하도록 유도했습니다.

③ "과도한 '규제' 제거와 '높은 장벽'"

비유: 기존에는 AI 가 원래의 성격을 잃지 않도록 (KL Loss) 너무 강하게 통제했습니다. 하지만 최신 AI 는 이미 충분히 똑똑하므로, 이제 그 규제를 없애고 오직 '정답'과 '다양성'만 추구하게 했습니다.
새 규칙: 규제 (KL Loss) 를 없애고, 실수가 나더라도 바로 멈추지 않고 계속 시도하게 하는 '높은 장벽 (High Clipping)'을 적용했습니다.
효과: AI 가 더 자유롭게 실험하며, 더 다양하고 긴 코드를 만들어낼 수 있게 되었습니다.

3. 새로운 교재와 채점 시스템

단순히 훈련 방법만 바꾼 게 아니라, 교재와 채점관도 바꿨습니다.

MicroCoder-Dataset (새로운 교재):
- 기존 교재 (DeepCoder) 는 최신 AI 에겐 너무 쉬워서 "아, 이거 내가 이미 다 알고 있어"라며 실력이 늘지 않았습니다.
- 연구팀은 훨씬 더 어렵고 복잡한 문제로 가득 찬 새로운 교재를 만들었습니다. 이 교재로 훈련하니, AI 는 짧은 시간 (300 단계) 에 기존 교재보다 3 배나 더 큰 실력 향상을 보였습니다.
MicroCoder-Evaluator (새로운 채점관):
- 기존 채점관은 "정답과 100% 똑같아야 점수"라고 해서, 의미는 같은데 띄어쓰기나 형식이 조금 다른 정답도 틀리게 처리했습니다.
- 새로운 채점관은 유연하게 정답을 판단합니다. (예: 1.0 과 1.0001 을 같은 것으로 인정).
- 효과: AI 가 "내가 맞았구나"라는 정확한 피드백을 받아 훈련 속도가 40% 빨라지고, 실수 없이 더 잘 성장했습니다.

4. 결론: "작은 AI 도 큰 AI 를 이길 수 있다"

이 연구의 가장 큰 성과는 적은 비용으로 더 좋은 성능을 냈다는 점입니다.

결과: 이 새로운 방법으로 훈련한 작은 AI(4B 모델) 는, 기존 방법으로 훈련한 큰 AI 들보다 LiveCodeBench라는 시험에서 17.6% 더 높은 점수를 받았습니다.
의미: 단순히 AI 를 키우는 것 (규모 확장) 만이 답이 아니라, 어떻게 훈련시키느냐 (훈련 방법) 가 훨씬 중요하다는 것을 증명했습니다.

한 줄 요약:

"최신 AI 코딩 모델을 가르칠 때는, 더 어려운 문제를 주고, 긴 답을 허용하며, 창의적인 사고를 장려하는 새로운 훈련 시스템이 필요합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현대적인 코드 생성 모델 (예: Qwen 3 시리즈) 은 이전 세대 모델에 비해 **더 긴 출력 (longer outputs)**을 생성하고, 가속화된 능력 성장을 보이며, 변화된 학습 역학을 가집니다. 이러한 변화로 인해 기존에 사용되던 전통적인 학습 방법론, 알고리즘, 데이터셋은 현대 모델의 성능 향상에 더 이상 효과적이지 않습니다.

주요 병목 현상은 다음과 같습니다:

기존 데이터셋의 부적합성: DeepCoder 와 같은 주류 데이터셋은 Qwen 2.5 에서는 효과적이지만, 추론 능력이 뛰어난 Qwen 3 에서는 상대적으로 너무 쉬워 성능 향상이 미미합니다.
출력 길이와 안정성의 모순: 긴 코드를 생성하도록 유도하면 학습이 불안정해지거나, 반대로 안정성을 유지하려 하면 출력 길이가 짧아져 복잡한 문제를 해결하지 못합니다.
다양성 감소: 강화 학습 (RL) 과정에서 모델의 출력 다양성이 급격히 감소하여 학습이 실패하거나 성능이 저하되는 현상이 발생합니다.

2. 제안 방법론 (Methodology)

저자들은 이러한 병목 현상을 해결하기 위해 MicroCoder-GRPO를 제안했습니다. 이는 그룹 상대적 정책 최적화 (GRPO) 알고리즘을 코드 생성 작업에 특화되도록 개선한 것으로, 세 가지 핵심 혁신을 포함합니다.

A. 조건부 절단 마스킹 (Conditional Truncation Masking)

목적: 긴 출력 생성 잠재력을 확보하면서도 학습 안정성을 유지합니다.
메커니즘: 최대 길이 ( $L_{max}$ ) 에 도달한 응답 중, 정답이 아닌 경우, 반복 시퀀스를 포함하는 경우, 무작위로 선택된 비율 ( $\rho$ ) 을 만족하는 경우에 한해 이득 점수 (advantage score) 를 0 으로 설정합니다.
효과: 단순히 모든 최대 길이 응답을 마스킹하는 것보다 학습 안정성을 높이고, 수렴 시 성능을 극대화합니다.

B. 다양성 기반 온도 선택 (Diversity-determined Temperature Selection)

목적: 학습 초기부터 출력 다양성이 급격히 감소하여 학습이 실패하는 것을 방지합니다.
메커니즘: 모델의 초기 출력 다양성 값과 추세를 기반으로 학습 온도 ( $T$ $T$ ) 를 결정합니다.
- 초기 다양성이 낮아지는 경향이 보이면 온도를 조정하여 다양성 감소를 막습니다.
- 동적 온도 스케줄링: 초기에는 낮은 온도로 학습하여 안정성을 확보한 후, 고온 단계로 전환하여 다양성을 유지하는 전략을 사용합니다.
효과: 고정된 온도 (예: 0.6) 를 사용할 때 발생하는 학습 실패를 방지하고, 고온 (예: 1.8) 에서도 안정적인 학습을 가능하게 합니다.

C. KL 손실 제거 및 높은 클리핑 비율 (No KL Loss and High Clip Ratio)

목적: 출력 다양성과 응답 길이 성장을 촉진합니다.
메커니즘: KL 발산 손실 (KL Loss) 을 제거 ( $\beta_0 = 0$ ) 하고, DAPO 에서와 같이 높은 클리핑 비율 ( $\epsilon_{high}$ ) 을 적용합니다.
효과: KL 손실이 출력 다양성을 억제하고 응답 길이를 제한하는 것을 방지하여, 지속적인 성능 향상과 긴 코드 생성을 가능하게 합니다.

3. 주요 기여 (Key Contributions)

알고리즘 혁신 (MicroCoder-GRPO):
- 위 세 가지 기법을 결합하여 LiveCodeBench v6 에서 강력한 베이스라인 대비 최대 17.6% 의 상대적 개선을 달성했습니다. 특히 확장된 컨텍스트 (Extended Context) 평가에서 더 큰 이점을 보였습니다.
고품질 데이터셋 구축 (MicroCoder-Dataset):
- DeepCoder 보다 더 어렵고 고품질인 학습 코퍼스입니다.
- 300 스텝 학습 시 DeepCoder 대비 3 배 더 큰 성능 향상을 보여주며, 현대 언어 모델의 코딩 능력 개발에 효과적입니다.
강력한 평가 프레임워크 (MicroCoder-Evaluator):
- LiveCodeBench 평가기 대비 약 25% 높은 정확도와 약 40% 빠른 실행 속도를 제공합니다.
- 다중 방법 비교, 포맷 유연성 처리, 근사 수치 비교 등을 통해 학습 피드백의 신뢰성을 높였습니다.
체계적인 분석 (Systematic Analysis):
- 30 개 이상의 통제 실험을 통해 데이터셋 품질, 온도 역학, 컨텍스트 길이, 배치 크기, KL 손실 등 7 가지 주요 측면에 대한 **34 가지 학습 통찰 (Training Insights)**을 도출했습니다.

4. 실험 결과 (Results)

성능 향상: Qwen3-1.7B 및 4B 모델을 대상으로 한 실험에서 MicroCoder-GRPO 는 GRPO 와 DAPO 를 모든 벤치마크 (AtCoder, LeetCode, LiveCodeBench) 에서 압도적으로 능가했습니다.
확장성: 4K 컨텍스트로 학습한 모델이 8K 컨텍스트에서 테스트될 때, 기존 방법론 대비 더 큰 성능 향상 (+3.6% ~ +5.8%) 을 보이며 추론 예산 확장성이 뛰어남을 입증했습니다.
학습 역학:
- 중간 난이도 및 고난이도 문제: MicroCoder-GRPO 는 특히 Medium 및 Hard 난이도에서 큰 성능 향상을 보였습니다.
- 출력 길이: 조건부 마스킹과 KL 손실 제거로 인해 응답 길이가 지속적으로 증가하면서도 정확도가 하락하지 않았습니다.
- 학습 안정성: DAPO 는 초기에는 높은 성능을 보이다가 후기 학습 단계에서 성능이 급격히 하락하는 변동성을 보인 반면, MicroCoder-GRPO 는 안정적인 장기 학습 역학을 유지했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 현대 코드 생성 모델의 강화 학습 병목 현상을 해결하기 위한 체계적인 접근법을 제시합니다. 단순히 알고리즘을 개선하는 것을 넘어, 데이터셋의 난이도, 평가 프레임워크의 정확성, 학습 역학 (온도, 길이, 다양성) 의 미세 조정이 모두 중요함을 증명했습니다.

핵심 통찰: 적절하게 훈련된 모델은 더 큰 규모의 모델과 경쟁할 수 있는 성능을 달성할 수 있습니다.
미래 영향: 제안된 방법론과 통찰은 다양한 코드 생성 작업에 적용 가능하며, 강화 학습을 통한 코딩 모델 발전의 새로운 지평을 열었습니다.

요약하자면, 이 연구는 **"더 긴 출력, 더 높은 다양성, 더 안정적인 학습"**을 동시에 달성하기 위해 알고리즘, 데이터, 인프라를 통합적으로 재설계한 성공적인 사례입니다.