AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering

Each language version is independently generated for its own context, not a direct translation.

🤔 문제: 왜 AI 는 똑같은 실수를 반복할까요?

기존의 AI 에이전트들은 마치 매번 새로운 문제를 풀 때마다 '기억을 지우고' 다시 시작하는 학생과 같았습니다.

기존 방식 (프롬프트 기반): 시험을 볼 때 교실 밖에서 힌트를 얻어오지만, 시험 중에는 머릿속 지식을 업데이트하지 못합니다. 수천 번 문제를 풀어봐도 실수는 똑같고, 실력은 늘지 않습니다.
강화학습 (RL) 의 어려움: AI 가 스스로 배우게 하려면 (강화학습), 실행 결과를 확인해야 하는데 머신러닝 프로젝트는 실행하는 데 수 시간에서 수 일이 걸립니다. 마치 "오늘 배운 요리 레시피가 맛있는지 확인하려면 내일까지 기다려야 한다"는 상황이라, 학습 속도가 너무 느려 실용적이지 않았습니다.

💡 해결책: AceGRPO (적응형 커리큘럼 강화 학습)

저자들은 이 문제를 해결하기 위해 AceGRPO라는 새로운 시스템을 만들었습니다. 이를 **스마트한 '학습 코치'**와 **'유연한 훈련장'**으로 비유해 볼까요?

1. 🔄 '진화하는 데이터 버퍼': 실패도 보물, 성공도 보물

기존에는 AI 가 실패한 코드나 중간 과정을 그냥 버렸습니다. 하지만 AceGRPO 는 모든 실행 기록을 '새로운 훈련 문제'로 재탄생시킵니다.

비유: 요리사가 실패한 요리를 버리지 않고, "왜 실패했지? 다음엔 어떻게 고칠까?"라는 새로운 레시피 연습 문제로 만듭니다.
효과: AI 는 과거의 실패와 성공을 모두 저장해 두고, 그중에서 가장 배우기 좋은 순간을 골라 계속 연습합니다.

2. 🎯 '적응형 샘플링': 어려운 것만 골라 배우기 (학습 잠재력)

훈련장에 문제가 너무 많으면, AI 는 이미 다 아는 쉬운 문제나 너무 어려워서 절대 풀 수 없는 문제만 골라 낭비할 수 있습니다. AceGRPO 는 **'학습 잠재력 (Learnability Potential)'**이라는 나침반을 사용합니다.

비유: 코치가 학생을 가르칠 때, "너는 이 문제는 이미 완벽해 (너무 쉬움)" 또는 "이건 너 수준을 훨씬 넘어서 (너무 어려움)"라고 판단하고 무시합니다. 대신 **"조금만 노력하면 풀 수 있는, 딱 맞는 난이도의 문제"**를 골라 집중 훈련시킵니다.
효과: AI 는 가장 배우기 좋은 '골든 존 (Learning Zone)'에 집중해서, 적은 노력으로 최대의 실력 향상을 이룹니다.

🏆 결과: 작은 모델이 거인보다 강해지다!

이 방법으로 훈련된 Ace-30B라는 AI 모델은 놀라운 성과를 냈습니다.

100% 성공률: 머신러닝 대회 (MLE-Bench-Lite) 에서 제출한 모든 프로젝트가 유효했습니다. (기존 모델들은 실패한 코드를 제출하기도 했습니다.)
거인 모델 추월: 파라미터 수가 훨씬 적은 (300 억 개) 이 모델이, GPT-5.2 나 Claude-4.5 같은 거대 상용 모델들과 맞먹는 실력을 냈습니다.
지속적인 성장: 한 번에 문제를 풀려고 애쓰는 게 아니라, 실패하고 수정하고 다시 실행하는 반복적인 과정에서 꾸준히 실력이 향상되었습니다.

🌟 핵심 요약

이 연구는 **"AI 가 스스로 배우는 법을 가르치는 것"**이 중요합니다.

실패를 버리지 말고 새로운 학습 자료로 만드세요. (진화하는 데이터 버퍼)
무작위 학습을 멈추고, AI 가 가장 잘 배울 수 있는 '딱 맞는 난이도'의 문제만 골라주세요. (적응형 샘플링)

이처럼 AceGRPO는 AI 가 머신러닝 엔지니어링이라는 복잡한 미션을 스스로 해결하고, 시간이 지날수록 더 똑똑해지는 자율적인 성장을 가능하게 한 획기적인 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

자율적 머신러닝 엔지니어링 (Autonomous MLE) 은 에이전트가 장기간에 걸쳐 지속적이고 반복적인 최적화를 수행해야 하는 복잡한 작업입니다. 최근의 LLM 기반 에이전트들은 프롬프트 기반의 추론 (Inference-time search) 을 통해 성과를 보였으나, 다음과 같은 근본적인 한계에 직면해 있습니다.

행동 정체 (Behavioral Stagnation): 프롬프트 기반 방법은 모델의 파라미터를 고정 (Frozen) 시키므로, 에이전트가 시행착오를 통해 얻은 경험을 학습 규칙으로 내면화하지 못합니다. 이로 인해 수천 번의 에피소드 후에도 에이전트는 최적화되지 않은 패턴을 반복하게 됩니다.
강화학습 (RL) 적용의 난제: MLE 과제를 강화학습으로 해결하려는 시도는 두 가지 주요 장벽에 부딪힙니다.
1. ** prohibitive 실행 지연 (Latency):** MLE 작업은 코드 실행, 모델 학습, 평가에 수 분에서 수 시간이 소요되어, 전체 궤적 (Full-trajectory) 을 기반으로 한 온라인 RL 학습이 계산적으로 불가능합니다.
2. 비효율적인 데이터 선택: 기존 데이터 풀에서 균일하게 샘플링할 경우, 에이전트가 이미 마스터한 상태 (높은 보상) 나 에이전트의 능력을 벗어난 상태 (실패) 만 반복적으로 선택하게 되어, 그룹 내 보상 분산 (Reward Dispersion) 이 사라지고 학습 신호가 약화되는 문제가 발생합니다.

2. 제안 방법론: AceGRPO

저자들은 이러한 문제를 해결하기 위해 AceGRPO를 제안했습니다. 이는 장기적인 MLE 최적화를 "진화하는 데이터 버퍼 (Evolving Data Buffer)"를 통한 단계별 학습으로 재구성하는 RL 프레임워크입니다. AceGRPO 는 두 가지 핵심 구성 요소로 이루어져 있습니다.

2.1. 진화하는 데이터 버퍼 (Evolving Data Buffer)

개념: 비싼 실행 비용이 드는 전체 실행 궤적을 단순히 기록하는 것을 넘어, 실행 중 생성된 모든 중간 상태 (Intermediate State) 를 재사용 가능한 단일 단계 학습 작업으로 변환합니다.
동작: 에이전트가 코드 수정 (Draft), 디버깅 (Debug), 개선 (Improve) 단계를 거치며 생성된 모든 상태 $x'$ 를 버퍼 $B_t$ 에 즉시 추가합니다.
효과: 이는 에이전트의 실행 비용을 단계별 학습 작업으로 전환하여, 고정된 데이터셋이 아닌 에이전트의 현재 능력 한계 (Frontier) 에 맞춰 지속적으로 확장되는 동적 학습 분포를 제공합니다.

2.2. 적응형 샘플링 (Adaptive Sampling) 및 학습 가능성 잠재력 (Learnability Potential)

학습 가능성 잠재력 ( $P(x)$ ): 버퍼 내 상태 중 어디에 실행 예산을 할당할지 결정하기 위해 도입된 지표입니다. 이는 GRPO 업데이트의 기울기 신호 크기를 대변합니다.
- 불확실성 (Uncertainty): 그룹 내 보상 분산 ( $\sigma$ ) 이 높은 상태 (결과가 불확실한 상태) 를 선호합니다.
- 개선 여지 (Headroom): 현재 점수가 최적이거나 너무 낮아 개선의 여지가 없는 상태를 피하고, 여전히 최적화 공간이 있는 상태를 선호합니다.
- 수식: $P(x) = \text{clip}(\sigma(r), 0, \delta_{max}) + \lambda \cdot \text{clip}(1 - \mu(r), 0, 1)$
적응형 커리큘럼: $P(x)$ 를 기반으로 상태의 우선순위를 매깁니다. 초기에는 넓은 탐색 (Exploration) 을 위해 균일하게 샘플링하다가, 시간이 지남에 따라 고잠재력 상태 (High-potential states) 로 집중 (Exploitation) 하는 방식으로 학습을 유도합니다. 또한, 최근 방문한 상태에 대한 냉각 (Cooling) 메커니즘을 도입하여 국소 최적점에 갇히는 것을 방지하고 다양성을 유지합니다.

3. 주요 기여 (Key Contributions)

AceGRPO 프레임워크 제안: 장기 MLE 최적화를 진화하는 데이터 버퍼를 통한 단계별 학습으로 재정의하여, 에이전트의 지속적 자기 진화 (Self-evolution) 를 가능하게 했습니다.
학습 가능성 잠재력에 기반한 적응형 샘플링: 기울기 크기의 대리 지표 (Proxy) 로서 $P(x)$ 를 도입하여, 에이전트의 학습 프론티어에 있는 과제를 동적으로 우선순위화함으로써 학습 효율성을 극대화했습니다.
성능 입증: 30B 파라미터 모델 (Ace-30B) 이 MLE-Bench-Lite 에서 100% 유효 제출률을 달성했으며, proprietary frontier 모델 (GPT-5.2, Claude-4.5 등) 과 견줄 만한 성능을 보였고, 훨씬 더 큰 파라미터를 가진 오픈소스 모델 (DeepSeek-V3.2 등) 을 능가했습니다.

4. 실험 결과 (Results)

데이터셋: MLE-Bench-Lite (Kaggle 스타일 22 개 과제) 및 MLE-Dojo 를 기반으로 학습 및 평가 수행.
모델: Qwen3-30B-A3B-Thinking-2507 기반의 Ace-30B 모델.
주요 성과:
- 유효 제출률 (Valid Submission Rate): 100% 달성 (Claude-4.5-Sonnet 과 동급).
- 메달 획득률 (Any Medal Rate): 51.52% (Base 모델 대비 24.25% 향상, DeepSeek-V3.2 대비 12.13% 향상).
- HumanRank 점수: 0.7114 (Base 모델 대비 22.39% 향상, GPT-5.2 와 유사한 수준).
- 초기 솔루션 품질: 첫 번째 유효 제출까지 걸리는 평균 단계 수를 18.48 에서 3.67 로 대폭 단축하여, 에이전트가 초기 실패 상태에서 빠르게 복구하여 최적화 경로를 찾을 수 있음을 증명했습니다.
- 지속적 진화: 시간 경과에 따른 메달 획득률 그래프에서 Base 모델이 6 시간 내에 정체되는 반면, Ace-30B 는 전체 실행 시간 동안 지속적으로 성능을 향상시켰습니다.

5. 의의 및 결론 (Significance)

이 논문은 자율적 MLE 분야에서 추론 시간 검색 (Inference-time search) 에서 정책 내면화 (Policy Internalization) 로의 패러다임 전환을 성공적으로 이끌었습니다.

계산 효율성: 고지연 (High-latency) 환경에서도 단계별 최적화와 적응형 커리큘럼을 통해 제한된 계산 자원을 가장 학습 효과가 큰 영역에 집중시킴으로써, RL 의 실용성을 입증했습니다.
모델 효율성: 30B 규모의 오픈소스 모델이 수백 B 규모의 폐쇄형 최첨단 모델과 경쟁할 수 있는 능력을 갖추게 되었으며, 이는 모델 크기보다는 **적절한 학습 전략 (RL + Curriculum)**의 중요성을 강조합니다.
미래 전망: AceGRPO 는 장기간의 복잡한 작업을 수행하는 자기 진화형 에이전트 개발을 위한 강력한 기반을 제공하며, 머신러닝 엔지니어링 자동화의 새로운 지평을 열었습니다.

요약하자면, AceGRPO 는 MLE 작업의 고유한 어려움 (지연, 데이터 희소성) 을 해결하기 위해 동적 데이터 버퍼와 학습 가능성 기반의 적응형 샘플링을 결합하여, 에이전트가 시행착오를 통해 지속적으로 진화하고 최적화할 수 있는 체계를 구축한 획기적인 연구입니다.