AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een beginnende kok bent die probeert een ingewikkeld gerecht te maken, zoals een complexe taart. Je hebt een recept (het probleem) en een keuken (de computer).

Het oude probleem:
Vroeger kregen deze "koks" (kunstmatige intelligenties) een recept, probeerden ze het één keer, en als het mislukte, kregen ze een nieuwe instructie. Maar ze leerden niet echt uit hun fouten. Ze bleven steeds dezelfde fouten maken, alsof ze hun receptboek niet konden herschrijven. Ze bleven steken in een cirkel van "probeer-en-fout", zonder echt beter te worden naarmate ze meer taarten bakten.

De oplossing: AceGRPO
De onderzoekers van dit paper hebben een slimme nieuwe manier bedacht om deze koks te trainen, genaamd AceGRPO. Ze gebruiken twee hoofdtrucs om de kok tot een meester te maken:

1. De "Dynamische Keukenkast" (Evolving Data Buffer)

Stel je voor dat elke keer als je een taart probeert te bakken, je niet alleen de taart zelf ziet, maar ook de restjes, de mislukte beslagpotten en de notities die je maakt.

Hoe het werkt: In plaats van dat elke mislukte taart in de prullenbak belandt, slaat AceGRPO elke stap op in een speciale "kast". Zelfs als de taart plat is of verbrand, is die mislukte stap waardevol. Het is een startpunt voor een nieuwe poging.
De analogie: Het is alsof je een kok hebt die elke mislukte taart omtovert in een nieuw, klein oefenmomentje. Zo heeft de kok nooit een lege kast; hij heeft altijd nieuwe uitdagingen om aan te werken, gebaseerd op wat hij eerder heeft gedaan.

2. De "Slimme Keukentimer" (Adaptive Sampling)

Nu heb je een kast vol met taartproeven. Maar je hebt niet genoeg tijd om elke taart opnieuw te bakken. Sommige taarten zijn al perfect (je hoeft ze niet te oefenen) en sommige zijn zo onmogelijk dat je er nooit uitkomt.

Het probleem: Als je willekeurig kiest welke taart je opnieuw bakt, bak je misschien 10 keer een taart die je al perfect kunt, of 10 keer een taart die je nog niet eens kunt aanraken. Dat is tijdverspilling.
De oplossing: AceGRPO heeft een slimme timer die kijkt naar de "leerpotentie". Hij zoekt specifiek naar de taarten die net op de rand liggen: niet te makkelijk, niet te moeilijk, maar precies op het punt waar de kok net een beetje meer kan leren.
De analogie: Het is alsof een trainer die zegt: "Stop met het bakken van die perfecte taart die je al 100 keer hebt gemaakt, en stop ook met die onmogelijke taart die je niet kunt maken. Bak die ene taart die je net bijna perfect kunt maken, maar waar je nog een klein detail moet verbeteren." Dit zorgt ervoor dat elke minuut die je bakt, je echt sterker maakt.

Wat is het resultaat?

Door deze twee trucs te combineren, hebben de onderzoekers een model (Ace-30B) getraind dat:

Nooit stopt met leren: Het wordt steeds beter, net als een mens die jarenlang kookt.
Snel goed wordt: Het maakt veel minder fouten in het begin dan andere modellen.
Concurrerend is: Een model dat niet eens heel groot is (30 miljard parameters), doet het nu beter dan veel grotere, dure modellen van grote tech-bedrijven.

Kortom:
AceGRPO is als een super-trainer voor een AI-kok. In plaats van alleen maar te zeggen "probeer het opnieuw", pakt deze trainer de mislukte pogingen, maakt er nieuwe oefeningen van, en kiest slim de oefeningen uit die de AI het meest vooruit helpen. Hierdoor wordt de AI niet alleen slimmer, maar ook veel efficiënter in het oplossen van complexe problemen, zoals het bouwen van machine learning systemen.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Stagnatie in Autonomische Machine Learning Engineering (MLE)

Autonomische Machine Learning Engineering (MLE) vereist dat agents langdurige, iteratieve optimalisatietaken uitvoeren (zoals Kaggle-wedstrijden), waarbij ze hypotheses moeten verkennen, architecturen aanpassen en experimenteren met ruwe feedback.

De huidige aanpak kent twee fundamentele beperkingen:

Prompt-based Agents: Recent werk gebruikt Large Language Models (LLMs) met "frozen" (niet-getrainde) parameters. Hoewel deze agents via prompting kunnen zoeken, kunnen ze geen ervaring uit fouten en successen internaliseren. Dit leidt tot gedragsstagnatie: de agent herhaalt suboptimale patronen en blijft steken in lokale optima, zelfs na duizenden pogingen.
Reinforcement Learning (RL) Uitdagingen: Hoewel RL een oplossing lijkt, is toepassing op MLE moeilijk vanwege:
1. Prohibitieve Latentie: Het uitvoeren van een MLE-taak (trainen van modellen, evalueren) kan minuten tot uren duren, waardoor end-to-end traject-RL onberekenbaar duur is.
2. Inefficiënte Dataselectie: Bestaande methoden gebruiken vaak statische datasets of uniform sampling. Dit resulteert in het trainen op taken die de agent al beheerst (geen leerkracht) of taken die te moeilijk zijn (geen succes), wat leidt tot een verlies van het leer-signaal (variatie in beloningen verdwijnt).

2. Methodologie: AceGRPO

Om deze uitdagingen aan te pakken, stellen de auteurs AceGRPO (Adaptive Curriculum Enhanced Group Relative Policy Optimization) voor. Dit is een RL-framework dat het leerproces herformuleert als stap-voor-stap optimalisatie over een dynamisch evoluerende taakverdeling. Het bestaat uit twee kerncomponenten:

A. Evolving Data Buffer (Evoluerende Data Buffer)

In plaats van volledige trajecten te trainen, breekt AceGRPO de interactie op in individuele stappen.

Concept: Elke uitvoering van code (of mislukte poging) wordt omgezet in een nieuwe, herbruikbare trainingsopdracht.
Mechanisme: Een buffer ( $B_t$ ) verzamelt tussentijdse staten (contexten) die bestaan uit de taakbeschrijving, de huidige code-snapshot en de uitvoeringsgeschiedenis.
Voordeel: Dit maakt het mogelijk om dure uitvoeringen om te zetten in een stroom van "single-step" RL-taken. De buffer groeit continu met de eigen output van de agent, waardoor de trainingsdistributie meebeweegt met de verbeterende vaardigheden van de agent.

B. Adaptive Sampling met Learnability Potential

Om de beperkte uitvoeringsbudgetten efficiënt te gebruiken, wordt niet willekeurig (uniform) uit de buffer gehaald, maar strategisch.

Learnability Potential ( $P(x)$ ): Een functie die de "leerwaarde" van een staat schat. Deze wordt berekend op basis van twee factoren:
1. Onzekerheid (Uncertainty): De variantie in beloningen binnen een groep van pogingen. Hoge variantie betekent dat de agent zich op de rand van zijn vaardigheden bevindt (leerzone).
2. Verbeterpotentieel (Headroom): De mate waarin er nog ruimte is voor verbetering boven de huidige prestatie.
Adaptieve Curriculum: De sampling-waarschijnlijkheid wordt dynamisch aangepast. Taken met hoge $P(x)$ $P (x)$ krijgen voorrang.
- Exploratie: In het begin wordt breed gezocht.
- Exploitatie: Later wordt de focus verlegd naar de top-percentage taken in de "leerzone" om convergentie te versnellen.
- Cooling Mechanism: Om overfitting te voorkomen, worden recent bezochte staten tijdelijk "afgekoeld" (minder waarschijnlijk om te kiezen), wat zorgt voor diversiteit.

C. RL Formulier

AceGRPO gebruikt Group Relative Policy Optimization (GRPO). In plaats van een enkele beloning te gebruiken, genereert de agent een groep van $G$ antwoorden voor een gegeven staat. De beloning wordt genormaliseerd binnen deze groep (relative advantage), wat de stabiliteit van het trainingssignaal verhoogt zonder de noodzaak van een critic-model.

3. Belangrijkste Bijdragen

AceGRPO Framework: Een nieuw RL-framework dat lange-horizon MLE-taken omzet in stap-voor-stap leren via een Evolving Data Buffer, waardoor continue zelf-evolutie mogelijk wordt.
Adaptive Sampling & Learnability Potential: Een mechanisme dat gradienten als proxy gebruikt om taken dynamisch te prioriteren die zich op het leerfront van de agent bevinden. Dit maximaliseert de trainings-efficiëntie en voorkomt het trainen op "lege" stappen.
State-of-the-Art Prestaties: Het bewijs dat een 30B-parameter model (Ace-30B), getraind met AceGRPO, superieur is aan veel grotere open-source baselines en de prestaties benadert van gesloten, proprietaire frontier-modellen.

4. Resultaten

Het model Ace-30B (gebaseerd op Qwen3-30B) werd getraind en geëvalueerd op MLE-Bench-Lite (22 Kaggle-taken).

Validatie: Ace-30B bereikte een 100% valid submission rate, wat gelijkstaat aan de beste proprietaire modellen (zoals Claude-4.5-Sonnet) en beter is dan de basis Qwen3-30B (84,85%).
Medaille-ratio: De "Any Medal" rate (kansen op een bronzen, zilveren of gouden medaille) steeg met 24,25% ten opzichte van de ongetrainde baseline.
Vergelijking met Concurrenten:
- Ace-30B presteerde beter dan DeepSeek-V3.2 (die 8x groter is in parameters) en Qwen3-235B.
- Het benaderde de prestaties van GPT-5.2 en Claude-4.5-Sonnet op de HumanRank score (0,7114 vs 0,7105 voor GPT-5.2).
Efficiëntie: Ace-30B produceerde geldige oplossingen veel sneller (gemiddeld 3,67 stappen vs. 18,48 voor de baseline) en toonde een aanhoudende verbeteringstrend over tijd, in tegenstelling tot de stagnatie van prompt-only modellen.

5. Betekenis en Impact

AceGRPO is een doorbraak in het veld van autonomische agents voor Machine Learning Engineering.

Overbrugging van de Kloof: Het overbrugt de kloof tussen tijdelijke zoekstrategieën (prompting) en permanente interne verbetering (policy training).
Efficiëntie: Het lost het probleem van hoge latentie op door te focussen op "learning zones" in plaats van volledige trajecten, waardoor RL trainbaar wordt voor langdurige, complexe taken.
Toekomstperspectief: Het paper toont aan dat kleinere, open-source modellen, wanneer ze correct worden getraind met adaptieve curriculum-methoden, concurrerend kunnen zijn met enorme gesloten modellen. Dit opent de weg voor zelf-evoluerende agents die complexe wetenschappelijke en technische taken autonoom kunnen oplossen.

Kortom, AceGRPO transformeert MLE van een statisch probleem naar een dynamisch leerproces, waarbij elke mislukking en succesvol experiment direct wordt omgezet in een leerervaring die de agent slimmer maakt voor de volgende iteratie.

AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering

1. De "Dynamische Keukenkast" (Evolving Data Buffer)

2. De "Slimme Keukentimer" (Adaptive Sampling)

Wat is het resultaat?

1. Het Probleem: Stagnatie in Autonomische Machine Learning Engineering (MLE)

2. Methodologie: AceGRPO

A. Evolving Data Buffer (Evoluerende Data Buffer)

B. Adaptive Sampling met Learnability Potential

C. RL Formulier

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback