AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen sehr talentierten, aber etwas sturen Koch (den KI-Agenten) dazu bringen, das perfekte Gericht für einen großen Wettbewerb zu kochen. Das Problem ist: Der Koch kann nicht einfach "rausfinden", wie man besser kocht, indem er nur einmal probiert. Er muss hunderte Male kochen, schmecken, den Fehler analysieren und das Rezept verbessern.

Das ist genau das, was Autonomes Machine Learning Engineering (MLE) ist: Eine KI, die ständig versucht, bessere Algorithmen zu schreiben, Fehler zu finden und Modelle zu optimieren.

Das Papier stellt AceGRPO vor, eine neue Methode, um diesen KI-Koch nicht nur zu instruieren, sondern ihn tatsächlich lernen zu lassen. Hier ist die Erklärung in einfachen Worten:

Das Problem: Der Koch, der im Kreis läuft

Bisherige KI-Systeme waren wie ein Koch, der ein festes Kochbuch hat. Wenn er einen Fehler macht, wird ihm gesagt: "Das war falsch." Aber das Kochbuch (die KI-Parameter) ändert sich nicht. Der Koch versucht immer wieder denselben Fehler zu machen, weil er nicht wirklich daraus gelernt hat. Er bleibt stecken.

Man könnte sagen: "Lass uns den Koch mit Belohnungen trainieren" (Reinforcement Learning). Aber das ist wie ein Kochwettbewerb, bei dem jeder Versuch, ein Gericht zu kochen, 2 Stunden dauert (weil die KI-Modelle lange trainieren müssen). Wenn man den Koch einfach blind durch tausende Versuche jagen will, dauert das ewig und kostet zu viel Zeit.

Die Lösung: AceGRPO (Der clevere Trainer)

AceGRPO ist wie ein genialer Trainer, der zwei Tricks anwendet, um den Koch effizient zu verbessern, ohne ihn ewig kochen zu lassen.

1. Der "Lebendige Notizblock" (Evolving Data Buffer)

Stell dir vor, der Koch macht einen Versuch. Er verbrennt den Kuchen.

Alt: Der Trainer wirft den verbrannten Kuchen weg und sagt: "Versuch es nochmal von vorne."
AceGRPO: Der Trainer nimmt den verbrannten Kuchen, schaut sich an, warum er verbrannt ist, und schreibt eine neue, kleine Aufgabe auf: "Wie backe ich einen Kuchen, der nicht verbrennt?"

Jeder einzelne Schritt – egal ob Erfolg oder Misserfolg – wird in einen lebendigen Notizblock geschrieben. Aus einem langen, mühsamen Prozess werden viele kleine, wiederverwendbare Lektionen. Der Koch muss nicht jedes Mal von Null anfangen; er kann an den Stellen weiterarbeiten, wo er gestolpert ist.

2. Der "Lern-Intelligenz-Test" (Adaptive Sampling & Learnability Potential)

Das ist der wichtigste Trick. Stell dir vor, der Trainer hat eine Liste mit 100 Aufgaben für den Koch.

Aufgabe A: "Mach einen Toast." (Der Koch kann das schon perfekt. Langweilig! Kein Lernfortschritt.)
Aufgabe B: "Bake ein 5-Gänge-Menü mit Zutaten, die es nicht gibt." (Unmöglich. Der Koch wird frustriert und lernt nichts.)
Aufgabe C: "Bake einen Kuchen, bei dem du die Temperatur noch nicht ganz richtig triffst." (Perfekt! Hier ist der Koch am Rand seiner Fähigkeiten. Hier passiert das Lernen.)

AceGRPO nutzt einen Intelligenz-Test, um genau diese "Goldilocks"-Aufgaben (weder zu leicht noch zu schwer) zu finden.

Es ignoriert Aufgaben, die der Koch schon kann (weil es keine Belohnung gibt, sie zu üben).
Es ignoriert Aufgaben, die zu schwer sind (weil der Koch sie sowieso nicht schafft).
Es konzentriert sich nur auf die Aufgaben, bei denen der Koch kurz davor ist, einen Durchbruch zu erzielen.

Das spart Zeit und Energie, weil der Koch nicht mehr Zeit mit dem Toasten verbringt, sondern direkt an den schwierigen, aber lösbaren Problemen arbeitet.

Das Ergebnis: Ein Koch, der sich selbst verbessert

Durch diese Methode hat die KI (ein Modell namens Ace-30B) erstaunliche Ergebnisse erzielt:

Sie liefert zu 100 % funktionierende Lösungen (der Koch liefert immer einen essbaren Kuchen ab).
Sie ist so gut geworden, dass sie mit den teuersten, "geheimen" Koch-Genies (wie GPT-5 oder Claude) mithalten kann, obwohl sie eigentlich eine kleinere, offene KI ist.
Sie verbessert sich dauerhaft. Während andere KIs nach ein paar Stunden aufhören, besser zu werden, wird AceGRPO-Koch immer besser, je länger er trainiert.

Zusammenfassung in einem Satz

AceGRPO verwandelt einen KI-Koch, der sich immer wieder im Kreis dreht, in einen lernenden Meister, indem es jeden Fehler in eine neue Lektion verwandelt und sich genau auf die Aufgaben konzentriert, bei denen der Koch gerade kurz davor ist, sein nächstes Level zu erreichen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Autonomes Machine Learning Engineering (MLE) erfordert von Agenten eine langfristige, iterative Optimierung über komplexe Aufgaben hinweg (z. B. Kaggle-Wettbewerbe). Im Gegensatz zu herkömmlicher Softwareentwicklung, bei der Erfolg oft binär ist (Tests bestehen/failen), ist MLE eine empirische Wissenschaft, die kontinuierliche Verfeinerung von Architekturen und Datenpipelines erfordert.

Die aktuellen Herausforderungen sind:

Stagnation prompt-basierter Agenten: State-of-the-Art-LLM-Agenten nutzen oft Prompting-Methoden, bei denen die Modellparameter eingefroren sind. Diese Agenten können Erfahrung aus Fehlversuchen nicht in verbesserte Entscheidungsregeln umwandeln, was zu einem Verhaltensplateau führt.
Ineffizienz von Reinforcement Learning (RL): Obwohl RL eine Lösung für das Lernen aus Erfahrung bietet, ist die direkte Anwendung auf MLE durch zwei Hauptfaktoren behindert:
1. Prohibitive Latenz: Die Ausführung eines einzelnen MLE-Schritts (z. B. Training eines Modells) kann Minuten bis Stunden dauern, was End-to-End-RL über lange Trajektorien rechnerisch unmöglich macht.
2. Ineffiziente Datenauswahl: Herkömmliche Sampling-Methoden wählen oft Zustände aus, die entweder bereits gemeistert sind (hohe Belohnung, keine Lernkurve) oder jenseits der aktuellen Fähigkeiten liegen (konstante Fehler). Dies führt zu einer Verschwinden der Varianz der Belohnungen innerhalb einer Gruppe (Vanishing Within-Group Reward Dispersion), was RL-Updates unwirksam macht.

2. Methodik: AceGRPO

Das Paper schlägt AceGRPO (Adaptive Curriculum Enhanced Group Relative Policy Optimization) vor, ein RL-Framework, das MLE als schrittweise Optimierung über eine sich dynamisch entwickelnde Aufgabenverteilung reformuliert. Es besteht aus zwei eng gekoppelten Komponenten:

A. Evolving Data Buffer (Sich entwickelnder Datenpuffer)

Anstatt lange Trajektorien als Ganzes zu optimieren, zerlegt AceGRPO den Prozess in einzelne Schritte.

Konzept: Jeder Ausführungstrace (ob erfolgreich oder fehlgeschlagen) wird in einen neuen, wiederverwendbaren Trainingszustand umgewandelt.
Funktionsweise: Der Puffer $B_t$ erweitert sich rekursiv. Nach jeder Ausführung wird ein neuer abgeleiteter Zustand $x' = \Phi(x, y, f)$ generiert und dem Puffer hinzugefügt.
Vorteil: Dies wandelt teure Ausführungen in diskrete, replaybare Optimierungsschritte um (Draft, Debug, Improve) und ermöglicht ein kontinuierliches „On-Policy"-Lernen ohne redundante Voll-Trajektorien.

B. Adaptive Sampling mit Learnability Potential

Um das begrenzte Rechenbudget auf informative Zustände zu konzentrieren, wird eine adaptive Sampling-Strategie eingeführt.

Learnability Potential ( $P(x)$ ): Eine Metrik, die den Lernwert eines Zustands quantifiziert. Sie basiert auf zwei Faktoren:
1. Unsicherheit (Uncertainty): Die Varianz der Belohnungen innerhalb einer Gruppe von Aktionen (GRPO-Gruppe). Hohe Varianz deutet darauf hin, dass der Zustand im „Lernbereich" des Agenten liegt.
2. Verbesserungspotenzial (Headroom): Der Abstand zur maximal möglichen Belohnung. Zustände, die bereits gelöst sind oder hoffnungslos scheitern, werden bestraft.
Kurvierung (Curriculum): Die Sampling-Wahrscheinlichkeit $Q_t(x)$ wird basierend auf dem Rang des $P(x)$ innerhalb des Puffers bestimmt. Ein Fokus-Koeffizient $\rho(t)$ wird über die Zeit erhöht, um von einer breiten Exploration zu einer gezielten Ausbeutung der vielversprechendsten Zustände am Lernrand überzugehen.
Diversitätserhaltung: Ein „Cooling-Mechanismus" verhindert, dass der Agent zu oft dieselben Zustände auswählt, und erzwingt eine zeitliche Refraktärzeit, um Overfitting zu vermeiden.

3. Wichtige Beiträge

AceGRPO-Framework: Ein adaptives RL-Framework, das langfristige MLE-Optimierung in schrittweises Lernen über einen Evolving Data Buffer umwandelt, um kontinuierliche Selbstentwicklung zu ermöglichen.
Adaptive Sampling durch Learnability Potential: Eine neue Methode, die als Proxy für die Gradientengröße dient. Sie priorisiert dynamisch Aufgaben am Lernrand des Agenten, maximiert die Trainingseffizienz und erhält gleichzeitig die Explorationsvielfalt.
Leistungsfähigkeit: Nachweis, dass ein 30B-Parameter-Modell (Ace-30B) durch dieses Training robustere iterative Optimierungsfähigkeiten entwickelt als deutlich größere Open-Source-Modelle und mit proprietären Frontier-Modellen konkurrieren kann.

4. Ergebnisse

Das Modell Ace-30B (basierend auf Qwen3-30B-A3B-Thinking-2507) wurde auf dem MLE-Bench-Lite (22 Kaggle-Aufgaben) evaluiert:

Validität: Erzielte eine 100%ige Rate an gültigen Einreichungen (Valid Submission Rate), was mit den stärksten proprietären Modellen (z. B. Claude-4.5-Sonnet) gleichzieht.
Medaillen-Rate: Steigerung der „Any Medal"-Rate um 24,25 % im Vergleich zum untrainierten Baseline-Modell (von 27,27 % auf 51,52 %).
Vergleich mit SOTA:
- Ace-30B übertrifft deutlich größere Open-Source-Modelle wie DeepSeek-V3.2 (39,39 % Medal Rate) und Qwen3-235B (37,88 % Medal Rate).
- Es erreicht eine Leistung, die der von proprietären Modellen wie GPT-5.2 und Claude-4.5-Sonnet entspricht oder diese in bestimmten Metriken (HumanRank Score) sogar leicht übertrifft.
Effizienz: Ace-30B benötigt für die erste gültige Einreichung im Durchschnitt nur 3,67 Schritte (vs. 18,48 beim Baseline-Modell), was eine drastische Verbesserung der Stabilität und Geschwindigkeit in der frühen Optimierungsphase zeigt.
Ablationsstudie: Das Entfernen des Evolving Data Buffers führte zu einem Rückgang der Medal-Rate um 3,97 %, das Entfernen des Adaptive Sampling zu einem Rückgang von 7,00 %. Dies unterstreicht die Notwendigkeit beider Komponenten.

5. Bedeutung und Fazit

AceGRPO adressiert die fundamentale Lücke zwischen transienter Inferenz-Suche (Prompting) und persistenter Policy-Internalisierung (RL) für autonome Agenten.

Paradigmenwechsel: Es zeigt, dass MLE nicht nur durch bessere Prompts, sondern durch effizientes, schrittweises RL-Lernen gelöst werden kann, das die Latenzprobleme durch intelligente Datenwiederverwendung umgeht.
Skaleneffizienz: Das Framework ermöglicht es kleineren, offenen Modellen, durch gezieltes Curriculum-Learning die Leistung von viel größeren, geschlossenen Modellen zu erreichen.
Zukunftsperspektive: AceGRPO ebnet den Weg für die Entwicklung von Agenten, die sich selbst über lange Zeiträume hinweg in komplexen, empirischen Domänen wie dem Machine Learning Engineering weiterentwickeln können, ohne auf statische Datensätze angewiesen zu sein.

Zusammenfassend stellt AceGRPO einen signifikanten Fortschritt dar, der die Effizienz von RL für langfristige, latenzbehaftete Aufgaben durch adaptive Kurvenplanung und dynamische Datengenerierung revolutioniert.