Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Koch, der versucht, das perfekte Rezept für einen komplexen Kuchen zu finden. Du hast eine Küche (den Computer), Zutaten (Daten) und einen Geschmackstester (die Bewertung).

Das Ziel ist es, den besten Kuchen zu backen, ohne dabei die ganze Küche in Brand zu stecken oder Jahre zu brauchen.

Bisher haben KI-Systeme, die solche Aufgaben lösen (die sogenannten "Agenten"), einen sehr ineffizienten Weg gewählt. Die Autoren dieses Papers nennen ihre neue Methode Gome. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar lustigen Vergleichen:

1. Der alte Weg: Das "Blind-Testen" (Tree Search)

Stell dir vor, du bist ein Koch, der keinen Geschmackssinn hat. Du musst das Rezept finden, indem du einfach alles ausprobierst:

Versuch 1: Zu viel Salz. (Schmeckt schlecht -> weg damit).
Versuch 2: Zu viel Zucker. (Schmeckt schlecht -> weg damit).
Versuch 3: Vielleicht ein bisschen Vanille? (Besser, aber nicht perfekt).

Das ist wie ein Baum, der immer weiter verzweigt. Du probierst tausende Varianten aus, nur um zu sehen, welche ein bisschen besser ist. Das funktioniert okay, wenn du nicht weißt, warum etwas schmeckt. Aber es ist extrem langsam und verschwenderisch. Die meisten bisherigen KI-Agenten machten genau das: Sie generierten viele Lösungen, bewerteten sie mit einer Zahl (z. B. "8/10") und wählten die beste aus, ohne wirklich zu verstehen, was sie ändern müssen.

2. Der neue Weg: Gome (Das "Verstehen")

Gome ist wie ein Meisterkoch mit einem super scharfen Geschmackssinn und einem Notizbuch.
Anstatt blind 1000 Varianten auszuprobieren, sagt Gome: "Aha, der Kuchen ist zu trocken. Ich weiß genau, dass ich 10% mehr Milch hinzufügen und die Backzeit um 2 Minuten kürzen muss."

Das ist der Kern der Idee: Schluss mit blindem Raten, her mit dem Verständnis.

Die drei Geheimwaffen von Gome:

A. Der Geschmackstest als "Gradient" (Die Richtung)
In der Mathematik gibt es "Gradienten", die einem sagen, in welche Richtung man laufen muss, um einen Berg hinauf (oder ein Tal hinab) zu kommen.

Alte Methode: Der Koch schaut auf die Zahl "8/10" und denkt: "Okay, ich versuche mal was Neues."
Gome: Der Koch schaut auf den Kuchen und denkt: "Der ist zu trocken, weil das Mehl zu alt war. Ich ersetze es durch frisches Mehl."
Das ist wie ein GPS. Statt zufällig im Wald zu laufen, zeigt dir Gome genau den Pfad zum Ziel.

B. Das Notizbuch als "Impuls" (Momentum)
Wenn du etwas Neues ausprobierst und es funktioniert, schreibst du es in dein Notizbuch.

Gome hat ein globales Notizbuch (Success Memory). Wenn ein Teammitglied (ein "Spur") eine tolle Idee hatte, wissen das alle anderen sofort.
Das ist wie Momentum beim Radfahren: Sobald du in die richtige Richtung fährst, wird es leichter, weiterzufahren, weil du den Schwung (die erfolgreichen Ideen) mitnimmst. Du musst nicht bei Null anfangen.

C. Das Team aus mehreren Köchen (Multi-trace)
Statt nur einen Koch zu haben, hat Gome ein Team von 4 Köchen, die parallel arbeiten.

Jeder Koch backt seinen eigenen Kuchen.
Aber sie tauschen sich ständig aus. Wenn Koch A eine tolle Idee für die Zuckermenge hat, sagt er es Koch B.
Wichtig: Am Anfang zwingt Gome die Köche, ganz unterschiedliche Ideen zu haben (Diversität), damit sie nicht alle denselben Fehler machen.

3. Warum ist das jetzt so wichtig? (Der "Crossover"-Moment)

Die Forscher haben etwas Spannendes entdeckt:

Bei schwachen KIs (die noch nicht so gut denken können) ist das "Blind-Testen" (der alte Weg) noch besser. Denn wenn der Koch nicht weiß, warum der Kuchen schlecht ist, hilft ihm das Raten doch eher als falsche Ratschläge.
Aber sobald die KI sehr klug wird (wie die neuesten Modelle von OpenAI oder DeepSeek), ändert sich alles.
Je smarter die KI wird, desto besser wird Gome. Die kluge KI kann den "Gradienten" (die Richtung) perfekt berechnen. Sie braucht nicht mehr tausende Versuche, sondern nur noch wenige, gezielte Schritte.

Die Analogie:

Ein Anfänger (schwache KI) sollte lieber viele verschiedene Wege ausprobieren (Baumsuche), um überhaupt etwas zu finden.
Ein Meister (starke KI) sollte den direkten Weg nehmen (Gradienten-Optimierung), weil er genau weiß, wohin er muss.

4. Das Ergebnis

Gome hat auf einem großen Wettbewerb (MLE-Bench) getestet, wie gut es ist, Machine-Learning-Projekte zu automatisieren.

Mit einer starken KI (GPT-5) schaffte es 35,1%, eine Medaille zu gewinnen. Das ist der aktuelle Weltrekord.
Und das Beste: Es war schneller und effizienter. Es brauchte weniger Zeit und weniger Rechenleistung als die alten Methoden, weil es nicht unnötig herumprobieren musste.

Zusammenfassung in einem Satz

Gome verwandelt KI-Agenten von blind ratenden Suchern, die tausende Versuche machen, in intelligente Verfeinerer, die genau wissen, was sie ändern müssen, um das Ergebnis Schritt für Schritt zu verbessern – ähnlich wie ein erfahrener Handwerker, der sein Werkzeug präzise nutzt, statt einfach nur mehr Nägel einzuschlagen.

Je smarter die KI wird, desto mehr übertrifft diese neue Methode die alten, stumpfen Suchmethoden.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search" auf Deutsch.

1. Problemstellung

Die Automatisierung von Machine Learning Engineering (MLE) – also die autonome Durchführung von Datenvorverarbeitung, Feature-Engineering, Modellauswahl und Hyperparameter-Tuning – bleibt eine große Herausforderung. Bisherige LLM-basierte Agenten (z. B. AIDE, ML-Master, AIRA) verlassen sich primär auf suchbasierte Exploration (Baum- oder Graphensuche).

Limitierung bestehender Ansätze: Diese Methoden nutzen eine „gradientenfreie" Optimierung. Sie generieren viele Kandidaten, bewerten diese anhand eines skalaren Validierungsscores und wählen die besten aus (Ranking).
Das Kernproblem: Bei dieser Vorgehensweise gehen wertvolle diagnostische Informationen (Fehlermeldungen, Trainingsdynamiken, detaillierte Logs) verloren, da sie auf einen einzelnen Score komprimiert werden. Zudem operieren diese Agenten in einem vordefinierten Aktionsraum (Templates), was die kontinuierliche Natur von Code-Änderungen nicht gut abbildet.
Hypothese: Mit fortschreitender Reasoning-Fähigkeit von LLMs wird die exhaustive Suche (Baumsuche) ineffizient. Stattdessen sollte eine gradientenbasierte Optimierung bevorzugt werden, bei der das LLM aus strukturiertem Feedback eine präzise Richtung für Verbesserungen ableitet (analog zu Gradientenabstieg im Vergleich zur zufälligen Suche).

2. Methodik: Gome

Die Autoren stellen Gome (Gradient-based Optimization for Machine Learning Engineering) vor, einen Agenten, der die Optimierung als gradientenbasierten Prozess neu definiert.

Kernkonzepte und Analogien:
Gome bildet klassische Optimierer-Module auf Agenten-Komponenten ab:

Strukturiertes Reasoning als Gradient ( $\nabla L$ ): Anstatt Kandidaten zu rangieren, analysiert das LLM strukturiertes Feedback (Logs, Diffs, Scores), um eine Richtung für die nächste Änderung zu bestimmen.
Erfolgsspeicher (Success Memory) als Momentum: Ein globaler Speicher aggregiert erfolgreiche Hypothesen und deren Feedback. Dies beschleunigt die Optimierung, indem bewährte Muster priorisiert werden.
Multi-Trace-Optimierung als verteilter SGD: Mehrere parallele Optimierungs-Traces (Pfade) teilen Wissen über den globalen Speicher, ähnlich wie verteiltes Stochastic Gradient Descent.

Der Gome-Framework-Ablauf:

Initialisierung: $N$ parallele Traces starten mit diversifizierten Hypothesen (Forced Diversification), um den Suchraum breit abzudecken.
Iterativer Zyklus:
1. Execution: Ausführen der aktuellen Lösung und Sammeln von Feedback (Scores, Logs, Code-Diffs).
2. Hierarchische Validierung: Ein mehrstufiger Check (Format, Datenlecks/Overfitting, umfassende Analyse) entscheidet, ob ein Update akzeptiert wird. Dies verhindert, dass täuschende Verbesserungen (z. B. durch Overfitting auf die Validierungsdaten) akzeptiert werden.
3. Memory Update: Erfolgreiche Hypothesen werden in den globalen Erfolgsspeicher $M$ geschrieben.
4. Strukturiertes Reasoning: Das LLM generiert basierend auf lokalem Feedback und globalem Wissen die nächste Hypothese (den „Gradienten").
Cross-Trace-Selektion: In Multi-Trace-Settings werden Kandidaten aus lokalen Hypothesen, dem besten Eintrag im globalen Speicher und probabilistisch gesampelten ähnlichen Hypothesen ausgewählt.

Closed-World-Protokoll:
Die Evaluation erfolgt strikt im „Closed-World"-Modus. Agenten dürfen keine externen Wissensquellen (Web-Suche, Kaggle-Notebooks) nutzen, sondern nur die bereitgestellten Aufgabenmaterialien und das Ausführungsrückmeldung. Dies isoliert den Einfluss der Optimierungsarchitektur von externem Wissen.

3. Wichtige Beiträge

Paradigmenwechsel: Einführung von Gome, das MLE-Agenten von einer score-zentrierten Kandidatenauswahl hin zu einer update-zentrierten, gradientenbasierten Optimierung führt.
State-of-the-Art Performance: Gome erreicht unter strengen Closed-World-Bedingungen (12 Stunden Zeitbudget, einzelne V100 GPU) eine Any-Medal-Rate von 35,1% auf dem MLE-Bench (75 Kaggle-Wettbewerbe), was den vorherigen Rekord (gehalten von suchbasierten Methoden) übertrifft.
Skalierungsanalyse (Scaling Law): Die Studie zeigt einen kritischen Wendepunkt (Crossover):
- Bei schwächeren Modellen (z. B. GPT-4o) übertrifft die exhaustive Baumsuche die gradientenbasierte Methode, da die „Gradienten" (Reasoning) zu verrauscht sind.
- Bei starken Reasoning-Modellen (z. B. o3, GPT-5) übertrifft Gome die Baumsuche deutlich, und die Lücke vergrößert sich mit der Modellstärke.
- Dies belegt, dass gradientenbasierte Optimierung mit der Verbesserung der Reasoning-Fähigkeit von LLMs skaliert, während Baumsuche primär mit Rechenkapazität (mehr Knoten) skaliert.

4. Ergebnisse

Benchmark-Leistung: Auf MLE-Bench erreicht Gome mit GPT-5 eine Medal-Rate von 35,1% (verglichen mit 24,0% für ML-Master unter gleichen Bedingungen).
Effizienz: Gome erreicht mit halbem Zeitbudget (12h vs. 24h) und schwächerer Hardware (V100 vs. H200/A100) Ergebnisse, die mit Open-World-Methoden konkurrieren.
Robustheit gegen Overfitting: Die hierarchische Validierung erkennt 66,7% der Fälle von „täuschenden Verbesserungen" (Overfitting auf Validierungsdaten), während rein score-getriebene Baselines diese zu 0% erkennen.
Ablationsstudie: Das Entfernen von „Strukturiertem Reasoning", „Erfolgsspeicher" oder „Multi-Trace-Optimierung" führt zu signifikanten Leistungseinbußen, was die Notwendigkeit aller Komponenten unterstreicht.
Live-Validierung: Auf einem echten Kaggle-Wettbewerb (Store Sales Forecasting) erreichte Gome eine Top-15%-Platzierung und entwickelte eigenständig komplexe Pipelines (Feature-Engineering, zweistufige Modelle) ohne externe Hilfe.

5. Bedeutung und Ausblick

Das Paper etabliert eine neue Design-Dimension für MLE-Agenten: Statt immer komplexere Suchstrategien zu entwickeln, sollte der Fokus auf die Qualität des „Gradienten" (d. h. die Fähigkeit des LLM, aus Feedback präzise Verbesserungsrichtungen abzuleiten) gelegt werden.

Zukunftsperspektive: Da sich reasoningsorientierte LLMs (wie o1, o3, GPT-5) rasant verbessern, wird die gradientenbasierte Optimierung zum bevorzugten Paradigma.
Implikation: Die Skalierung von Agenten hängt zukünftig weniger von der Rechenleistung für die Suche ab, sondern von der Reasoning-Kapazität des zugrundeliegenden Modells.
Open Source: Der Code und die Traces von GPT-5 wurden veröffentlicht, um Reproduzierbarkeit und weitere Forschung zu fördern.

Zusammenfassend demonstriert Gome, dass die Umformulierung von Reasoning als Gradienten-Signal eine effizientere und leistungsfähigere Methode zur Automatisierung von Machine Learning ist, sobald die Reasoning-Fähigkeiten der Modelle einen bestimmten Schwellenwert überschreiten.

Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

1. Der alte Weg: Das "Blind-Testen" (Tree Search)

2. Der neue Weg: Gome (Das "Verstehen")

Die drei Geheimwaffen von Gome:

3. Warum ist das jetzt so wichtig? (Der "Crossover"-Moment)

4. Das Ergebnis

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Gome

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

PnLCalib: Sports Field Registration via Points and Lines Optimization

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

DRUPI: Dataset Reduction Using Privileged Information