Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

Die Arbeit stellt \textsc{Gome} vor, einen MLE-Agenten, der gradientenbasierte Optimierung anstelle von Baumsuche nutzt und durch die Abbildung diagnostischer Schlussfolgerungen auf Gradientenberechnung bei leistungsstarken Modellen einen neuen State-of-the-Art auf MLE-Bench erreicht.

Yifei Zhang, Xu Yang, Xiao Yang, Bowen Xian, Qizheng Li, Shikai Fang, Jingyuan Li, Jian Wang, Mingrui Xu, Weiqing Liu, Jiang Bian

Veröffentlicht Wed, 11 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Koch, der versucht, das perfekte Rezept für einen komplexen Kuchen zu finden. Du hast eine Küche (den Computer), Zutaten (Daten) und einen Geschmackstester (die Bewertung).

Das Ziel ist es, den besten Kuchen zu backen, ohne dabei die ganze Küche in Brand zu stecken oder Jahre zu brauchen.

Bisher haben KI-Systeme, die solche Aufgaben lösen (die sogenannten "Agenten"), einen sehr ineffizienten Weg gewählt. Die Autoren dieses Papers nennen ihre neue Methode Gome. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar lustigen Vergleichen:

1. Der alte Weg: Das "Blind-Testen" (Tree Search)

Stell dir vor, du bist ein Koch, der keinen Geschmackssinn hat. Du musst das Rezept finden, indem du einfach alles ausprobierst:

  • Versuch 1: Zu viel Salz. (Schmeckt schlecht -> weg damit).
  • Versuch 2: Zu viel Zucker. (Schmeckt schlecht -> weg damit).
  • Versuch 3: Vielleicht ein bisschen Vanille? (Besser, aber nicht perfekt).

Das ist wie ein Baum, der immer weiter verzweigt. Du probierst tausende Varianten aus, nur um zu sehen, welche ein bisschen besser ist. Das funktioniert okay, wenn du nicht weißt, warum etwas schmeckt. Aber es ist extrem langsam und verschwenderisch. Die meisten bisherigen KI-Agenten machten genau das: Sie generierten viele Lösungen, bewerteten sie mit einer Zahl (z. B. "8/10") und wählten die beste aus, ohne wirklich zu verstehen, was sie ändern müssen.

2. Der neue Weg: Gome (Das "Verstehen")

Gome ist wie ein Meisterkoch mit einem super scharfen Geschmackssinn und einem Notizbuch.
Anstatt blind 1000 Varianten auszuprobieren, sagt Gome: "Aha, der Kuchen ist zu trocken. Ich weiß genau, dass ich 10% mehr Milch hinzufügen und die Backzeit um 2 Minuten kürzen muss."

Das ist der Kern der Idee: Schluss mit blindem Raten, her mit dem Verständnis.

Die drei Geheimwaffen von Gome:

A. Der Geschmackstest als "Gradient" (Die Richtung)
In der Mathematik gibt es "Gradienten", die einem sagen, in welche Richtung man laufen muss, um einen Berg hinauf (oder ein Tal hinab) zu kommen.

  • Alte Methode: Der Koch schaut auf die Zahl "8/10" und denkt: "Okay, ich versuche mal was Neues."
  • Gome: Der Koch schaut auf den Kuchen und denkt: "Der ist zu trocken, weil das Mehl zu alt war. Ich ersetze es durch frisches Mehl."
    Das ist wie ein GPS. Statt zufällig im Wald zu laufen, zeigt dir Gome genau den Pfad zum Ziel.

B. Das Notizbuch als "Impuls" (Momentum)
Wenn du etwas Neues ausprobierst und es funktioniert, schreibst du es in dein Notizbuch.

  • Gome hat ein globales Notizbuch (Success Memory). Wenn ein Teammitglied (ein "Spur") eine tolle Idee hatte, wissen das alle anderen sofort.
  • Das ist wie Momentum beim Radfahren: Sobald du in die richtige Richtung fährst, wird es leichter, weiterzufahren, weil du den Schwung (die erfolgreichen Ideen) mitnimmst. Du musst nicht bei Null anfangen.

C. Das Team aus mehreren Köchen (Multi-trace)
Statt nur einen Koch zu haben, hat Gome ein Team von 4 Köchen, die parallel arbeiten.

  • Jeder Koch backt seinen eigenen Kuchen.
  • Aber sie tauschen sich ständig aus. Wenn Koch A eine tolle Idee für die Zuckermenge hat, sagt er es Koch B.
  • Wichtig: Am Anfang zwingt Gome die Köche, ganz unterschiedliche Ideen zu haben (Diversität), damit sie nicht alle denselben Fehler machen.

3. Warum ist das jetzt so wichtig? (Der "Crossover"-Moment)

Die Forscher haben etwas Spannendes entdeckt:

  • Bei schwachen KIs (die noch nicht so gut denken können) ist das "Blind-Testen" (der alte Weg) noch besser. Denn wenn der Koch nicht weiß, warum der Kuchen schlecht ist, hilft ihm das Raten doch eher als falsche Ratschläge.
  • Aber sobald die KI sehr klug wird (wie die neuesten Modelle von OpenAI oder DeepSeek), ändert sich alles.
  • Je smarter die KI wird, desto besser wird Gome. Die kluge KI kann den "Gradienten" (die Richtung) perfekt berechnen. Sie braucht nicht mehr tausende Versuche, sondern nur noch wenige, gezielte Schritte.

Die Analogie:

  • Ein Anfänger (schwache KI) sollte lieber viele verschiedene Wege ausprobieren (Baumsuche), um überhaupt etwas zu finden.
  • Ein Meister (starke KI) sollte den direkten Weg nehmen (Gradienten-Optimierung), weil er genau weiß, wohin er muss.

4. Das Ergebnis

Gome hat auf einem großen Wettbewerb (MLE-Bench) getestet, wie gut es ist, Machine-Learning-Projekte zu automatisieren.

  • Mit einer starken KI (GPT-5) schaffte es 35,1%, eine Medaille zu gewinnen. Das ist der aktuelle Weltrekord.
  • Und das Beste: Es war schneller und effizienter. Es brauchte weniger Zeit und weniger Rechenleistung als die alten Methoden, weil es nicht unnötig herumprobieren musste.

Zusammenfassung in einem Satz

Gome verwandelt KI-Agenten von blind ratenden Suchern, die tausende Versuche machen, in intelligente Verfeinerer, die genau wissen, was sie ändern müssen, um das Ergebnis Schritt für Schritt zu verbessern – ähnlich wie ein erfahrener Handwerker, der sein Werkzeug präzise nutzt, statt einfach nur mehr Nägel einzuschlagen.

Je smarter die KI wird, desto mehr übertrifft diese neue Methode die alten, stumpfen Suchmethoden.