AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

Die Arbeit stellt AutoResearch-RL vor, ein Framework für selbstbewertende Reinforcement-Learning-Agenten, die ohne menschliches Eingreifen autonom und kontinuierlich neuronale Architekturen und Hyperparameter optimieren, um durch iterative Code-Modifikationen und PPO-Updates nach etwa 300 Durchläufen handoptimierte Baseline-Ergebnisse zu erreichen oder zu übertreffen.

Nilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen unermüdlichen, super-intelligenten Koch, der in einer Küche arbeitet, in der niemand ihm sagt, was er tun soll. Dieser Koch ist kein gewöhnlicher Mensch, sondern eine künstliche Intelligenz (ein sogenannter RL-Agent). Seine Aufgabe? Nicht einfach nur ein Rezept nachkochen, sondern neue, bessere Rezepte erfinden, indem er ständig das Kochbuch (den Programmcode) umschreibt.

Das ist im Grunde die Idee hinter AutoResearch-RL, einem neuen System, das in diesem Papier vorgestellt wird. Hier ist die Erklärung, wie das funktioniert, ganz ohne Fachchinesisch:

1. Der ewige Koch-Loop (Das Grundprinzip)

Normalerweise forschen Wissenschaftler so: Sie haben eine Idee, testen sie, schauen auf die Ergebnisse, ändern etwas und testen wieder. Das dauert lange und ist mühsam.

AutoResearch-RL macht das anders:

  • Der KI-Koch schaut in sein Kochbuch (den Trainingscode).
  • Er denkt sich eine kleine Änderung aus (z. B. "Vielleicht sollte ich mehr Salz nehmen" oder "Vielleicht kochen wir bei etwas höherer Hitze").
  • Er schreibt diese Änderung in das Buch.
  • Er kocht eine kleine Portion (läuft den Code für genau 5 Minuten).
  • Er schmeckt die Probe (misst, wie gut das Ergebnis ist).
  • Der Clou: Wenn es besser schmeckt, behält er die Änderung. Wenn es schlechter schmeckt, wirft er sie weg und probiert etwas Neues.
  • Und das macht er die ganze Nacht durch, ohne zu schlafen, ohne Pause und ohne dass ein Mensch ihm hilft.

2. Die drei wichtigen Regeln (Das Design)

Damit der Koch fair bleibt und nicht verrückt wird, gibt es drei feste Regeln:

  1. Die Küche bleibt gleich: Die Zutaten (Daten) und der Ofen (Hardware) ändern sich nie. Nur das Rezept darf sich ändern. So kann man wirklich vergleichen, ob das neue Rezept besser ist.
  2. Das Rezept ist veränderbar: Nur eine einzige Datei (das "Kochbuch") darf vom Koch umgeschrieben werden.
  3. Der Koch lernt aus der Vergangenheit: Der Koch hat ein Gedächtnis. Er erinnert sich an alle seine vorherigen Versuche. Wenn er merkt, dass "viel Salz" immer gut war, wird er das öfter versuchen. Er lernt also nicht nur ein Rezept, sondern die Kunst des Kochens selbst.

3. Der "Frühwarn-System" (Selbstbewertung)

Ein großes Problem beim automatischen Forschen ist Zeitverschwendung. Stell dir vor, der Koch hat ein Rezept probiert, das nach 10 Minuten klar schmeckt, als würde er Gift enthalten. Aber er wartet trotzdem die vollen 5 Minuten ab, um sicherzugehen? Das wäre dumm.

Deshalb hat AutoResearch-RL einen intelligenten Assistenten eingebaut:

  • Dieser Assistent schaut sich die Kurve des Kochens in Echtzeit an.
  • Wenn er merkt: "Hey, das läuft in die falsche Richtung, das wird nie gut", stoppt er den Ofen sofort.
  • Das spart enorm viel Zeit. Das Papier sagt, dass dadurch fast 2,5-mal mehr Experimente pro Stunde möglich sind, weil keine Zeit mit hoffnungslosen Rezepten vergeudet wird.

4. Was hat der Koch eigentlich entdeckt?

In einem Test (auf einem kleinen Computer-Chip, der wie ein Mini-Supercomputer funktioniert) hat dieser KI-Koch über Nacht gearbeitet.

  • Startpunkt: Ein von Menschen handgeschriebenes Rezept (ein Standard-Modell).
  • Ergebnis: Nach ca. 100 Versuchen (was nur eine Nacht dauert) hatte der KI-Koch ein Rezept gefunden, das besser war als das des Menschen.
  • Was hat er geändert? Er hat Dinge gefunden, die auch echte Experten heute nutzen:
    • Er hat die "Geschwindigkeit" des Lernens (Lernrate) optimiert.
    • Er hat eine neue Technik eingeführt, damit die Aufmerksamkeit des Modells stabiler bleibt (QK-Norm).
    • Er hat das Modell sogar ein bisschen größer gemacht, obwohl es nur 5 Minuten Zeit hatte.

5. Warum ist das so besonders?

Früher dachte man, KI kann nur Dinge tun, für die sie programmiert wurde. Hier zeigt sich etwas Neues:

  • Die KI erfindet nicht nur zufällig, sondern lernt Strategien. Sie versteht, welche Art von Änderungen meistens funktionieren.
  • Sie arbeitet unendlich weiter. Wenn man ihr mehr Zeit gibt (eine ganze Woche statt einer Nacht), wird sie immer besser. Sie hört nicht auf, nur weil ein Mensch schläft.

Zusammenfassung in einem Satz

**AutoResearch-RL ist wie ein KI-Koch, der in einer perfekten Küche die ganze Nacht durch experimentiert, sofort merkt, wenn ein Rezept misslingt, und am Ende des Tages ein Rezept serviert, das besser ist als das, was die besten menschlichen Köche vorher zusammengestellt haben – und das alles, ohne dass jemand ihm hilft.

Das Ziel ist es, die Geschwindigkeit der wissenschaftlichen Entdeckung nicht mehr durch die Arbeitszeit von Menschen, sondern nur noch durch die verfügbare Rechenleistung zu begrenzen.