AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen unermüdlichen, super-intelligenten Koch, der in einer Küche arbeitet, in der niemand ihm sagt, was er tun soll. Dieser Koch ist kein gewöhnlicher Mensch, sondern eine künstliche Intelligenz (ein sogenannter RL-Agent). Seine Aufgabe? Nicht einfach nur ein Rezept nachkochen, sondern neue, bessere Rezepte erfinden, indem er ständig das Kochbuch (den Programmcode) umschreibt.

Das ist im Grunde die Idee hinter AutoResearch-RL, einem neuen System, das in diesem Papier vorgestellt wird. Hier ist die Erklärung, wie das funktioniert, ganz ohne Fachchinesisch:

1. Der ewige Koch-Loop (Das Grundprinzip)

Normalerweise forschen Wissenschaftler so: Sie haben eine Idee, testen sie, schauen auf die Ergebnisse, ändern etwas und testen wieder. Das dauert lange und ist mühsam.

AutoResearch-RL macht das anders:

Der KI-Koch schaut in sein Kochbuch (den Trainingscode).
Er denkt sich eine kleine Änderung aus (z. B. "Vielleicht sollte ich mehr Salz nehmen" oder "Vielleicht kochen wir bei etwas höherer Hitze").
Er schreibt diese Änderung in das Buch.
Er kocht eine kleine Portion (läuft den Code für genau 5 Minuten).
Er schmeckt die Probe (misst, wie gut das Ergebnis ist).
Der Clou: Wenn es besser schmeckt, behält er die Änderung. Wenn es schlechter schmeckt, wirft er sie weg und probiert etwas Neues.
Und das macht er die ganze Nacht durch, ohne zu schlafen, ohne Pause und ohne dass ein Mensch ihm hilft.

2. Die drei wichtigen Regeln (Das Design)

Damit der Koch fair bleibt und nicht verrückt wird, gibt es drei feste Regeln:

Die Küche bleibt gleich: Die Zutaten (Daten) und der Ofen (Hardware) ändern sich nie. Nur das Rezept darf sich ändern. So kann man wirklich vergleichen, ob das neue Rezept besser ist.
Das Rezept ist veränderbar: Nur eine einzige Datei (das "Kochbuch") darf vom Koch umgeschrieben werden.
Der Koch lernt aus der Vergangenheit: Der Koch hat ein Gedächtnis. Er erinnert sich an alle seine vorherigen Versuche. Wenn er merkt, dass "viel Salz" immer gut war, wird er das öfter versuchen. Er lernt also nicht nur ein Rezept, sondern die Kunst des Kochens selbst.

3. Der "Frühwarn-System" (Selbstbewertung)

Ein großes Problem beim automatischen Forschen ist Zeitverschwendung. Stell dir vor, der Koch hat ein Rezept probiert, das nach 10 Minuten klar schmeckt, als würde er Gift enthalten. Aber er wartet trotzdem die vollen 5 Minuten ab, um sicherzugehen? Das wäre dumm.

Deshalb hat AutoResearch-RL einen intelligenten Assistenten eingebaut:

Dieser Assistent schaut sich die Kurve des Kochens in Echtzeit an.
Wenn er merkt: "Hey, das läuft in die falsche Richtung, das wird nie gut", stoppt er den Ofen sofort.
Das spart enorm viel Zeit. Das Papier sagt, dass dadurch fast 2,5-mal mehr Experimente pro Stunde möglich sind, weil keine Zeit mit hoffnungslosen Rezepten vergeudet wird.

4. Was hat der Koch eigentlich entdeckt?

In einem Test (auf einem kleinen Computer-Chip, der wie ein Mini-Supercomputer funktioniert) hat dieser KI-Koch über Nacht gearbeitet.

Startpunkt: Ein von Menschen handgeschriebenes Rezept (ein Standard-Modell).
Ergebnis: Nach ca. 100 Versuchen (was nur eine Nacht dauert) hatte der KI-Koch ein Rezept gefunden, das besser war als das des Menschen.
Was hat er geändert? Er hat Dinge gefunden, die auch echte Experten heute nutzen:
- Er hat die "Geschwindigkeit" des Lernens (Lernrate) optimiert.
- Er hat eine neue Technik eingeführt, damit die Aufmerksamkeit des Modells stabiler bleibt (QK-Norm).
- Er hat das Modell sogar ein bisschen größer gemacht, obwohl es nur 5 Minuten Zeit hatte.

5. Warum ist das so besonders?

Früher dachte man, KI kann nur Dinge tun, für die sie programmiert wurde. Hier zeigt sich etwas Neues:

Die KI erfindet nicht nur zufällig, sondern lernt Strategien. Sie versteht, welche Art von Änderungen meistens funktionieren.
Sie arbeitet unendlich weiter. Wenn man ihr mehr Zeit gibt (eine ganze Woche statt einer Nacht), wird sie immer besser. Sie hört nicht auf, nur weil ein Mensch schläft.

Zusammenfassung in einem Satz

**AutoResearch-RL ist wie ein KI-Koch, der in einer perfekten Küche die ganze Nacht durch experimentiert, sofort merkt, wenn ein Rezept misslingt, und am Ende des Tages ein Rezept serviert, das besser ist als das, was die besten menschlichen Köche vorher zusammengestellt haben – und das alles, ohne dass jemand ihm hilft.

Das Ziel ist es, die Geschwindigkeit der wissenschaftlichen Entdeckung nicht mehr durch die Arbeitszeit von Menschen, sondern nur noch durch die verfügbare Rechenleistung zu begrenzen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Entwicklung von Deep-Learning-Modellen basiert traditionell auf einem menschlich gesteuerten Prozess von Hypothesenbildung, Implementierung, Training und Analyse. Dieser Zyklus ist langsam, teuer und durch die Arbeitszeiten von Forschern begrenzt.
Bestehende Ansätze im Bereich Automated Machine Learning (AutoML) und Neural Architecture Search (NAS) haben zwei wesentliche Einschränkungen:

Sie behandeln den Suchraum als fest definiert (z. B. nur Hyperparameter oder vordefinierte Architekturgrammatiken).
Sie betrachten den Evaluierer oft als Blackbox und ermöglichen keine tiefgreifenden Änderungen an Trainingsdynamiken, Verlustfunktionen oder Optimierern.

Das Ziel von AutoResearch-RL ist es, einen Agenten zu schaffen, der ohne menschliches Eingreifen offen-ended (offen endend) Neural Architecture und Hyperparameter-Forschung betreibt. Der Agent soll den gesamten Trainingscode (insbesondere train.py) modifizieren können und dabei perpetuell (unendlich) laufen, bis eine Konvergenz oder Erschöpfung der Ressourcen signalisiert wird.

2. Methodik

Das System wird als Markov-Entscheidungsprozess (MDP) formalisiert und nutzt Proximal Policy Optimization (PPO) als Meta-Lernstrategie.

A. MDP-Formulierung

Zustand ( $s_t$ ): Besteht aus dem aktuellen Quellcode (train.py), dem Verlauf der Experimente (Code-Änderungen und erreichte Belohnungen) sowie Systemdiagnosen (GPU-Speicher, verstrichene Zeit).
Aktion ( $a_t$ ): Eine strukturierte Code-Änderung (Diff: Einfügen, Ersetzen, Löschen), die auf train.py angewendet wird.
Übergang: Deterministische Code-Aktualisierung gefolgt von stochastischen Trainingsdynamiken.
Belohnung ( $r_t$ ): Basierend auf der Verbesserung der Validation Bits-Per-Byte (val-bpb). Zusätzlich gibt es einen Bonus für Recheneffizienz und eine Strafe für Syntaxfehler oder verschwendete Rechenzeit.
Zeitbudget: Jedes Experiment läuft unter einem festen Zeitbudget (z. B. 300 Sekunden), um faire Vergleiche zwischen verschiedenen Architekturen und Batch-Größen zu gewährleisten.

B. Der AutoResearch-RL Agent

Policy-Architektur: Der Agent ist ein auf einem Transformer basierendes Sprachmodell (fine-tuned mit PPO), das als Eingabe den aktuellen Code, eine Forschungsagenda und einen strukturierten Log der letzten $K$ Experimente erhält.
Meta-Lernen: Im Gegensatz zu Standard-RL, das nur einzelne Änderungen lernt, lernt dieser Agent Forschungsstrategien, indem er den gesamten Experimentverlauf als „Arbeitsgedächtnis" nutzt.
Selbstbewertung (Self-Evaluation Module): Ein kritischer Baustein zur Vermeidung von Ressourcenverschwendung.
- Das Modul überwacht die Verlustkurve in Echtzeit.
- Es passt ein Potenzgesetz-Modell ( $\hat{L}(t) = a \cdot t^{-b} + c$ ) an die beobachtete Kurve an.
- Basierend auf einer Vorhersage des Endwerts und einem pessimistischen Schwellenwert (unter Berücksichtigung der historischen Varianz) wird das Training frühzeitig abgebrochen, wenn keine Verbesserung erwartet wird.
- Dies wird als Best-Arm-Identifikationsproblem (Sequential Probability Ratio Test) modelliert, um die Wahrscheinlichkeit falscher Abbrüche zu minimieren.

C. Konvergenzgarantie

Das Papier leitet theoretische Bedingungen für die Konvergenz her. Unter der milden Annahme, dass die Wahrscheinlichkeit einer Verbesserung ( $p_{min}$ ) strikt positiv ist, wird bewiesen, dass die beste bisherige val-bpb-Metrik fast sicher gegen das Minimum im erreichbaren Konfigurationsraum konvergiert.

3. Wichtige Beiträge

Rigorose MDP-Formulierung: Erstmals wird der Zyklus autonomer Code-Forschung als MDP formalisiert, was eine theoretische Analyse ermöglicht.
PPO-basierte Meta-Policy: Ein Ansatz, der auf dem gesamten Experimentverlauf konditioniert, sodass der Agent langfristige Forschungsstrategien lernt und nicht nur punktuelle Code-Edits.
Selbstbewertungsmodul: Ermöglicht das frühe Abbrechen vielversprechender Experimente und steigert den Durchsatz um das 2,4-fache (nach Berücksichtigung der verbesserten Policy über die Zeit).
Theoretische Analyse: Herleitung von Konvergenzgarantien und Analyse des Exploration-Exploitation-Trade-offs im diskreten Code-Edit-Raum.
Empirische Validierung: Demonstration auf einem Single-GPU-Benchmark, dass das System handgefertigte State-of-the-Art-Ergebnisse erreicht und übertrifft.

4. Ergebnisse

Die Evaluation erfolgte auf dem Single-GPU Nanochat Pretraining-Benchmark (FineWeb-Datensatz, 10B Tokens, BPE-Vokabular 4096) mit einem Zeitbudget von 300 Sekunden pro Experiment.

Vergleich der Methoden (nach ca. 8 GPU-Stunden):
- Menschlicher Experte (Baseline): 2.847 val-bpb.
- Random Search: 2.791 val-bpb.
- Greedy LLM (ohne RL, Zero-Shot): 2.734 val-bpb.
- AutoResearch-RL (Ours): 2.681 val-bpb (Bestes Ergebnis).
Lernkurve: Der RL-Agent findet Verbesserungen schneller als Random Search oder ein rein prompt-basierter LLM und erreicht einen niedrigeren Endwert.
Effizienzsteigerung: Durch das Selbstbewertungsmodul wurden 54,3 % der Experimente frühzeitig abgebrochen (durchschnittlich bei 37,6 % des Budgets), was zu einer 1,35-fachen Steigerung der Experimente pro Stunde führte.
Skalierung: Bei längerer Laufzeit (bis zu einer Woche) verbessert sich das Ergebnis weiter (bis auf 2.608 val-bpb), zeigt aber abnehmende Grenzerträge.
Entdeckte Innovationen: Der Agent fand nicht-triviale Änderungen, darunter:
- Skalierung des Muon-Optimierers (höhere Lernrate, geringerer Weight Decay).
- Einführung von QK-Norm (L2-Normalisierung für Queries und Keys) zur Stabilisierung der Attention-Entropie.
- Dynamisches Gradient-Clipping mit Warm-up.
- Erhöhung der Transformer-Layer von 12 auf 14.

5. Bedeutung und Ausblick

AutoResearch-RL markiert einen Paradigmenwechsel in der maschinellen Lernforschung:

Autonomie: Es demonstriert, dass KI-Agenten komplexe Forschungszyklen ohne menschliches Eingreifen durchführen können, indem sie Code direkt manipulieren.
Ressourcen als Limit: Die Geschwindigkeit der algorithmischen Entdeckung wird nicht mehr durch die Bandbreite menschlicher Forscher, sondern primär durch verfügbare Rechenleistung begrenzt.
Sicherheit: Das System ist durch strikte Isolation (nur eine Datei, kein Netzwerkzugriff, Zeitlimits) und vollständige Protokollierung aller Änderungen sicher gestaltet.

Das Papier zeigt, dass die Kombination aus Reinforcement Learning, Sprachmodellen und automatischer Selbstbewertung ein leistungsfähiges Framework für die Entdeckung neuer Trainings- und Architekturrezepte darstellt, das über das hinausgeht, was durch manuelle Optimierung oder statische Suchräume erreichbar ist.