AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een chef-kok bent die probeert het perfecte recept voor een nieuwe soep te vinden. Normaal gesproken zou jij zelf proeven, een snufje zout toevoegen, weer proeven, misschien wat peper, en zo verder gaan tot het perfect is. Dit kost tijd, en je kunt maar een paar keer per dag koken omdat je moet slapen en eten.

AutoResearch-RL is als een onzichtbare, super-snelle robot-chef die 24 uur per dag in je keuken werkt, nooit moe wordt, en elke seconde een nieuw recept uitprobeert. Maar dit is geen gewone robot; hij leert van elke fout en elke succesvolle soep, en wordt steeds slimmer.

Hier is hoe dit werkt, vertaald naar alledaagse taal:

1. De Keuken (Het Experiment)

In plaats van een echte keuken, heeft deze robot een digitale "keuken" waar hij code schrijft voor een computerprogramma dat een AI-model traint (een soort digitale hersenen).

De taak: De robot moet het recept (de code) steeds een klein beetje aanpassen. Misschien doet hij de "vuurkracht" (leercoëfficiënt) iets hoger, of voegt hij een extra laag aan het model toe.
De test: Elke keer dat hij iets aanpast, kookt hij de soep (traint het model) voor precies 5 minuten. Niet langer, niet korter.
De smaaktest: Na die 5 minuten kijkt hij of de soep lekkerder is geworden. In de wereld van AI noemen ze dit de "bits-per-byte" score. Hoe lager dit getal, hoe "lekkerder" (slimmer) de soep is.

2. De Robot die Leert (De RL Agent)

Deze robot is geen simpele machine die alleen maar willekeurig dingen probeert. Hij is een lerende agent (een Reinforcement Learning agent).

Hij onthoudt alles: Hij heeft een notitieboekje (zijn geheugen) waarin hij schrijft: "Probeer 1: te veel zout, soep was zout. Probeer 2: te weinig zout, soep was waterig. Probeer 3: precies goed!"
Hij leert strategieën: In plaats van alleen te kijken naar het laatste recept, kijkt hij naar zijn hele geschiedenis. Hij leert patronen: "Ah, als ik de temperatuur verhoog en tegelijkertijd de hoeveelheid zout verlaag, wordt de soep vaak beter."
De beloning: Als de soep lekkerder is dan de vorige keer, krijgt hij een "sterretje" (een beloning). Als het slechter is, krijgt hij een duimpje omlaag. Na honderden pogingen weet hij precies welke combinaties werken.

3. De Slimme Assistent (Zelfevaluatie)

Dit is misschien wel het slimste deel. Stel, de robot probeert een recept dat er belachelijk uitziet. In een normaal proces zou hij de hele 5 minuten wachten tot de soep klaar is om te proeven, om te zien dat het mislukt is. Dat is tijdverspilling!

De robot heeft een slimme assistent die de pan in de gaten houdt:

Na 30 seconden kijkt deze assistent naar de soep. Als hij ziet dat het al duidelijk niet lekker wordt, zegt hij: "Stop! Dit gaat niet lukken."
De robot gooit de pan leeg en begint direct met een nieuw recept.
Het resultaat: Omdat hij zo snel stopt met slechte ideeën, kan hij in hetzelfde uur 2,4 keer zoveel recepten proberen dan zonder deze assistent.

4. Wat hebben ze ontdekt?

De robot heeft niet zomaar wat gevonden. Na een nachtje werken (ongeveer 8 uur) had hij een recept gevonden dat beter was dan wat de beste menselijke chef-koks (experts) hadden bedacht.
Hij vond dingen als:

Een nieuwe manier om de "vuurkracht" in te stellen.
Een trucje om de soep stabiel te houden, zodat je er meer van kunt maken (grotere batches).
Een extra laag aan het model toevoegen die net past binnen de tijdslimiet.

Waarom is dit belangrijk?

Vroeger moest een menselijke onderzoeker dagenlang werken om één nieuw idee te testen. Met AutoResearch-RL kan een computer dit perpetueel (ononderbroken) doen.

Hij slaapt niet.
Hij wordt niet moe.
Hij leert van elke fout.

Het is alsof we een wetenschapper hebben gecreëerd die nooit stopt met experimenteren. De snelheid van nieuwe ontdekkingen wordt niet meer beperkt door hoeveel uren een mens kan werken, maar alleen door hoeveel rekenkracht we beschikbaar hebben.

Kortom: Het is een robot die 24/7 kookt, direct stopt als het mislukt, en na een nachtje werken een recept heeft dat beter is dan wat de beste menselijke chef ooit heeft bedacht. En hij blijft doorgaan, elke dag weer, om het nog beter te maken.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

De geschiedenis van deep learning wordt gedomineerd door menselijk "trial-and-error": onderzoekers hypotheseren architecturale wijzigingen, implementeren deze, trainen modellen en analyseren resultaten. Dit proces is traag, duur en beperkt door menselijke werkuren.

Bestaande oplossingen voor Automated Machine Learning (AutoML) hebben twee fundamentele beperkingen:

Ze behandelen de zoekruimte als vast (bijv. alleen hyperparameters of vooraf gedefinieerde architecturen).
Ze behandelen de evaluator als een black box.

Deze aannames houden geen stand wanneer de onderzoeksgrens verschuift naar fundamentele veranderingen in trainingsdynamiek, verliesformuleringen en optimizer-ontwerp. Het paper introduceert AutoResearch-RL, een framework dat een Reinforcement Learning (RL) agent in staat stelt om open-ended onderzoek te doen naar neurale architecturen en hyperparameters zonder menselijke tussenkomst, waarbij de agent de volledige trainingscode (een train.py script) kan wijzigen.

2. Methodologie

Het systeem wordt geformaliseerd als een Markov Decision Process (MDP) en bestaat uit drie gescheiden componenten: een vastomlijnde omgeving, een wijzigbaar doelbestand en een meta-lerende agent.

A. Markov Decision Process (MDP) Formulering

State ( $s_t$ ): Een concatenatie van de huidige broncode ( $c_t$ ), de geschiedenis van eerdere experimenten ( $h_t$ ), en systeemdetectie (GPU-geheugen, verstreken tijd).
Action ( $a_t$ ): Een gestructureerde code-diff (insertie, vervanging, verwijdering) die wordt toegepast op het train.py bestand.
Reward ( $r_t$ ): Gebaseerd op de verbetering in Validation Bits-Per-Byte (val-bpb). De reward wordt berekend als $-\Delta bpb + \lambda_{eff} \cdot \eta_t$ , waarbij $\eta_t$ een bonus is voor reken-efficiëntie.
Beperking: Elk experiment loopt onder een vaste tijdslimiet (bijv. 300 seconden). Dit zorgt voor eerlijke vergelijkingen tussen verschillende configuraties, ongeacht modelgrootte of batchgrootte.

B. De Agent en Policy

Architectuur: De agent is een op transformers gebaseerd taalmodel (fine-tuned met PPO - Proximal Policy Optimization).
Context: De agent ontvangt een lange context-prompt met de research-agenda, de huidige code, en een log van de laatste $K$ experimenten (code-diffs, resultaten en zelfevaluatie-opmerkingen).
Lerend vermogen: In tegenstelling tot standaard RL waar de state statisch is, groeit de "werkgeheugen" van de agent monotoon. De agent leert niet alleen individuele edits, maar onderzoekstrategieën door te kijken naar lange-termijn patronen in de experimentgeschiedenis.

C. Zelfevaluatie-module (Self-Evaluation)

Om rekenkracht te besparen, bevat het systeem een module die de trainingscurve in real-time monitort:

Online Voorspelling: Elke 30 seconden past de module een power-law model toe op de loss-curve om de uiteindelijke bpb te voorspellen.
Early Stopping: Als de voorspelde prestatie onder een pessimistische drempel valt (gebaseerd op historische data en standaardafwijking), wordt het experiment vroegtijdig afgebroken.
Bandit Probleem: Dit wordt gemodelleerd als een "best-arm identification" probleem met een Sequential Probability Ratio Test (SPRT) om de kans op het onterecht afbreken van veelbelovende runs te minimaliseren.

3. Belangrijkste Bijdragen

Rigoureuze MDP Formuleren: Het eerste wiskundige kader voor perpetuele, autonome code-onderzoekslussen.
PPO Meta-Policy: Een beleid dat conditioneert op volledige experimentgeschiedenis, waardoor de agent strategieën leert in plaats van slechts lokale edits.
Convergentiegaranties: Afgeleide sufficientiecondities die aantonen dat de beste gevonden bpb monotoon verbetert en convergeert naar het minimum in de bereikbare configuratieruimte.
Zelfevaluatie Module: Een mechanisme dat onbelovende runs vroegtijdig stopt, wat leidt tot een 2.4x toename in experimentdoorvoer per GPU-uur.
Empirisch Bewijs: Demonstratie dat het systeem handmatig getuned State-of-the-Art (SoTA) resultaten bereikt en overtreft op een single-GPU benchmark, zonder menselijke tussenkomst.

4. Resultaten

De experimenten zijn uitgevoerd op een Single-GPU Nanochat Pretraining Benchmark (10B tokens, FineWeb dataset, NVIDIA H100).

Vergelijking: AutoResearch-RL werd vergeleken met een menselijke expert, random search, en een "greedy" LLM (zonder RL-finetuning).
Prestaties (na ~8 GPU-uren / 100 experimenten):
- Menselijke Expert: 2.847 val-bpb
- Random Search: 2.791 val-bpb
- Greedy LLM (zonder RL): 2.734 val-bpb
- AutoResearch-RL: 2.681 val-bpb (Laagste is beter).
Ontdekte Innovaties: De agent ontdekte niet-triviale verbeteringen, waaronder:
- Schaling van de Muon optimizer (learning rate en weight decay aanpassingen).
- Implementatie van QK-norm (normalisatie op queries en keys) voor stabiliteit.
- Een dynamisch gradient clipping schema (warm-up in plaats van vaste waarde).
- Verhoging van het aantal transformer-layers (van 12 naar 14) binnen de tijdslimiet.
Doorlopende Verbetering: Het systeem blijft verbeteren bij langere rekentijden (van "overnight" tot "een week"), waarbij de val-bpb daalt naar 2.608 na 2147 experimenten.

5. Betekenis en Conclusie

AutoResearch-RL vertegenwoordigt een fundamentele verschuiving in wetenschappelijke vooruitgang binnen machine learning:

Van Mens naar Compute: De snelheid van algoritmische ontdekking wordt niet langer beperkt door de bandbreedte van menselijke onderzoekers, maar door de beschikbare rekenkracht.
Autonome Wetenschap: Het paper toont aan dat een RL-agent, gekoppeld aan een LLM, in staat is om complexe, open-ended onderzoekslussen te doorlopen, waarbij het de code zelf herschrijft om de prestaties te optimaliseren.
Veiligheid en Reproduceerbaarheid: Het systeem is ontworpen met veiligheidsmaatregelen (geen netwerkbereik, strikte tijdslimieten, isolatie van het wijzigbare bestand) en logt elke wijziging voor menselijke controle.

Kortom, AutoResearch-RL bewijst dat autonome agents niet alleen hyperparameters kunnen optimaliseren, maar ook de onderliggende trainingsalgoritmes en architecturale keuzes kunnen synthetiseren, wat leidt tot resultaten die handmatige expertkennis overtreffen.