Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel klein, slim robotje (een taalmodel) wilt trainen om beter te worden in het begrijpen van taal. Maar dit robotje heeft duizenden knoppen en schuifregelaars (de hyperparameters) die je moet instellen om het optimaal te laten werken. Als je deze knoppen verkeerd zet, werkt het robotje niet of crasht het.

De vraag die de auteurs van dit onderzoek stellen is: Wie is de beste "knoppen-draaier"?

De klassieke computer (die heel slim is in wiskunde en patronen herkennen).
Een LLM (een kunstmatige intelligentie die heel goed is in taal en code schrijven, maar misschien minder goed in wiskundige statistiek).
Een hybride team (een samenwerking tussen beide).

Hier is wat ze hebben ontdekt, vertaald naar alledaagse taal:

1. De "Klassieke Computer" wint op het vaste speelveld

Stel je voor dat je een spelletje speelt waarbij je alleen maar schuifregelaars mag bewegen binnen een strak kader (bijvoorbeeld: "zet de snelheid tussen 1 en 10").

Wat gebeurde er? De klassieke algoritmen (zoals CMA-ES en TPE) waren hier superieur. Ze waren als een veteranische monteur die precies weet welke schroef hij moet draaien om het motorblok te laten lopen. Ze vonden de beste instellingen veel sneller en betrouwbaarder dan de AI.
Het probleem met de AI: Als je de AI (de LLM) dwingt om alleen binnen die strakke regels te werken, doet ze alsof ze een monteur is, maar ze blijft een dromer. Ze probeert te veel verschillende dingen, maakt veel fouten (zoals het robotje laten crashen door te veel geheugen te gebruiken), en vindt de beste oplossing niet.

2. De "AI" schittert als ze vrijheid krijgt

Maar wat als je de AI niet beperkt tot alleen schuifregelaars? Wat als je haar de code (het bouwpakket) van het robotje geeft en zegt: "Schrijf je eigen regels, als je maar beter wordt"?

Het resultaat: De AI (in dit geval een model dat code kan schrijven) deed het verrassend goed. Ze kon de code zelf aanpassen, nieuwe ideeën bedenken en de "knoppen" op een creatieve manier regelen. Ze kwam heel dicht in de buurt van de klassieke monteur, zelfs met een vrij klein en goedkoop model.
De les: De kracht van de AI zit hem in zijn creativiteit en domeinkennis (hij weet hoe code werkt), niet in het blindelings zoeken in een lijstje met opties.

3. De "Centaur": Het beste van twee werelden

De auteurs bedachten een genial idee: Centaur.
In de mythologie is een Centaur half mens, half paard. Hier is het een hybride team:

De klassieke monteur (CMA-ES) houdt de leiding. Hij weet precies waar hij moet zoeken en voorkomt dat het robotje crasht.
De AI komt af en toe (ongeveer 30% van de tijd) langs. Ze kijkt naar de situatie, leest de notities van de monteur, en zegt: "Hé, ik heb een idee! Laten we deze ene knop iets anders zetten, want dat past beter bij hoe taal werkt."
Het resultaat: Dit team won het onderzoek! Het was sneller, betrouwbaarder en vond de beste oplossing.
De verrassing: Het bleek dat je voor dit team geen superkrachtige, dure AI nodig hebt. Een klein, goedkoop model (0.8 miljard parameters) werkte zelfs beter dan een groot model (27 miljard parameters). Waarom? Omdat de "monteur" het zware werk doet en de AI alleen maar kleine, slimme suggesties doet. Een goedkoop model is daarvoor meer dan genoeg.

Samenvatting in één zin

Als je alleen maar schuifregelaars moet draaien, vertrouw dan op de wiskundige monteur; als je de code zelf mag herschrijven, geef dan de AI de vrijheid; maar als je het allerbeste resultaat wilt, geef de monteur de leiding en laat de AI af en toe een slim idee geven.

De grote les voor de toekomst:
Soms denken we dat "groter en krachtiger" (grote AI-modellen) altijd beter is. Maar dit onderzoek laat zien dat samenwerking en betrouwbaarheid (niet laten crashen) vaak belangrijker zijn dan pure kracht. En soms is een klein, slim teamje beter dan een gigantische, dure eenling.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het paper onderzoekt de prestaties van Large Language Models (LLMs) als hyperparameter-optimalisatie (HPO) agenten in vergelijking met klassieke HPO-algoritmen. De context is het optimaliseren van een klein taalmodel (ongeveer 50 miljoen parameters) via het autoresearch-framework, waarbij een LLM-agent de trainingscode direct kan bewerken om de prestaties te verbeteren.

De kernvragen zijn:

Hoe presteren andere klassieke HPO-methoden op deze taak?
Kunnen LLM-based HPO-methoden klassieke methoden overtreffen?
Wat is het effect van het beperken van de zoekruimte (vaste hyperparameters) versus het direct bewerken van broncode (onbeperkte zoekruimte)?

Methodologie

De auteurs hebben een benchmark uitgevoerd met 9 verschillende HPO-methoden onder identieke voorwaarden:

Taak: Training van een klein decoder-only transformer (nanochat) op het FineWeb-dataset, met als doel het minimaliseren van de validatie "bits-per-byte" (val_bpb).
Budget: 24 uur GPU-tijd (NVIDIA H200) met 3 verschillende zaden (seeds).
Zoekruimte:
- Vast: 14 hyperparameters (zoals leerstijlen, batchgrootte, attention-window) die automatisch zijn geëxtraheerd uit de trainingscode via Abstract Syntax Tree (AST) parsing.
- Onbeperkt: Directe bewerking van de train.py broncode door de LLM-agent.
LLM-Infrastructuur: Alle LLM-methoden gebruikten een zelfgehost, open-weight model (Qwen3.5), in twee varianten: 0.8B en 27B parameters. De inferentie-overhead is uitgesloten van de wall-clock tijd om de optimalisatiekwaliteit zuiver te meten.
Foutbehandeling: Trials die faalden door "Out-of-Memory" (OOM) werden bestraft met een zeer slechte score (val_bpb = 100.0) om de optimalisator te leren deze gebieden te vermijden.

Belangrijkste Bijdragen

Uitgebreide Benchmark: Een eerlijke vergelijking van 4 klassieke methoden (o.a. CMA-ES, TPE, SMAC, Random Search), 4 LLM-based methoden, en 1 hybride methode.
Introductie van Centaur: Een nieuwe hybride methode die de volledige interne staat van CMA-ES (mean vector $\mu$ , stapgrootte $\sigma$ , en covariantiematrix $C$ ) deelt met de LLM. De LLM gebruikt deze informatie om voorstellen te doen, maar de CMA-ES update zijn staat op basis van alle resultaten, inclusief die waar de LLM het voorstel heeft overschreven.
Analyse van State Tracking: Een diepgaande analyse van hoe goed LLM's de optimalisatiestatus over verschillende trials kunnen bijhouden en het belang van betrouwbaarheid (OOM-voorkoming) versus zoekdiversiteit.

Resultaten

1. Klassieke methoden winnen in vaste zoekruimtes

Binnen de vaste zoekruimte van 14 hyperparameters presteerden klassieke methoden (zoals CMA-ES en TPE) consistent beter dan pure LLM-agenten.

CMA-ES en TPE convergeerden sneller en naar betere eindwaarden dan LLM-methoden die alleen op een vaste lijst van hyperparameters opereerden.
LLM-methoden die beperkt waren tot een vaste zoekruimte, presteerden soms zelfs slechter dan willekeurige zoekopdrachten (Random Search).

2. Onbeperkte code-bewerking is competitief maar vereist schaal

De Karpathy Agent (Code), die direct de broncode bewerkt, kon de klassieke methoden aanzienlijk benaderen, ondanks het gebruik van een open-weight model.

Schaalbaarheid: Het verhogen van het model van 0.8B naar 27B parameters was cruciaal voor onbeperkte code-bewerking (verbetering van 0.9910 naar 0.9814 val_bpb).
Voor vaste hyperparameter-methoden leverde het schalen van 0.8B naar 27B echter geen significant voordeel op.

3. Centaur (Hybride) is de beste methode

Centaur behaalde de beste resultaten in het experiment (val_bpb ≈ 0.9763).

Werking: De LLM werd slechts op 30% van de trials ingeschakeld om CMA-ES-voorstellen te verfijnen of te overschrijven.
Stabiliteit: Centaur verlaagde de variantie tussen verschillende zaden aanzienlijk ten opzichte van puur CMA-ES (std daalde van 0.0036 naar 0.0005). De LLM fungeerde als een stabiliserende factor door domeinkennis toe te voegen.
Modelgrootte: Opvallend genoeg presteerde de 0.8B variant van Centaur beter dan de 27B variant. Dit suggereert dat een goedkope LLM voldoende is wanneer deze wordt gekoppeld aan een sterke klassieke optimizer, zolang de LLM niet de volledige zoekopdracht moet leiden.

4. Betrouwbaarheid vs. Diversiteit

De analyse toonde aan dat het vermijden van OOM-fouten belangrijker is dan grote zoekdiversiteit.

Methoden met hoge OOM-rates (zoals sommige LLAMBO-varianten met >48% OOM) presteerden slecht, ondanks dat ze een breed scala aan configuraties testten.
Klassieke methoden zoals CMA-ES en TPE hielden de OOM-rates laag (11-16%) door expliciet de optimalisatiestaat bij te houden, wat leidde tot efficiëntere zoekopdrachten.

Betekenis en Conclusie

Het paper concludeert dat LLM's op dit moment geen klassieke HPO-algoritmen kunnen verslaan binnen een strikt gedefinieerde, vaste zoekruimte. Klassieke methoden zoals CMA-ES zijn superieur in het efficiënt navigeren door de optimalisatielandschap.

Echter, LLM's tonen hun kracht in onbeperkte zoekruimtes (directe code-bewerking), waar ze de kloof met klassieke methoden aanzienlijk verkleinen. De meest veelbelovende richting is hybride optimalisatie: het combineren van de robuustheid en state-tracking van klassieke methoden met de domeinkennis en creativiteit van LLM's. De Centaur-methode demonstreert dat een kleine, goedkope LLM (0.8B) in combinatie met een sterke klassieke optimizer (CMA-ES) de beste resultaten kan behalen, wat suggereert dat de toekomst van AutoML ligt in synergie en niet in vervanging.