Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Hoewel klassieke hyperparameteroptimalisatie-algoritmes beter presteren dan LLM-agents bij het afstemmen van vaste zoekruimtes, overtreft de hybride 'Centaur'-methode, die de interne toestand van CMA-ES deelt met een LLM, beide benaderingen en toont aan dat een klein, goedkoop taalmodel voldoende is wanneer het wordt gecombineerd met een sterke klassieke optimizer.

Fabio Ferreira, Lucca Wobbe, Arjun Krishnakumar, Frank Hutter, Arber Zela

Gepubliceerd 2026-03-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel klein, slim robotje (een taalmodel) wilt trainen om beter te worden in het begrijpen van taal. Maar dit robotje heeft duizenden knoppen en schuifregelaars (de hyperparameters) die je moet instellen om het optimaal te laten werken. Als je deze knoppen verkeerd zet, werkt het robotje niet of crasht het.

De vraag die de auteurs van dit onderzoek stellen is: Wie is de beste "knoppen-draaier"?

  1. De klassieke computer (die heel slim is in wiskunde en patronen herkennen).
  2. Een LLM (een kunstmatige intelligentie die heel goed is in taal en code schrijven, maar misschien minder goed in wiskundige statistiek).
  3. Een hybride team (een samenwerking tussen beide).

Hier is wat ze hebben ontdekt, vertaald naar alledaagse taal:

1. De "Klassieke Computer" wint op het vaste speelveld

Stel je voor dat je een spelletje speelt waarbij je alleen maar schuifregelaars mag bewegen binnen een strak kader (bijvoorbeeld: "zet de snelheid tussen 1 en 10").

  • Wat gebeurde er? De klassieke algoritmen (zoals CMA-ES en TPE) waren hier superieur. Ze waren als een veteranische monteur die precies weet welke schroef hij moet draaien om het motorblok te laten lopen. Ze vonden de beste instellingen veel sneller en betrouwbaarder dan de AI.
  • Het probleem met de AI: Als je de AI (de LLM) dwingt om alleen binnen die strakke regels te werken, doet ze alsof ze een monteur is, maar ze blijft een dromer. Ze probeert te veel verschillende dingen, maakt veel fouten (zoals het robotje laten crashen door te veel geheugen te gebruiken), en vindt de beste oplossing niet.

2. De "AI" schittert als ze vrijheid krijgt

Maar wat als je de AI niet beperkt tot alleen schuifregelaars? Wat als je haar de code (het bouwpakket) van het robotje geeft en zegt: "Schrijf je eigen regels, als je maar beter wordt"?

  • Het resultaat: De AI (in dit geval een model dat code kan schrijven) deed het verrassend goed. Ze kon de code zelf aanpassen, nieuwe ideeën bedenken en de "knoppen" op een creatieve manier regelen. Ze kwam heel dicht in de buurt van de klassieke monteur, zelfs met een vrij klein en goedkoop model.
  • De les: De kracht van de AI zit hem in zijn creativiteit en domeinkennis (hij weet hoe code werkt), niet in het blindelings zoeken in een lijstje met opties.

3. De "Centaur": Het beste van twee werelden

De auteurs bedachten een genial idee: Centaur.
In de mythologie is een Centaur half mens, half paard. Hier is het een hybride team:

  • De klassieke monteur (CMA-ES) houdt de leiding. Hij weet precies waar hij moet zoeken en voorkomt dat het robotje crasht.
  • De AI komt af en toe (ongeveer 30% van de tijd) langs. Ze kijkt naar de situatie, leest de notities van de monteur, en zegt: "Hé, ik heb een idee! Laten we deze ene knop iets anders zetten, want dat past beter bij hoe taal werkt."
  • Het resultaat: Dit team won het onderzoek! Het was sneller, betrouwbaarder en vond de beste oplossing.
  • De verrassing: Het bleek dat je voor dit team geen superkrachtige, dure AI nodig hebt. Een klein, goedkoop model (0.8 miljard parameters) werkte zelfs beter dan een groot model (27 miljard parameters). Waarom? Omdat de "monteur" het zware werk doet en de AI alleen maar kleine, slimme suggesties doet. Een goedkoop model is daarvoor meer dan genoeg.

Samenvatting in één zin

Als je alleen maar schuifregelaars moet draaien, vertrouw dan op de wiskundige monteur; als je de code zelf mag herschrijven, geef dan de AI de vrijheid; maar als je het allerbeste resultaat wilt, geef de monteur de leiding en laat de AI af en toe een slim idee geven.

De grote les voor de toekomst:
Soms denken we dat "groter en krachtiger" (grote AI-modellen) altijd beter is. Maar dit onderzoek laat zien dat samenwerking en betrouwbaarheid (niet laten crashen) vaak belangrijker zijn dan pure kracht. En soms is een klein, slim teamje beter dan een gigantische, dure eenling.