Code World Models for Parameter Control in Evolutionary Algorithms

Dit onderzoek toont aan dat Code World Models, waarbij een LLM de dynamiek van een evolutionair algoritme leert simuleren op basis van suboptimale trajecten, de mutatiesterkte effectief kan sturen om superieure prestaties te behalen op diverse combinatorische optimalisatieproblemen vergeleken met bestaande adaptieve methoden en DQN.

Camilo Chacón Sartori, Guillem Rodríguez Corominas

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote puzzel moet oplossen, zoals een Sudoku of een legpuzzel met duizend stukjes. Je hebt een robot die stukjes verplaatst om de puzzel op te lossen. Maar hier is het probleem: de robot weet niet precies hoe hij de stukjes moet verplaatsen. Soms moet hij één stukje verschuiven, soms tien, en soms moet hij er twintig tegelijk verplaatsen.

De vraag is: Hoeveel stukjes moet de robot per keer verplaatsen om de puzzel het snelst op te lossen?

In de wereld van computerwetenschappen noemen ze dit "parameter control" (het regelen van de instellingen). Meestal gebruiken mensen vaste regels of slimme algoritmen om dit te bepalen, maar die regels werken niet altijd goed, vooral als de puzzel een "val" heeft waar de robot in vastloopt.

Dit artikel introduceert een nieuwe, slimme manier om dit op te lossen met behulp van een AI-chatbot (een Large Language Model, of LLM).

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Gids" die de AI zelf schrijft

Stel je voor dat je een nieuwe stad binnenkomt en je wilt de snelste route naar het centrum vinden. Normaal gesproken zou je een kaart gebruiken of iemand vragen.
In dit onderzoek laten ze de AI (de chatbot) echter zelf een kaart tekenen.

  • De training: De AI kijkt eerst naar een paar honderd voorbeelden van hoe de robot de puzzel probeerde op te lossen. Sommige pogingen waren slordig, sommige waren slim, maar geen enkele was perfect.
  • De synthese: De AI schrijft vervolgens een klein computerprogramma (een "wereldmodel"). Dit programma is als een simulator: het kan voorspellen wat er gebeurt als de robot 1 stukje verplaatst, of 10, of 20.
  • Het resultaat: De AI heeft nu een "gids" in zijn hoofd die zegt: "Als we nu op dit punt zijn, is het slim om 3 stukjes te verplaatsen, want dan komen we dichter bij de oplossing."

2. De "Valse Val" (De Jump-probleem)

Sommige puzzels hebben een valstrik. Stel je voor dat je bijna klaar bent met je legpuzzel, maar er zit een gat in het midden. Als je probeert het gat te overbruggen door één stukje te verplaatsen, mislukt het. Je moet precies 2 stukjes tegelijk verplaatsen om eroverheen te springen.

  • De oude robots: De traditionele algoritmen zien dat het niet lukt en denken: "Oh, ik moet voorzichtig zijn. Ik ga maar één stukje verplaatsen." Daardoor blijven ze voor eeuwig in de val zitten.
  • De nieuwe AI-robot: Omdat de AI zelf de kaart heeft getekend, ziet hij de valstrik in zijn simulator. Hij denkt: "Ah, ik zie dat ik hier een grote sprong moet maken!" en verplaatst direct 2 stukjes.
  • Het resultaat: De oude robots halen het nooit (0% succes), maar de nieuwe AI haalt het 100% van de tijd.

3. Waarom is dit zo speciaal?

Er zijn twee grote voordelen aan deze methode:

  • Het is niet "zwart doos": Veel moderne AI's (zoals Deep Learning) zijn als een magische doos: je stopt data erin en er komt een antwoord uit, maar je weet niet waarom. Hier schrijft de AI echter echt Python-code. Je kunt die code lezen en zien: "Ah, de AI heeft besloten om hier 2 stukjes te verplaatsen omdat de kans op succes dan het grootst is." Het is transparant en controleerbaar.
  • Het leert van weinig data: Om een traditioneel AI-systeem (zoals DQN) te trainen, moet je duizenden keren proberen en falen. Deze AI heeft maar een paar honderd voorbeelden nodig om een goede kaart te tekenen. Het is alsof je iemand die maar één keer door een stad is gelopen, laat zien hoe je een perfecte navigatie-app bouwt.

4. Wat hebben ze ontdekt?

De onderzoekers hebben dit getest op verschillende soorten "puzzels":

  1. Simpele puzzels: De AI deed het net zo goed als de beste bekende methoden.
  2. Tricky puzzels (Jump): Waar alle andere methoden faalden, slaagde de AI.
  3. Chaos-puzzels (NK-landschap): Puzzels waar geen vaste regels voor bestaan. Hier gebruikte de AI statistieken uit de data om een kaart te maken en deed het weer beter dan iedereen.

Conclusie

Dit artikel laat zien dat je geen menselijke expert nodig hebt om de beste regels voor een robot te bedenken. Als je een slimme AI vraagt om een simulator te schrijven op basis van wat hij heeft gezien, kan die AI zelf de beste strategie bedenken.

Het is alsof je een student vraagt om een handleiding te schrijven voor het oplossen van een puzzel, gebaseerd op het kijken naar anderen die het proberen. De student schrijft de handleiding, en die handleiding blijkt beter te werken dan de handleidingen van de oude experts. En het mooiste is: je kunt de handleiding lezen en begrijpen wat er gebeurt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →