Synthesizing Interpretable Control Policies through Large Language Model Guided Search

Dit artikel presenteert een methode die Large Language Models en evolutionaire algoritmen combineert om interpreteerbare besturingspoliieken in standaard programmeertalen te synthetiseren voor dynamische systemen, zoals de pendel en de bal in de beker, waardoor transparantie en menselijke aanpasbaarheid worden vergroot ten opzichte van traditionele black-box benaderingen.

Carlo Bosio, Mark W. Mueller

Gepubliceerd Thu, 12 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een pendulum (een slinger) omhoog te zwaaien of een bal in een kopje te vangen. Normaal gesproken laten we dit doen door een "zwart doosje" van kunstmatige intelligentie (AI) te trainen. Dit doosje is een enorm complex neuraal netwerk dat na duizenden pogingen weet wat het moet doen, maar niemand weet waarom het die beslissingen neemt. Het is als een genie dat een taak perfect uitvoert, maar als je vraagt hoe het dat deed, zegt het alleen: "Ik heb het gewoon gevoeld."

In deze paper stellen Carlo Bosio en Mark Mueller een nieuwe manier voor. Ze willen geen onbegrijpelijke zwarte doosjes, maar heldere, leesbare instructies die een mens kan begrijpen, lezen en zelfs zelf aanpassen.

Hier is hoe hun methode werkt, vertaald naar alledaagse taal:

1. De Idee: Schrijf een recept, niet een magieformule

In plaats van een neuraal netwerk te laten "groeien", laten ze de AI Python-code schrijven. Python is een programmeertaal die mensen lezen en begrijpen.

  • De Analogie: Stel je voor dat je een kok wilt leren koken.
    • De oude manier: Je laat de kok duizenden keren koken en hij onthoudt de smaak, maar je ziet nooit het recept. Als het eten verbrandt, weet je niet of het de temperatuur was of de tijd.
    • De nieuwe manier: Je laat de AI een recept schrijven. "Als de pan heet is, doe dan boter erbij." Dit recept is een programma. Iedereen kan het lezen, begrijpen en zeggen: "Oh, misschien moeten we de boter iets later toevoegen."

2. De Werkwijze: De AI als een creatieve chef-kok met een proefkeuken

De auteurs gebruiken een Large Language Model (LLM), zoals een super-intelligente tekstgenerator, maar dan gespecialiseerd in code. Het proces lijkt op een spelletje "verbeteren en proberen":

  1. De Opdracht: Je geeft de AI een startrecept (een stukje basiscode) en een proefkeuken (een simulatie).
  2. Het Proefnemen: De AI schrijft een nieuw recept (een programma). Dit programma wordt in de simulatie getest.
    • Voorbeeld: Laat de AI een programma schrijven dat de slinger omhoog zwaait.
  3. De Score: Als het programma faalt (de slinger valt), krijgt het een slechte score. Als het werkt, krijgt het een goede score.
  4. De Evolutie: De AI kijkt naar de beste recepten die tot nu toe zijn gemaakt. Het zegt: "Oké, dit recept werkte goed, maar dat andere stukje was ook slim. Laten we die twee combineren en proberen het nog beter te maken."
  5. Herhaling: Dit proces herhaalt zich duizenden keren. De AI "evolueert" steeds betere programma's, net zoals biologische evolutie, maar dan met code in plaats van DNA.

3. Het Resultaat: Een transparante machine

Het mooie resultaat is dat je aan het einde geen onbegrijpelijke wiskundige matrices krijgt, maar een eenvoudig Python-script.

  • Voorbeeld uit de paper: Voor de slinger (pendulum) schreef de AI een programma dat in mensentaal vertaald ongeveer zo klinkt:

    "Als de slinger bijna rechtop staat, gebruik dan een zachte, lineaire beweging. Maar als hij nog ver weg is, duw hem dan hard op en af (zoals een 'bang-bang' schakeling) om energie op te bouwen."

Dit is iets wat een menselijke ingenieur direct kan lezen, begrijpen en zelfs verbeteren. Misschien wil je de "zachte beweging" iets anders instellen? Dan pas je gewoon twee regels code aan. Je hoeft geen PhD in deep learning te hebben.

4. Waarom is dit belangrijk?

  • Veiligheid: In kritieke systemen (zoals een auto of een robot in een fabriek) wil je weten waarom een beslissing wordt genomen. Een zwarte doos is riskant; een leesbaar recept is veilig.
  • Samenwerking: Mensen kunnen samenwerken met de AI. De AI zoekt de basis, en de mens kan de laatste hand leggen op basis van intuïtie.
    • Voorbeeld uit de paper: Bij het "bal in kopje"-spel zag de AI een oplossing, maar een mens keek ernaar en dacht: "Wacht, als de bal te hoog is, moet het kopje iets zakken." De mens voegde die ene regel code toe, en het resultaat werd veel beter.

Samenvattend

De auteurs zeggen eigenlijk: "Laten we AI niet gebruiken om een onbegrijpelijke magie te creëren, maar als een krachtige assistent om heldere instructies te schrijven."

Ze gebruiken de kracht van de AI om te zoeken in een oneindig universum van mogelijke programma's, maar het eindresultaat is iets dat voor elke mens begrijpelijk is. Het is alsof je een genie hebt dat duizenden recepten bedenkt, maar het beste recept op een kaartje schrijft dat je zelf kunt lezen en aanpassen.