Each language version is independently generated for its own context, not a direct translation.
De Kunst van het Bouwen van een Perfecte Spelregels: Hoe AI Leren van Fouten
Stel je voor dat je een heel complex bordspel wilt spelen, maar je hebt alleen een beschrijving in gewone taal: "Je kunt hier een blokje verplaatsen, maar alleen als er geen muur is." Je wilt dat een computer dit spel speelt, maar computers hebben een heel strikt, formeel taal nodig (zoals PDDL) om te weten wat ze precies moeten doen. Het probleem? Als je die beschrijving aan een moderne AI (een 'Large Language Model' of LLM) geeft, maakt die vaak fouten. Het spelregelsboek dat de AI schrijft, ziet er misschien netjes uit, maar is onbruikbaar: je kunt er geen plan mee maken om te winnen.
Dit artikel over ICLR 2026 gaat over hoe we die AI kunnen helpen om die perfecte spelregels te schrijven, door haar te laten leren van haar eigen fouten.
Hier is hoe het werkt, vertaald naar alledaagse taal:
1. Het Probleem: De AI is een Beginneling
Stel je voor dat je een jonge kok bent die een recept moet schrijven voor een taart, maar je hebt alleen een mond-tot-mond beschrijving van je oma. De kok schrijft een recept, maar vergeet de suiker of gebruikt de verkeerde ovenstand. Als je het recept direct gebruikt, mislukt de taart.
In de wereld van AI-planning is dit hetzelfde. De AI schrijft een "domein" (de spelregels), maar deze zijn vaak logisch onzin, zelfs als ze grammaticaal correct zijn.
2. De Oplossing: Een Feedback-Cyclus
De auteurs van dit paper zeggen: "Laten we de AI niet alleen laten. Laten we haar een coach geven."
Ze hebben een systeem bedacht waarbij de AI een eerste versie van de spelregels schrijft, en vervolgens een coach (een computerprogramma) kijkt of die regels werken. Als het niet werkt, krijgt de AI een specifieke tip over wat er mis is.
Er zijn twee soorten "coaches" die ze gebruiken:
De "Landmark"-Coach (De Wegwijzer):
Stel je voor dat je door een bos loopt. Je weet dat je ooit een brug moet oversteken om bij je bestemming te komen. Dat is een "landmark". De coach zegt tegen de AI: "Je hebt een brug nodig in je regels, maar in je huidige versie is er geen enkele route die een brug gebruikt. Voeg een brug toe!"
Dit helpt de AI om de grote lijnen van het spel te begrijpen.De "Plan"-Coach (De Testrijder):
Stel je voor dat je een auto bouwt. Je laat een testrijder (een plan) de route rijden. Als de testrijder vastloopt omdat de remmen niet werken, zegt de coach: "Je remmen werken niet in deze situatie. Pas je regels aan."
Dit is gedetailleerde feedback op basis van feitelijke fouten in de uitvoering.
3. De Slimme Zoektocht: Niet Willekeurig, maar Strategisch
Eerst probeerden de onderzoekers gewoon willekeurig een fout te kiezen om de AI te corrigeren. Dat is alsof je in een donker lokaal rondloopt en hoopt dat je per ongeluk de lichtknop vindt.
In dit paper introduceren ze iets slims: Zoeken in de ruimte van feedback.
Stel je voor dat je een boomplantje hebt. Je kunt het water geven, mest geven, of in de zon zetten. In plaats van willekeurig iets te proberen, kijkt de AI naar alle mogelijke tips die ze zou kunnen krijgen. Ze kiezen dan de beste tip (de mest, de zon, of het water) die de grootste kans heeft om het plantje te laten groeien.
Dit noemen ze Heuristische Zoektocht. Het is alsof je een GPS gebruikt die je de snelste route naar de perfecte spelregels toont, in plaats van blindelings rond te dwalen.
4. Wat Vonden Ze? (De Resultaten)
De onderzoekers hebben dit getest op veel verschillende "spellen" (van simpele blokken stapelen tot complexe Pac-Man-achtige scenarios).
- Feedback werkt: Zonder feedback maakt de AI veel fouten. Met feedback wordt het spelregelsboek veel beter.
- De combinatie is krachtig: Als je zowel de "Wegwijzer" (landmarks) als de "Testrijder" (plannen) gebruikt, krijg je de beste resultaten.
- Slim zoeken is vaak beter: De strategische zoektocht (de GPS) werkt vaak beter dan willekeurig proberen, hoewel het soms net zo goed is als gewoon een willekeurige tip geven.
- Het resultaat: Met hun beste methode (gebruikmakend van een model genaamd GPT-5-mini) konden ze voor elk geteste spel een perfecte set regels maken die 100% werkte.
Conclusie: Waarom is dit belangrijk?
Vroeger moesten mensen handmatig de complexe spelregels voor computers schrijven. Dat is moeilijk en tijdrovend.
Dit paper laat zien dat we AI nu kunnen gebruiken om die regels zelf te schrijven, zolang we haar maar een beetje helpen door haar te laten zien waar ze fouten maakt. Het is alsof we een AI-kok hebben die een recept schrijft, en we geven haar een paar tips van een proefpersoon totdat de taart perfect is.
Dit maakt het mogelijk om in de toekomst veel complexere en creatievere AI-systemen te bouwen, zonder dat we er zelf jarenlang uren aan moeten besteden om de basisregels te coderen. Het is een stap richting AI die niet alleen praat, maar ook daadwerkelijk kan plannen en werken in de echte wereld.
Ontvang papers zoals deze in je inbox
Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.