Localizing and Correcting Errors for LLM-based Planners

Deze paper introduceert Localized In-Context Learning (L-ICL), een methode die de prestaties van LLM-planners aanzienlijk verbetert door gefocuste correcties voor specifieke fouten toe te voegen, waardoor het aantal geldige plannen in diverse domeinen significant toeneemt ten opzichte van bestaande technieken.

Aditya Kumar, William W. Cohen

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe we LLM's leren om niet door muren te lopen

Stel je voor dat je een zeer slimme, maar nogal ongeduldige robot hebt die alles kan lezen en schrijven. Deze robot is een meester in wiskunde en programmeren, maar als je hem vraagt om een plan te maken om door een doolhof te lopen of blokken te stapelen, faalt hij vaak op de gekste manieren. Hij probeert bijvoorbeeld gewoon door een muur te lopen, of hij pakt een blok terwijl zijn hand al vol zit.

De onderzoekers van dit paper (Aditya Kumar en William Cohen) hebben een oplossing bedacht die ze L-ICL noemen. Laten we uitleggen hoe dit werkt met een paar simpele vergelijkingen.

Het Probleem: De "Grote Boek" aanpak werkt niet

Stel je voor dat je iemand wilt leren hoe je een doolhof loopt.

  • De oude manier (RAG-ICL): Je geeft die persoon een heel dik boek vol met verhalen van andere mensen die het doolhof succesvol hebben gelopen. Het probleem is dat het boek alleen laat zien dat ze het hebben gehaald, maar niet waarom ze op punt X niet naar rechts mochten gaan. De lezer moet zelf raden wat de regels zijn. Het resultaat? De persoon leest het hele boek, maar loopt toch tegen de muur aan.
  • De nieuwe manier (L-ICL): Je geeft geen boek. Je laat de persoon gewoon proberen. Zodra hij tegen de muur loopt, stop je hem direct en zeg je: "Hé, op dit specifieke punt mag je niet naar rechts, want daar is een muur. Hier is een klein kaartje met de juiste richting." Je geeft dus geen heel verhaal, maar alleen een specifiek correctiekaartje voor de fout die hij net maakte.

De Oplossing: "Unit Tests" voor een robot

De onderzoekers vergelijken hun methode met unit testing in softwareontwikkeling.

  • In de softwarewereld test je niet alleen of het hele programma werkt (eindtest), maar test je ook elk klein stukje code apart om te zien of het klopt.
  • L-ICL doet precies dat voor de robot. Als de robot een fout maakt (bijvoorbeeld: "Ik ga door muur"), voegen ze een klein voorbeeld toe aan de instructies die de robot krijgt. Dit voorbeeld zegt: "Als je hier staat, zijn deze bewegingen verboden."

Dit gebeurt iteratief:

  1. De robot probeert een plan.
  2. Een slimme "scheidsrechter" (een simpele computer) kijkt mee en ziet de eerste fout.
  3. De scheidsrechter maakt een klein correctie-voorbeeld (een "doctest") en plakt dit in de instructies van de robot.
  4. De robot probeert het opnieuw, nu met die extra kennis.
  5. Dit herhaalt zich totdat de robot de regels van het spel perfect begrijpt.

Waarom is dit zo slim?

  1. Efficiëntie: Het is veel sneller dan een heel boek lezen. Met slechts 60 kleine correcties (in plaats van duizenden woorden aan voorbeelden) haalde de robot 89% succes in een doolhof, terwijl de beste andere methoden maar 59% haalden.
  2. Leren van fouten: De robot leert niet door te zien hoe het moet, maar door te zien wat niet mag. Dit is vaak effectiever.
  3. Alles werkt: Het werkt voor verschillende soorten robots (LLM-modellen) en in verschillende spelletjes, van simpele wandelingen tot complexe spelletjes als Sokoban (waar je dozen moet duwen).

De Grootte van de Prestatie

Op een simpele 8x8 rooster (een klein doolhofje) haalde de robot zonder hulp 0% succes. Hij liep gewoon door muren.
Met de L-ICL methode (na slechts 60 trainingen) haalde hij 89% succes. Hij leerde niet alleen de regels, maar kon ze ook toepassen.

Wat kan hij nog niet?

De methode is fantastisch om te leren wat mag en wat niet mag (bijvoorbeeld: niet door muren lopen). Maar het helpt minder bij het bedenken van de beste strategie.

  • Vergelijking: Stel je voor dat je een schaker bent. L-ICL leert je dat je je koning niet in het schaakmat mag zetten (de regel). Maar het leert je niet per se welke zet je moet doen om je tegenstander te verslaan (de strategie). In complexe spelletjes zoals Sokoban is het dus nog steeds lastig om de perfecte route te vinden, zelfs als je de regels kent.

Conclusie

De kernboodschap is: Kwaliteit van voorbeelden is belangrijker dan kwantiteit.
In plaats van een robot te overladen met duizenden voorbeelden van perfecte oplossingen, is het veel effectiever om hem te laten falen en hem dan direct de juiste les te geven voor die ene specifieke fout. Het is alsof je een leerling niet een heel jaar theorie laat lezen, maar hem direct corrigeert op het moment dat hij een fout maakt. Zo wordt de robot betrouwbaarder en slimmer, zonder dat we hem duizenden pagina's hoeven te laten lezen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →