Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics

Dit onderzoek toont aan dat de persistentie van interpreter-estadoe tijdens het trainen van agenten een cruciale semantische eigenschap is die de efficiëntie en stabiliteit bepaalt, maar niet de uiteindelijke oplossingskwaliteit, en benadrukt dat trainingsdata moet worden afgestemd op de runtime-omgeving om kosten te verlagen en fouten te voorkomen.

Victor May, Aaditya Salgarkar, Yishan Wang, Diganta Misra, Huu Nguyen

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme robotassistent (een AI-agent) aan het trainen bent om een complexe puzzel op te lossen, zoals het inpakken van een rugzak met waardevolle spullen. Deze robot kan niet alleen praten, maar ook Python-code schrijven om de rekenwerkjes te doen.

Het centrale vraagstuk van dit onderzoek is heel simpel: Hoe onthoudt de robot wat hij al heeft gedaan?

Er zijn twee manieren om dit te regelen:

  1. De "Eeuwigdurende Geheugenbank" (Persistent): De robot werkt in een werkruimte waar alles wat hij schrijft (variabelen, lijsten, resultaten) blijft staan. Als hij in stap 1 een lijst maakt, is die in stap 10 nog steeds daar.
  2. De "Vergeetachtige Werkbank" (Stateless): Na elke stap wordt de werkruimte volledig schoongeveegd. Alles wat de robot schreef, is weg. Hij moet in de volgende stap alles opnieuw uitleggen in zijn tekstbericht, alsof hij het voor het eerst doet.

De onderzoekers wilden weten: Is dit geheugen gewoon een hulpmiddel tijdens het werken, of is het iets wat de robot leert en meeneemt naar zijn toekomstige taken?

Het Experiment: De "Ondoorzichtige Rugzak"

Om dit te testen, bedachten ze een nieuwe puzzel: de Ondoorzichtige Rugzak.
Stel je voor dat je een rugzak moet vullen met de meeste waarde, maar je ziet de gewichten en waarden van de spullen niet. Je moet ze eerst "inspecteren" met een dure tool (die maar een beperkt aantal keer mag). Je moet dus slim plannen, inspecteren, en je resultaten onthouden.

Ze maakten twee soorten trainingsdata voor dezelfde robot (een model genaamd Qwen3-8B):

  • Groep A leerde op basis van een eeuwigdurende werkbank. Hier mocht de robot gewoon doorgaan met zijn variabelen.
  • Groep B leerde op basis van een vergeetachtige werkbank. Hier moest de robot in elke nieuwe stap zijn eerdere resultaten opnieuw uitschrijven in de tekst, omdat de werkbank leeg was.

Daarna testten ze deze robots in twee verschillende werelden:

  1. Een wereld met een eeuwigdurende werkbank.
  2. Een wereld met een vergeetachtige werkbank.

De Resultaten: De "Amnesie-taks" en de "Naamfouten"

Wat bleek? De manier waarop je de robot traint, bepaalt hoe hij werkt, zelfs als je hem later in een andere omgeving zet.

1. De "Amnesie-taks" (De dure prijs van vergeten)
Als je een robot traint die gewend is aan een vergeetachtige werkbank (Groep B), en je zet hem neer in een wereld waar het geheugen wel blijft staan, doet hij het nog steeds alsof hij alles moet herhalen.

  • Analogie: Stel je voor dat je een kok traint in een keuken waar je na elke taak alle borden moet afwassen en de ingrediënten opnieuw moet tellen. Als je die kok daarna in een superkeuken zet waar de borden gewoon schoon blijven staan, zal hij toch blijven afwassen en opnieuw tellen. Hij doet het dubbel werk.
  • Gevolg: Deze robots gebruiken ongeveer 3,5 keer meer "tokens" (rekenkracht en tijd) dan nodig is. Ze betalen een "amnesie-taks": ze vergeten wat ze al deden, terwijl het systeem het juist voor hen zou kunnen onthouden.

2. De "Naamfouten" (De crash bij verandering)
Als je een robot traint die gewend is aan een eeuwigdurende werkbank (Groep A), en je zet hem neer in een vergeetachtige wereld, gaat het mis.

  • Analogie: Stel je voor dat je een chauffeur traint die gewend is aan een auto met een navigatiesysteem dat de route onthoudt. Als je hem dan in een auto zet zonder navigatie, blijft hij toch naar het scherm kijken en roepen: "Waar is de route?" terwijl de weg leeg is. Hij raakt in paniek en rijdt in cirkels.
  • Gevolg: In ongeveer 80% van de gevallen probeert de robot variabelen te gebruiken die er niet zijn. Hij krijgt foutmeldingen (zoals "Naam niet gevonden"), probeert het opnieuw, krijgt weer een fout, en blijft hangen in een eindeloze lus van mislukkingen.

De Grootste Les

Het verrassende is: De kwaliteit van het eindresultaat was ongeveer hetzelfde. Of de robot nu 3,5 keer meer werk deed of in een cirkel liep, hij kon de puzzel vaak toch oplossen.

Maar de efficiëntie en stabiliteit waren enorm verschillend.

Wat betekent dit voor de toekomst?
De onderzoekers concluderen dat de "werkbank" (het geheugensysteem) niet zomaar een technisch detail is dat je achter de schermen regelt. Het is een gedragspatroon dat de robot leert tijdens zijn training.

Als je een AI-agent bouwt die in de echte wereld moet werken, moet je heel bewust kiezen:

  • Wil je dat hij zijn werk onthoudt in het systeem? Dan moet je hem trainen met een systeem dat onthoudt.
  • Wil je dat hij alles in tekst uitlegt? Dan moet je hem trainen met een systeem dat vergeet.

Als je deze twee niet op elkaar afstemt, krijg je een robot die ofwel onnodig veel werk doet (en geld kost), ofwel constant crasht. De "werkbank" is dus geen onzichtbare hulpmiddel, maar een essentieel onderdeel van wat de robot leert te zijn.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →