Exploration and Exploitation Errors Are Measurable for Language Model Agents

Each language version is independently generated for its own context, not a direct translation.

Titel: De Verkenner en de Expert: Hoe AI-agenten de weg vinden (en waar ze vastlopen)

Stel je voor dat je een grote, onbekende stad moet verkennen om een geheim recept te vinden. Je hebt een kaart, maar die is grotendeels leeg. Je weet alleen dat er ergens een tomatensaus, pasta en kaas nodig zijn, maar je weet niet waar ze liggen. Je moet twee dingen doen:

Verkennen: De straten aflopen om te zien wat er is (de "verkenner").
Benutten: Als je weet waar de tomatensaus zit, daarheen lopen en het gebruiken (de "expert").

Dit is precies wat LM-agenten (AI's die tekst kunnen begrijpen en acties ondernemen) moeten doen in complexe taken, zoals het schrijven van code of het besturen van een robot. Maar hoe weet je of de AI goed is in het zoeken, of juist goed in het gebruik van wat ze al weten? En hoe meet je dat zonder te weten wat er in het "hoofd" van de AI zit?

De auteurs van dit paper hebben een slimme oplossing bedacht. Hier is de uitleg in simpele taal:

1. Het Probleem: Het "Zwarte Doos" Effect

Normaal gesproken kijken we alleen of een AI het einddoel haalt (bijv. "Heeft hij de code gemaakt?"). Maar als de AI faalt, weten we niet waarom.

Was hij te lui om te zoeken? (Slecht verkenner)
Of was hij te koppig en liep hij in rondjes terwijl hij al genoeg informatie had? (Slechte expert)

Tot nu toe was dit lastig te meten zonder de interne gedachten van de AI te kennen.

2. De Oplossing: Een Digitale Labyrint-Spel

De onderzoekers hebben een speciaal spel ontworpen om dit te testen.

Het Spel: Een AI moet een 2D-kaart (een raster) doorlopen. Er zijn onzichtbare "nodes" (punten) verborgen.
De Taak: De nodes hebben voorwaarden. Bijvoorbeeld: "Je kunt de kaas alleen pakken als je eerst de pasta en de saus hebt gevonden."
De Twist: De AI ziet alleen wat hij zelf bezoekt. Hij moet zelf een kaart maken in zijn hoofd.

Om de AI te testen, hebben ze de kaart zo ontworpen dat hij soms veel moet zoeken (brede kaart, weinig items) en soms veel moet plannen (smalle kaart, veel items die op elkaar wachten).

3. De Meetlat: De "Vastloop-Meter"

De meest creatieve kant van dit paper is de manier waarop ze fouten meten. Ze kijken niet naar wat de AI had moeten doen, maar naar wat een redelijke persoon zou doen.

Ze gebruiken een slimme teller die kijkt naar het gedrag van de AI:

De "Rondje-detectie": Als de AI 3 keer dezelfde weg aflegt zonder iets nieuws te vinden, is dat een fout. Het is als een hond die in een cirkel loopt terwijl de deur dicht is.
De "Nieuw-Zoek-Meter": Als er nog onbekende plekken zijn die de AI had kunnen ontdekken, maar hij loopt toch alweer terug naar bekende plekken, is dat een "verkenning-fout".
De "Planner-Meter": Als de AI weet waar de items zijn, maar loopt toch de verkeerde kant op, is dat een "benutting-fout".

Ze noemen dit een "policy-agnostische" metric. Dat klinkt ingewikkeld, maar betekent simpelweg: "Het maakt niet uit hoe de AI denkt, we kijken alleen of zijn voeten logisch bewegen."

4. Wat Vonden Ze? (De Resultaten)

Ze hebben de beste AI-modellen van vandaag getest (zoals GPT-4, Claude, Gemini). Hier zijn de verrassende bevindingen:

Zoeken is belangrijker dan plannen: Als een AI goed is in het vinden van nieuwe plekken (verkenning), heeft hij een grote kans om te slagen. Als hij slecht is in zoeken, faalt hij bijna altijd.
Goede resultaten ≠ Goede strategie: Twee AI's kunnen beide 100% slagen, maar op heel verschillende manieren. De ene loopt rechtstreeks naar het doel, de andere loopt eerst overal rond om zeker te zijn.
De "Harnas"-Truc: Dit is het leukste deel. Als je de AI een beetje helpt door haar een samenvatting te geven van wat ze al heeft gezien (een "harnas" of een notitieblok), gaat het veel beter.
- Vergelijking: Het is alsof je iemand die een labyrint loopt, niet alleen de kaart geeft, maar ook een lijstje met "Hier heb je al gelopen, hier zijn de deuren". De AI hoeft dan niet alles uit haar geheugen te halen, maar kan zich focussen op het plannen.

5. De Grootste Lering

De onderzoekers laten zien dat we AI niet alleen moeten beoordelen op "Heeft hij het gedaan?", maar ook op "Hoe heeft hij het gedaan?".

Verkenning is de sleutel tot succes. Als je niet durft te zoeken naar nieuwe informatie, kom je er niet.
Hulp is goed: AI's worden veel slimmer als we hen helpen met het organiseren van hun eigen informatie (via "harness engineering").

Kortom:
Stel je voor dat je een detective bent. Dit paper zegt: "Het maakt niet uit of je de moordenaar vindt (het resultaat), we moeten ook kijken of je niet in een cirkel hebt gelopen (fouten in verkenning) of of je de aanwijzingen die je al had, hebt genegeerd (fouten in benutting)." En het beste advies? Geef de detective een notitieblok, dan lost hij de zaak sneller op!

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Taakgebaseerde agents op basis van Taalmodellen (LM-agents) worden steeds vaker ingezet voor complexe, open-ended beslissingen, variërend van AI-codering tot fysieke AI. Een kernvereiste in deze omgevingen is het vermogen om effectief te explore (de probleemruimte verkennen om nieuwe informatie te vinden) en te exploit (verworven kennis benutten om doelen te bereiken).

Het huidige probleem is dat er geen systematisch raamwerk bestaat om deze twee vaardigheden te onderscheiden en te kwantificeren op basis van waargenomen acties, zonder toegang tot het interne beleid (policy) van de agent. Bestaande evaluatiemethoden vertrouwen vaak op taaksuccespercentages of vereisen een vooraf gedefinieerde optimale strategie (referentietraject), wat de meting van echte exploratie- en exploitatiefouten verstoort. Er is behoefte aan een beleids-onafhankelijke (policy-agnostic) methode om fouten te meten puur op basis van de gedragsgeschiedenis van de agent.

Methodologie

De auteurs introduceren een nieuw raamwerk dat bestaat uit drie hoofdbestanden: een gecontroleerde omgeving, een taakdefinitie en een nieuwe foutmetriek.

1. Omgeving en Taakdefinitie

Gedeeltelijk waarneembare 2D-grid: De agent navigeert door een 2D-rooster waarbij cellen aanvankelijk onbekend zijn. Alleen bij het bezoeken van een cel worden de aangrenzende cellen en eventuele taaknodes onthuld.
Taak-DAG (Directed Acyclic Graph): Taken worden gemodelleerd als een DAG waarbij knopen sub-taken vertegenwoordigen en randen de afhankelijkheden (precondities). De agent moet knopen "ontdekken" (door ze te bezoeken) en "bereiken" (door hun precondities te vervullen).
Symbolische Abstractie: Om te voorkomen dat agents vertrouwen op vooraf getrainde semantische kennis (bijv. weten dat "tomaten" nodig zijn voor "pasta"), worden alle taaknomen vervangen door willekeurige symbolische tokens (bijv. "A7X2"). Dit isoleert het vermogen van de agent tot puur logisch redeneren en geheugenbeheer.
Controleerbare Moeilijkheid: De omgeving kan programmatisch worden aangepast om de behoefte aan exploratie (bijv. bredere kaarten, verspreide knopen) of exploitatie (bijv. ondiepe paden, dichte afhankelijkheden) te variëren.

2. De Foutmetriek (Exploration & Exploitation Errors)

De kern van de bijdrage is een metriek die acties classificeert als fouten zonder een "optimale" strategie voor te schrijven.

Doelset $T(t)$ : Op elk tijdstip $t$ $t$ wordt bepaald welke acties productief zijn. Dit hangt af van de status van de taak-DAG:
- Als er nog onontdekte cellen zijn en geen uitstaande taken: Exploratie is vereist.
- Als er uitstaande taken zijn (precondities voldaan) en geen onontdekte cellen: Exploitatie is vereist.
- Als beide aanwezig zijn: De agent kan kiezen (beide zijn acceptabel).
Gain vs. Error: Een actie is een "gain" als deze de afstand tot een doel verkleint of een doel bereikt. Anders is het een potentiële fout.
Stale Score (Vervelingsscore): Om te voorkomen dat een agent eindeloos heen en weer loopt tussen symmetrische opties (wat technisch een "gain" zou kunnen zijn), wordt een no-progress trajectory ( $\tau_{np}$ $τ_{n p}$ ) gedefinieerd. Hierin worden drie waarden berekend:
- $c_t$ : Cyclomaat getal (aantal nieuwe lussen).
- $e_t$ : Aantal keren dat een rand meer dan 2 keer wordt gebruikt (benigne backtracking is toegestaan, maar herhaald gebruik niet).
- $n_t$ : Aantal keren dat een knoop meer dan 2 keer wordt bezocht.
Foutdetectie: Een actie wordt gemarkeerd als fout als de "stale score" toeneemt (wat wijst op structurele redundantie) of als de actie geen gain oplevert wanneer er een duidelijk doel is. De fout wordt vervolgens toegewezen aan exploratie, exploitatie of beide, afhankelijk van de vereiste actie in Tabel 1 van het paper.

Belangrijkste Bijdragen

Beleids-onafhankelijke Metriek: Een nieuwe manier om exploratie- en exploitatiefouten te kwantificeren puur op basis van actie-trajecten, zonder toegang tot het interne beleid of een vooraf gedefinieerde optimale route.
Controleerbaar Testomgeving: Een systeem voor het genereren van gedeeltelijk waarneembare grid-kaarten gekoppeld aan onbekende taak-DAG's, specifiek ontworpen om de balans tussen exploratie en exploitatie te manipuleren.
Empirische Analyse van Frontier-modellen: Een uitgebreide evaluatie van 13 state-of-the-art LM-modellen (waaronder GPT-4.1/5, Gemini 3.1, Claude 4.6) die verschillende faalmodi blootlegt.

Resultaten

De experimenten leverden de volgende cruciale inzichten op:

Exploratie is de limiterende factor: Er is een sterke negatieve lineaire correlatie ( $R^2 = 0.947$ ) tussen exploratiefouten en het succespercentage. Agents die goed exploreren, slagen vaak. Daarentegen is er een zeer zwakke correlatie ( $R^2 = 0.006$ ) tussen exploitatiefouten en succes; een agent kan weinig exploitatiefouten maken maar toch falen omdat het de nodige knopen nooit heeft ontdekt.
Gelijke succespercentages, verschillend gedrag: Modellen met hetzelfde succespercentage (bijv. 100%) kunnen fundamenteel verschillende strategieën hanteren. Sommige modellen (zoals Gemini 3.1 Pro) blijven actief exploreren zelfs als ze het doel kennen, terwijl andere (zoals Claude Opus 4.6) direct naar het doel gaan en minder onontdekte gebieden verkennen.
Prompt Engineering: Prompts die specifiek gericht zijn op exploratie of exploitatie verlagen de respectievelijke fouten. Prompts die op exploratie focussen leiden tot de hoogste succespercentages.
Harness Engineering (Geheugenbeheer): Het expliciet verstrekken van gestructureerde samenvattingen van de omgeving (bezoekte cellen, frontier, actieve taken) aan de agent ("Harness Engineering") verbetert de prestaties aanzienlijk. Dit verlaagt zowel exploratie- als exploitatiefouten en verkort het aantal stappen.
Invloed van Semantiek: Wanneer semantische informatie wordt toegevoegd (bijv. echte kooktaken in plaats van symbolen), reageren modellen verschillend. GPT-4.1 gebruikt semantiek om exploratie te sturen (succes stijgt), terwijl Gemini 3.1 Flash Lite semantiek lijkt te gebruiken om te "gokken" op exploitatie, wat leidt tot meer exploratiefouten.

Betekenis en Conclusie

Dit paper biedt een fundamentele doorbraak in het evalueren van LM-agents. Het toont aan dat succespercentage alleen een onvoldoende maatstaf is voor het begrijpen van het gedrag van een agent. Door exploratie en exploitatie te scheiden, kunnen onderzoekers en ontwikkelaars specifiekere zwaktes identificeren (bijv. "de agent kan goed plannen maar verkent niet genoeg").

De voorgestelde metriek en omgeving bieden een robuust testplatform voor het verbeteren van agents in complexe, open-ended taken. De bevindingen suggereren dat minimale engineering van de "harness" (de interface tussen agent en omgeving) en het juiste prompt-ontwerp de prestaties van zelfs de meest geavanceerde modellen aanzienlijk kunnen verbeteren, zonder dat het model zelf hoeft te worden herschoold. Dit is essentieel voor de ontwikkeling van betrouwbare autonome agents in de echte wereld.

Exploration and Exploitation Errors Are Measurable for Language Model Agents

1. Het Probleem: Het "Zwarte Doos" Effect

2. De Oplossing: Een Digitale Labyrint-Spel

3. De Meetlat: De "Vastloop-Meter"

4. Wat Vonden Ze? (De Resultaten)

5. De Grootste Lering

Probleemstelling

Methodologie

1. Omgeving en Taakdefinitie

2. De Foutmetriek (Exploration & Exploitation Errors)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents

Listening Alone, Understanding Together: Collaborative Context Recovery for Privacy-Aware AI