AI Planning Framework for LLM-Based Web Agents

Dit paper introduceert een AI-planningsframework dat webagenten-klassen koppelt aan traditionele zoekalgoritmen en nieuwe evaluatiemetrics voorstelt om het falen en de prestaties van LLM-agenten op het web systematisch te analyseren.

Orit Shahnovsky, Rotem Dror

Gepubliceerd 2026-03-16
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt bouwen die voor je online boodschappen doet, een reis plant of een complexe formulier invult op het internet. Dit is wat onderzoekers een "web-agent" noemen. Maar tot nu toe waren deze robots vaak als een zwarte doos: ze deden iets, maar we wisten niet precies hoe ze tot die beslissing kwamen, en als ze faalden, was het lastig om te begrijpen waarom.

Deze paper van Orit Shahnovsky en Rotem Dror probeert die zwarte doos open te breken. Ze doen dit door web-taken te vergelijken met plannen en navigeren, en ze introduceren een nieuwe manier om te kijken of een robot echt slim is, niet alleen of hij de taak "klaar" heeft.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De Drie Manieren om te Plannen (De Reis-analogie)

De auteurs zeggen dat er drie hoofdmanieren zijn waarop deze AI-robots plannen maken om een taak op het internet te voltooien. Ze vergelijken dit met drie verschillende manieren om een reis te maken:

  • De "Stap-voor-Stap" Agent (Zoals een wandelaar zonder kaart):

    • Hoe het werkt: Deze robot kijkt alleen naar wat er direct voor zijn neus ligt. Hij denkt: "Oké, ik zie een knop. Ik klik erop. Nu zie ik iets nieuws. Wat nu?"
    • Vergelijking: Dit is alsof je door een stad loopt zonder kaart. Je kijkt alleen naar de volgende straat. Als je een afslag mist, moet je terugspringen en opnieuw kijken. Het is flexibel, maar je kunt de grote lijn uit het oog verliezen.
    • In de paper: Dit komt overeen met Breadth-First Search (BFS). De meeste huidige robots doen dit.
  • De "Boom-Doorzoeker" Agent (Zoals een speler van schaken):

    • Hoe het werkt: Deze robot denkt vooruit. "Als ik hier klik, wat gebeurt er dan? En als ik daarna daar klik, wat is dan de kans dat ik win?" Hij houdt verschillende mogelijke toekomstige paden in zijn hoofd bij.
    • Vergelijking: Dit is als schaken spelen. Je ziet niet alleen je volgende zet, maar je denkt na over de reactie van je tegenstander en de zet daarna.
    • In de paper: Dit komt overeen met Best-First Tree Search.
  • De "Vooraf-Planner" Agent (Zoals een treinconducteur met een strak schema):

    • Hoe het werkt: Deze robot maakt voordat hij ook maar één knop indrukt, een volledig stappenplan voor de hele reis. "Eerst klikken we op A, dan op B, dan op C, en dan zijn we klaar." Hij volgt dit plan strikt.
    • Vergelijking: Dit is als een trein die op een vast spoor rijdt. Hij weet precies waar hij naartoe gaat. Het probleem is: als er een obstakel op het spoor ligt (een onverwachte pop-up op een website), kan de trein niet makkelijk uitwijken en stopt hij misschien volledig.
    • In de paper: Dit komt overeen met Depth-First Search (DFS). De auteurs hebben een nieuwe robot gebouwd die dit doet, omdat dit nog niet eerder goed was getest.

2. Het Nieuwe Scorebord (Niet alleen "Geslaagd" of "Gefaald")

Vroeger keken onderzoekers alleen naar het eindresultaat: "Heeft de robot de boodschappen gekocht? Ja/Nee."
De auteurs zeggen: "Dat is te simpel!" Stel, de robot moet 5 producten vinden en hij vindt er 4, maar faalt bij de laatste. Is hij dan een slechte robot? Volgens het oude systeem: ja. Volgens de auteurs: nee, hij heeft het bijna goed gedaan.

Ze hebben daarom 5 nieuwe meetlatjes bedacht, alsof je een sporter niet alleen meet op de finish, maar ook op zijn techniek:

  1. Herstel-snelheid (Recovery Rate): Als de robot een fout maakt (bijv. op de verkeerde link klikt), kan hij dan snel zien "Oh, foutje!" en zichzelf corrigeren zonder in paniek te raken?
  2. Herhaling-snelheid (Repetitiveness Rate): Doet de robot steeds weer hetzelfde foutje? (Bijvoorbeeld: 10 keer op dezelfde knop drukken terwijl hij vastloopt). Dat is een teken van een domme robot.
  3. Stap-succes (Step Success Rate): Hoeveel van de stappen die een mens zou doen, heeft de robot ook gedaan?
  4. Deel-succes (Partial Success Rate): Als de taak was "Vind 3 namen", en hij vindt er 2, krijgt hij dan punten? (Ja, dat is beter dan 0).
  5. Element-nauwkeurigheid (Element Accuracy Rate): Wat de robot plande te doen, deed hij het ook echt? Soms zegt de robot: "Ik ga nu op de rode knop klikken", maar hij klikt per ongeluk op de blauwe. Dit meet dat verschil.

3. Wat Vonden Ze? (De Uitslag)

Ze testten hun nieuwe "Vooraf-Planner" (de treinconducteur) tegen de standaard "Stap-voor-Stap" robot (de wandelaar) op een grote verzameling taken (WebArena).

  • De Wandelaar (Stap-voor-Stap): Deze robot deed het beter in het echt. Hij kwam vaker aan bij de finish (38% succes vs. 36%). Hij was flexibeler, kon zich beter aanpassen als er iets onverwachts gebeurde, en volgde meer de route die een mens zou nemen.
  • De Conducteur (Vooraf-Planner): Deze robot was technisch slimmer in zijn planning. Hij maakte minder fouten bij het kiezen van de juiste knoppen (hij wist precies welke knop hij moest indrukken), maar hij was te stijf. Als het plan niet perfect werkte, gaf hij snel op of bleef hij vastlopen.

De grote les:
Er is niet één "beste" robot.

  • Gebruik de Stap-voor-Stap robot voor chaotische, veranderlijke websites (zoals sociale media of nieuwsfeeds), waar je moet reageren op wat er nu gebeurt.
  • Gebruik de Vooraf-Planner robot voor strakke, voorspelbare systemen (zoals een online bank of een webshop met een vast menu), waar een strak plan werkt als een goed geoliede machine.

Conclusie

Deze paper zegt eigenlijk: "Stop met kijken alleen naar wie de taak afmaakt. Kijk ook naar hoe ze het doen." Door te begrijpen of een robot flexibel is of juist een strak plan volgt, kunnen we betere AI bouwen die precies past bij de taak die we hem geven. Het is alsof je niet zegt "ik wil een auto", maar "ik wil een auto voor de racebaan" of "een auto voor de modderige bosweg". Je hebt twee verschillende voertuigen nodig.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →