R-WoM: Retrieval-augmented World Model For Computer-use Agents

Each language version is independently generated for its own context, not a direct translation.

R-WoM: De "Reisgids" voor je Digitale Agent

Stel je voor dat je een slimme robot hebt die voor jou op de computer werkt. Hij moet bijvoorbeeld een foto van je bureaublad kopiëren en in een document plakken, of een boeking maken op een website. Dit is een Computer-Use Agent.

Het probleem is dat deze robot vaak vastloopt. Waarom? Omdat hij probeert de toekomst te voorspellen zonder een kaart. Hij denkt: "Ik klik hier, en dan gebeurt dat...", maar omdat hij niet precies weet hoe het programma werkt, raakt hij in de war. Dit noemen onderzoekers hallucineren: de robot verzint dingen die er niet zijn, zoals een knop die er niet is, of een stap die niet werkt.

Dit paper introduceert R-WoM (Retrieval-Augmented World Model). Laten we uitleggen wat dat is met een paar simpele analogieën.

1. Het Probleem: De Robot die uit het hoofd leert

Stel je een student voor die een examen moet doen over hoe je een auto rijdt. Hij heeft de theorie uit zijn hoofd geleerd (de LLM of Large Language Model), maar hij heeft nog nooit echt gereden.

Hij weet dat je op het gaspedaal moet drukken om te versnellen.
Maar als hij in een specifieke, oude auto zit met een rare versnellingsbak, raakt hij in paniek. Hij probeert een handeling die in zijn hoofd klopt, maar in de echte auto leidt tot een crash.

In het paper zien ze dat deze "studenten" (LLMs) goed zijn in korte stappen (bijv. "klik op deze knop"), maar als ze een heel lang traject moeten plannen (bijv. "maak een complexe boeking"), raken ze de draad kwijt en maken ze fouten die zich opstapelen. Ze hebben geen wereldmodel dat klopt voor die specifieke situatie.

2. De Oplossing: De Reisgids (R-WoM)

R-WoM lost dit op door de robot niet alleen te laten vertrouwen op zijn hoofd, maar hem ook een reisliteratuur te geven.

De Analogie: Stel je voor dat je op reis gaat naar een vreemd land. Je kunt proberen het land te begrijpen door alleen je eigen kennis te gebruiken (wat vaak fout gaat), OF je kunt een lokale reisgids (tutorials) bij je hebben.
Hoe het werkt:
1. De robot krijgt een opdracht (bijv. "Plak deze afbeelding").
2. In plaats van direct te raden, zoekt hij eerst in zijn reisgids (een database met handleidingen en tutorials) naar hoe deze specifieke software dit doet.
3. Hij leest de gids: "Ah, in dit programma moet je eerst op 'Invoegen' klikken, niet op 'Bestand'."
4. Pas daarna "fantaseert" hij (simuleert) wat er gaat gebeuren, maar nu gebaseerd op de feiten uit de gids.

Dit noemen ze geground (grounded) zijn. De robot staat niet meer in de lucht, maar heeft zijn voeten op de grond van de echte handleiding.

3. De Twee Slimme Trucs van R-WoM

De onderzoekers hebben twee slimme manieren bedacht om dit systeem nog beter te maken:

Truc 1: De Slimme Zoeker (Geen rommelige resultaten)
Als je bij Google zoekt op "hoe fork ik een chat", krijg je misschien duizenden resultaten over "forks" in de keuken. Dat is nutteloos.
R-WoM gebruikt een slimme zoekmachine die eerst je vraag herschrijft (bijv. "Hoe kopieer ik een project in GitLab?") en daarna de resultaten sorteert op echte relevantie. Zo krijgt de robot alleen de juiste handleidingen, niet de rommel.
Truc 2: De Vergelijkende Jury (Geen vaste cijfers)
Stel je voor dat je drie routes voor een reis hebt.
- Oude methode: De robot geeft elke route een cijfer uit het hoofd. Route A krijgt een 6, Route B een 7. Maar wat als hij beide verkeerd inschat?
- Nieuwe methode (R-WoM): De robot vergelijkt de routes met elkaar. "Route B is duidelijk beter dan Route A, en Route C is een doodlopende straat." Door te vergelijken in plaats van absolute cijfers te geven, maakt hij minder fouten en kiest hij de veiligste route.

4. Wat is het Resultaat?

De onderzoekers hebben dit getest op echte taken, zoals het werken in een webbrowser (WebArena) en op een computerbesturingssysteem (OSWorld).

Zonder gids: De robot faalt vaak bij langere, complexe taken. Hij raakt vast in een cirkel van fouten.
Met R-WoM: De robot slaagt veel vaker. In sommige gevallen verbeterde het succespercentage met wel 23%.
Bijzonder: Het werkt het beste bij lange, ingewikkelde taken. Hoe langer de reis, hoe meer de robot de reisgids nodig heeft om niet verdwaald te raken.

Samenvatting in één zin

R-WoM maakt van een slimme robot die soms droomt, een slimme robot die leest, door hem tijdens het plannen een handleiding te geven, zodat hij weet wat er echt gaat gebeuren voordat hij een knop indrukt.

Het is alsof je een robot niet alleen slimheid geeft, maar ook wijsheid uit ervaring (de tutorials), zodat hij niet meer hoeft te gokken, maar kan plannen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "R-WOM: RETRIEVAL-AUGMENTED WORLD MODEL FOR COMPUTER-USE AGENTS", gepresenteerd op ICLR 2026, in het Nederlands.

1. Probleemstelling

Grote Taalmodellen (LLMs) worden steeds vaker ingezet als "wereldmodellen" voor agenten die digitale omgevingen (zoals browsers en besturingssystemen) bedienen. Het idee is dat een agent toekomstige toestanden kan simuleren en de uitkomsten van acties kan voorspellen voordat deze daadwerkelijk worden uitgevoerd, waardoor kostbare trial-and-error wordt vermeden.

De auteurs identificeren echter fundamentele beperkingen in deze aanpak:

Hallucinaties en statische kennis: LLMs vertrouwen op statische, vooraf getrainde kennis en hebben een neiging tot hallucinaties. Dit leidt tot cumulatieve fouten bij langere simulaties.
Gebrek aan contextuele gronding: In complexe, multi-turn omgevingen (zoals een OS of een specifieke webapplicatie) missen LLMs vaak de specifieke, actuele procedurale kennis. Zonder gronding genereren agenten plannen die logisch klinken maar in de praktijk onuitvoerbaar zijn (bijvoorbeeld door de verkeerde knop te kiezen of de cursorpositie te verliezen).
Prestatiedaling op lange termijn: Hoewel LLMs goed zijn in het voorspellen van de directe volgende staat, degradeert hun prestatie drastisch bij het plannen van volledige procedures over een lange horizon.

2. Methodologie: R-WoM Framework

Om deze beperkingen aan te pakken, stellen de auteurs R-WoM (Retrieval-augmented World Model) voor. Dit framework "grondt" (grounding) de simulaties van de LLM met feitelijke, actuele kennis uit externe tutorials.

De kerncomponenten van R-WoM zijn:

Retrieval-Augmented RAG-pijplijn:
- In plaats van alleen te vertrouwen op interne kennis, zoekt het systeem naar relevante tutorials (bijv. handleidingen voor Chrome, GIMP, GitLab) op basis van de taak.
- Query Rewriting: De oorspronkelijke taakvraag wordt herschreven door de LLM om deze meer gestructureerd en zoekbaar te maken (bijv. het generaliseren van specifieke bestandsnamen).
- LLM-based Reranking: Na het ophalen van kandidaat-documenten via vectorzoekopdrachten, wordt een LLM ingezet om deze te herordenen op basis van semantische relevantie voor de specifieke context, wat ruis reduceert.
Simulatie met Long Chain-of-Thought (LongCoT):
- Voor elke mogelijke actie genereert de wereldmodel-agent een $k$ -staps "rollout" (toekomstige trajecten).
- In tegenstelling tot eerdere methoden die iteratieve calls vereisen, gebruikt R-WoM een LongCoT-mechanisme (geïnspireerd door Deepseek-R1). Dit stelt de wereldmodel in staat om een volledig multi-stap simulatietraject in één enkele redeneersequentie te genereren, wat de efficiëntie verhoogt.
- De simulatie is geconditioneerd op de opgehaalde tutorials ( $E$ ), waardoor de voorspellingen gebaseerd zijn op de juiste procedures.
Listwise Reward Estimation:
- Bestaande methoden gebruiken vaak absolute beloningen (scores), wat kan leiden tot bias en instabiliteit.
- R-WoM gebruikt een listwise ranking-strategie. De wereldmodel vergelijkt alle gegenereerde rollouts met elkaar en rangschikt ze relatief ten opzichte van elkaar (welke route is het meest veelbelovend?), in plaats van absolute scores toe te kennen. Dit resulteert in robuustere actiekeuzes.
Adaptieve Strategie:
- Adaptive Action Branching: De agent genereert alleen meerdere actie-candidaten wanneer hij onzeker is; bij duidelijke stappen wordt slechts één actie voorgesteld.
- Action Deduplication: Semantisch equivalente acties worden verwijderd voordat de dure simulatie begint.

3. Belangrijkste Bijdragen

Systematische Analyse van LLMs als Wereldmodellen: De auteurs voeren een grondige analyse uit met drie proeftaken:
- Next-state identification: LLMs presteren goed (75-86% nauwkeurigheid) bij het voorspellen van de directe volgende staat.
- Full-procedure planning alignment: Prestaties dalen sterk (onder 65%) bij het plannen van volledige procedures, wat aantoont dat LLMs moeite hebben met lange-horizon consistentie zonder gronding.
- Milestone transition recognition: LLMs kunnen redelijk goed beoordelen welke tussenstappen leiden tot succes.
Het R-WoM Framework: Een nieuw paradigma dat wereldmodellen grondt in externe, actuele tutorials via een geavanceerde RAG-pijplijn, specifiek ontworpen voor computer-use agenten.
Empirische Validatie: Uitgebreide experimenten op realistische benchmarks (OSWorld en WebArena) die aantonen dat gronding essentieel is voor lange-termijn planning.

4. Resultaten

De experimenten zijn uitgevoerd op twee uitdagende benchmarks: WebArena (web-taken) en OSWorld (desktop-toepassingen), met verschillende LLM-backbones (Qwen-2.5-VL-72B, Claude-3.5-Sonnet, Claude-3.7-Sonnet).

Prestatieverbetering: R-WoM overtreft consistent de baselines (Vanilla, standaard RAG, en WebDreamer).
- Op OSWorld werden relatieve verbeteringen van 5,6% tot 23,4% behaald ten opzichte van de sterkste niet-R-WoM baselines.
- Op WebArena werden verbeteringen van 5,6% tot 16,3% behaald.
- De grootste winst werd geboekt bij langere simulatie-horizons, waar ongegronde modellen vaak faalden door cumulatieve fouten.
Grondingseffect: De prestaties nemen monotoon toe naarmate de kwaliteit van de gronding verbetert (van geen gronding -> opgehaalde tutorials -> "oracle" (menselijk geannoteerde) tutorials). Dit bevestigt dat de nauwkeurigheid van de procedurale kennis direct invloed heeft op het succes van de simulatie.
Efficiëntie: Door adaptieve branching en deduplicatie wordt de token-gebruik en rekentijd aanzienlijk verlaagd (tot 50% minder tokens vergeleken met volledige R-WoM) zonder significante prestatieverlies.

5. Betekenis en Conclusie

Het paper toont aan dat LLMs op zichzelf onvoldoende zijn als betrouwbare wereldmodellen voor complexe, lange-termijn computer-taken vanwege hun gebrek aan actuele, specifieke procedurale kennis.

R-WoM biedt een oplossing door de "droom" van de LLM te verankeren in de realiteit van externe handleidingen. Dit maakt agenten in staat om:

Hallucinaties te minimaliseren.
Betrouwbare plannen te maken over langere tijdsperiodes.
Zelfs in gebieden met schaarse tutorials te werken door synthetische tutorials te genereren uit zelfgespeelde trajecten.

De studie markeert een belangrijke stap in de ontwikkeling van autonome computer-agenten, waarbij de combinatie van redeneervermogen (LLM) en feitelijke gronding (Retrieval) cruciaal is voor succes in dynamische digitale omgevingen.

R-WoM: Retrieval-augmented World Model For Computer-use Agents

R-WoM: De "Reisgids" voor je Digitale Agent

1. Het Probleem: De Robot die uit het hoofd leert

2. De Oplossing: De Reisgids (R-WoM)

3. De Twee Slimme Trucs van R-WoM

4. Wat is het Resultaat?

Samenvatting in één zin

1. Probleemstelling

2. Methodologie: R-WoM Framework

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance