M$^2$: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die voor jou op internet moet zoeken. Je vraagt hem: "Vind de goedkoopste iMac en vertel me hoeveel hij weegt."

Voor een mens is dit makkelijk. Maar voor een AI-agent is dit een nachtmerrie als de zoektocht lang duurt. Waarom? Omdat de robot zijn geheugen niet goed kan beheren.

Hier is hoe dit papier, getiteld M2, dat probleem oplost, uitgelegd in simpele taal met een paar creatieve vergelijkingen.

Het Probleem: De "Vergeten in het Midden" Valstrik

Stel je voor dat de robot een dagboek bijhoudt van elke klik, elke scroll en elk scherm dat hij ziet.

De oude methode: Bij elke nieuwe stap plakt de robot het hele dagboek van de afgelopen 50 stappen achter de nieuwe vraag. Na 50 stappen is dat dagboek zo dik als een telefoonboek. De robot wordt er duizelig van. Hij ziet de belangrijke details (zoals "klik hier") niet meer, omdat ze bedolven liggen onder een berg van oude, irrelevante informatie. Dit noemen onderzoekers "Lost in the Middle" (Verdwaald in het Midden).
Het gevolg: De robot raakt in de war, maakt fouten, en kost heel veel rekenkracht (en geld) om die dikke boeken te lezen.

De Oplossing: M2 (De Twee-Vakken Geheugenmethode)

De auteurs van dit papier hebben een slimme truc bedacht: M2. Ze geven de robot twee soorten geheugen, net als een slimme mens die zowel een notitieblok als een ervaringen-archief heeft.

1. Het Interne Geheugen: De "Samenvatting" (In-Mem)

In plaats van het hele dagboek van 50 stappen te bewaren, vraagt M2 de robot om na elke stap een korte samenvatting te maken.

De Analogie: Stel je voor dat je een lange wandeling maakt. In plaats van elke steen en elke boom te onthouden, schrijf je na elke uur alleen op: "Ik liep door het bos, zag een rivier en nam een linksafslag."
Hoe het werkt: De robot verwijdert de oude, saaie screenshots en vervangt ze door deze korte zinnen. Zo blijft zijn "werkgeheugen" licht en overzichtelijk. Hij weet nog precies waar hij is, zonder de rommel.
Het resultaat: De robot wordt veel sneller en goedkoper, omdat hij niet hoeft te lezen wat hij al heeft gedaan, maar alleen naar de samenvatting kijkt.

2. Het Externe Geheugen: De "Ervaringsbank" (Ex-Mem)

Soms loop je vast in een webpagina die je niet begrijpt. De robot heeft dan hulp nodig van iemand die dat al eerder heeft meegemaakt.

De Analogie: Stel je voor dat je een nieuwe stad in loopt. Je hebt een gids die zegt: "Pas op, als je bij het station bent, ga niet naar links, want daar zit een doodlopende straat. Ga juist naar de grote rode deur." Die gids is gebaseerd op duizenden eerdere wandelingen van anderen.
Hoe het werkt: De onderzoekers hebben een enorme database gemaakt van succesvolle zoektochten van andere robots. Als de huidige robot vastloopt of een moeilijke vraag heeft, zoekt M2 in die database naar een vergelijkbare situatie.
Het resultaat: De robot krijgt direct slimme tips: "Oh, ik zie dat ik weer in een zoeklus zit. De gids zegt dat ik dan beter de 'filter'-knop kan gebruiken in plaats van steeds opnieuw te zoeken." Dit voorkomt dat de robot dezelfde fouten maakt.

Waarom is dit zo geweldig?

Geen dure training nodig: Meestal moet je een robot maandenlang trainen om slim te worden. M2 werkt direct, zonder dat je de robot opnieuw hoeft te "leren". Het is puur slimme prompt-engineering.
Kostenbesparing: Omdat de robot minder tekst hoeft te lezen, kost het veel minder rekenkracht. In tests werd het aantal benodigde "tokens" (de eenheid van rekenkracht) met wel 58% verlaagd.
Beter resultaat: Zelfs een open-source model (Qwen3-VL-32B) dat normaal gezien minder goed is dan dure modellen (zoals Claude), deed het met M2 bijna net zo goed als de dure modellen.

Samenvattend in één zin:

M2 geeft de web-robot een slim notitieblok om zijn stappen kort te houden, en een gids met ervaringen om fouten te voorkomen, zodat hij niet verdwaalt in een zee van informatie.

Het is alsof je van een robot die alles letterlijk onthoudt (en daardoor gek wordt) een robot maakt die weet wat belangrijk is en weet hoe hij het beste kan navigeren.

Each language version is independently generated for its own context, not a direct translation.

Titel: M2: Dual-Memory Augmentatie voor Lange-Horizon Web Agents via Traject-Samenvatting en Inzicht-Retrieval

1. Het Probleem

Multimodale Grootte Taalmodellen (MLLM's) hebben veelbelovende resultaten geboekt op het gebied van autonoom webnavigatie. Echter, het hanteren van lange-horizon taken (complexere taken die veel interactiestappen vereisen) blijft een kritieke bottleneck. Bestaande strategieën kampen met twee fundamentele problemen:

Context-explosie en hoge kosten: Traditionele agents gebruiken een "full-context"-strategie waarbij de volledige geschiedenis van HTML-schermopnames en interactietekst in de prompt wordt opgenomen. Dit leidt tot een exponentiële groei van het contextvenster, wat enorme rekenkosten veroorzaakt en de token-limieten snel bereikt.
Prestatiedegradatie ("Lost-in-the-middle"): Een te lange en ruisrijke context leidt ertoe dat het model kritieke, taakrelevante aanwijzingen mist tussen de overvloedige historische data.
Afhankelijkheid van training: Bestaande oplossingen voor geheugenbeheer vereisen vaak intensief trainen (Supervised Fine-Tuning of Reinforcement Learning) of complexe multi-agent architecturen, wat hoge ontwikkelkosten en implementatiehinder met zich meebrengt.

2. Methodologie: Het M2 Framework

De auteurs stellen M2 voor, een training-vrij (training-free), lichtgewicht framework dat gebruikmaakt van een dual-tier geheugenmechanisme om contextefficiëntie en besluitvormingsrobustheid te optimaliseren zonder het model opnieuw te trainen.

Het framework bestaat uit twee hoofdcomponenten:

A. Interne Geheugen (Internal Memory - Mint): Dynamische Traject-Samenvatting

Doel: Het verminderen van de contextgrootte door redundante visuele geschiedenis te vervangen door compacte tekstuele abstracties.
Mechanisme: In plaats van alle vorige schermopnames en ruwe interacties te bewaren, wordt de agent geprompt om bij elke stap een samenvatting ( $s_t$ ) te genereren. Deze samenvatting distilleert de visuele feedback, de uitgevoerde actie en de huidige staat tot een beknopte tekstuele beschrijving (bijv. "[Op Apple Watch pagina] → [Scroll naar beneden]").
Werking: De agent behoudt alleen de huidige observatie en een keten van deze samenvattingen. Ruwe historische data wordt permanent verwijderd uit het actieve contextvenster. Dit zorgt voor een lineaire groei van de context in plaats van een exponentiële, terwijl de taakcontinuïteit behouden blijft.

B. Extern Geheugen (External Memory - Mext): Inzicht-Retrieval Augmentatie

Doel: Het bieden van strategische, globale richtlijnen om veelgemaakte fouten te voorkomen en complexe UI-patronen te doorgronden.
Mechanisme: Er wordt een offline "Insight Bank" opgebouwd door succesvolle trajecten van diverse modellen te analyseren en te distilleren tot generieke, actieerbare regels (bijv. "Wanneer zoekresultaten leeg zijn, probeer dan de zoekopdracht te verfijnen" of "Controleer of het winkelwagentje-icoon is bijgewerkt").
Retrieval: Tijdens de inferentie wordt de huidige gebruikersquery geëmbed en via semantische gelijkenis (cosine similarity) de meest relevante inzichten uit de bank opgehaald.
Injectie: Deze inzichten worden als "defensieve hints" in het systeemprompt van de agent geïnjecteerd, waardoor de agent proactief valkuilen kan vermijden zonder extra training.

3. Belangrijkste Bijdragen

Training-vrije Dual-Memory Architectuur: M2 combineert recursieve interne tracking (samenvatting) met externe strategische begeleiding (inzichten) zonder dat er dure training of fine-tuning nodig is.
Intra-traject compressie en Inter-traject retrieval: De methode lost het probleem van informatielading op door geschiedenis te comprimeren en tegelijkertijd expertise over verschillende taken te delen via de Insight Bank.
Schaalbaarheid en Model-pariteit: Het framework stelt open-source modellen in staat om prestaties te behalen die vergelijkbaar zijn met of zelfs beter zijn dan gesloten, proprietary modellen, terwijl ze aanzienlijk minder tokens verbruiken.

4. Resultaten

De methode is geëvalueerd op twee benchmarks: WebVoyager en OnlineMind2Web, met verschillende modellen (Qwen3-VL-32B, Claude-3.7-Sonnet, Claude-Sonnet-4).

Prestatieverbetering:
- Qwen3-VL-32B: Toonde de grootste winst met een succesrate-stijging van 16,2% op WebVoyager en 19,6% op OnlineMind2Web.
- Proprietary Modellen: Claude-modellen boekten succesrate-winsten tot 12,5%.
- Opmerkelijk: De getrainde Qwen3-VL-32B met M2 presteerde beter dan de "naive" versie van de gespecialiseerde Claude-3.7-Sonnet.
Efficiëntie:
- Er werd een drastische reductie in token-gebruik bereikt. Voor Qwen3-VL-32B daalde het token-verbruik met 58,7% op OnlineMind2Web en 57% op WebVoyager.
- De latency voor het ophalen van inzichten is verwaarloosbaar (ongeveer 6 ms), wat de methode zeer schaalbaar maakt.
Robuustheid: De methode bleek vooral effectief bij moeilijke ("Medium" en "Hard") taken, waar de agenten vaak vastlopen in complexe navigatiehiërarchieën.

5. Betekenis en Impact

Dit paper biedt een praktische en schaalbare oplossing voor een van de grootste uitdagingen in het veld van webagents: het beheer van lange contexten.

Kostenefficiëntie: Door het elimineren van de noodzaak voor training en het drastisch verminderen van token-gebruik, wordt het mogelijk om krachtige webagents in productie te zetten met lagere operationele kosten.
Generalisatie: De "Insight Retrieval" benadrukking toont aan dat kennis over UI-interacties overdraagbaar is tussen verschillende websites en taken, wat de generalisatie van agents verbetert.
Toekomstperspectief: M2 bewijst dat slimme contextbeheerstrategieën (samenvatting en retrieval) vaak effectiever zijn dan het simpelweg vergroten van modelgrootte of het toevoegen van meer trainingsdata, en biedt een blauwdruk voor de volgende generatie autonome agents.

M2^22: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

Het Probleem: De "Vergeten in het Midden" Valstrik

De Oplossing: M2 (De Twee-Vakken Geheugenmethode)

1. Het Interne Geheugen: De "Samenvatting" (In-Mem)

2. Het Externe Geheugen: De "Ervaringsbank" (Ex-Mem)

Waarom is dit zo geweldig?

Samenvattend in één zin:

Titel: M2: Dual-Memory Augmentatie voor Lange-Horizon Web Agents via Traject-Samenvatting en Inzicht-Retrieval

1. Het Probleem

2. Methodologie: Het M2 Framework

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval