M$^2$: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber etwas vergesslichen Roboter-Helfer, der dir helfen soll, komplexe Aufgaben im Internet zu erledigen. Vielleicht soll er für dich ein Flugticket buchen, eine spezifische Software konfigurieren oder die besten Preise für ein Geschenk finden.

Das Problem ist: Das Internet ist riesig, und diese Aufgaben sind oft wie eine lange Wanderung durch einen dichten Dschungel. Wenn der Roboter auf seiner Reise zu viele Details mitnimmt, wird er verwirrt, müde und macht Fehler.

Die Forscher in diesem Papier haben eine Lösung namens M2 entwickelt. Man kann sich das wie ein zweites Gehirn mit zwei speziellen Notizblöcken vorstellen, das dem Roboter hilft, den Überblick zu behalten, ohne verrückt zu werden.

Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

1. Das Problem: Der "Rucksack-Effekt"

Normalerweise versuchen Roboter, sich an alles zu erinnern, was sie gesehen haben. Sie speichern jeden einzelnen Screenshot der Webseite, jeden Klick und jeden Text, den sie gelesen haben.

Die Analogie: Stell dir vor, du wanderst durch den Dschungel. Anstatt nur zu merken, dass du "links abbiegen musst", nimmst du jeden einzelnen Stein, jedes Blatt und jeden Ast, den du je berührt hast, in deinen Rucksack.
Die Folge: Der Rucksack wird so schwer, dass du kaum noch laufen kannst. Der Roboter verliert sich in den Details, vergisst das eigentliche Ziel und braucht ewig, um zu denken. Das nennt man "Context Explosion" (Explosion des Kontexts).

2. Die Lösung: M2 mit zwei Notizblöcken

M2 gibt dem Roboter zwei neue Werkzeuge, um diesen schweren Rucksack zu entleeren:

A. Das Innere Notizbuch (Die "Zusammenfassung")

Statt sich jeden einzelnen Screenshot zu merken, schreibt der Roboter nach jedem Schritt eine kurze, kluge Zusammenfassung in sein inneres Notizbuch.

Die Analogie: Statt den ganzen Wald zu fotografieren, macht der Roboter nur eine Skizze: "Ich bin jetzt am Fluss angekommen und habe die Brücke überquert." Er wirft den alten, schweren Rucksack mit den tausenden Fotos weg und behält nur die Skizze.
Der Vorteil: Der Roboter weiß immer noch, wo er war, aber sein Kopf bleibt leicht. Er kann sich auf das nächste Ziel konzentrieren, ohne von alten Bildern abgelenkt zu werden.

B. Das Äußere Notizbuch (Die "Weisheit der Experten")

Das ist der coolste Teil. Der Roboter hat Zugriff auf eine riesige Bibliothek mit den besten Wegen, die andere Roboter schon erfolgreich gegangen sind.

Die Analogie: Stell dir vor, du wanderst durch den Dschungel und kommst an einen Fluss. Du weißt nicht, wie du ihn überqueren sollst. Aber statt zu raten, schaust du in dein "Experten-Buch" und liest: "Achtung! An diesem Fluss gibt es einen versteckten Felsen, auf dem man sicher rüberklettern kann. Vermeide das tiefe Wasser!"
Wie es funktioniert: Bevor der Roboter eine neue Aufgabe beginnt, sucht er in dieser Datenbank nach ähnlichen Aufgaben. Er holt sich dann die "Tipps und Tricks" (die "Insights") für genau diese Situation. Er lernt also aus den Fehlern und Erfolgen anderer, ohne selbst Jahre lang üben zu müssen.

3. Warum ist das so genial?

Kein teures Training: Früher musste man Roboter monatelang trainieren, damit sie schlau werden. M2 ist wie ein "Steck-System". Man muss den Roboter nicht neu erfinden, man gibt ihm einfach diese zwei Notizbücher. Das spart enorm viel Zeit und Geld.
Schneller und billiger: Weil der Roboter nicht mehr tausende Bilder speichern muss, ist er viel schneller und kostet weniger Rechenleistung (weniger "Token", also weniger digitale Energie).
Bessere Ergebnisse: In Tests hat sich gezeigt, dass Roboter mit M2 viel öfter ihre Aufgaben erfolgreich abschließen. Ein offenes Modell (Qwen) wurde mit dieser Methode sogar besser als teure, geschlossene Modelle, die normalerweise als "Super-Intelligenz" gelten.

Zusammenfassung in einem Satz

M2 ist wie ein erfahrener Wanderführer, der seinem Roboter sagt: "Vergiss den ganzen Müll, den du gesehen hast, und schreib nur die wichtigen Stationen auf (Inneres Notizbuch). Und wenn du unsicher bist, lies kurz in unserem Buch der besten Wege nach, um keine Fehler zu machen (Äußeres Notizbuch)."

Dadurch wird der Roboter schlauer, schneller und schafft auch die längsten und schwierigsten Aufgaben im Internet, ohne dabei den Verstand zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Autonome Web-Agenten, die auf Multimodalen Large Language Models (MLLMs) basieren, zeigen vielversprechende Fähigkeiten bei der Navigation im Web. Ein kritischer Engpass bleibt jedoch die Bewältigung von langfristigen Aufgaben (Long-Horizon Tasks), die oft Dutzende von Interaktionsschritten erfordern.

Herausforderungen bestehender Ansätze:

Kontext-Explosion: Herkömmliche Strategien nutzen einen „Full-Context"-Ansatz, bei dem der gesamte Verlauf (HTML, Screenshots, Text) in den Prompt eingefügt wird. Dies führt zu einem exponentiellen Anstieg der Token-Kosten und einer Überlastung der Inferenz-Ressourcen.
Performance-Degradation: Lange und verrauschte Kontexte führen zum Phänomen „Lost-in-the-Middle", bei dem das Modell wichtige, aufgabenrelevante Hinweise in redundanten historischen Daten verliert.
Trainingskosten: Bisherige Lösungen zur Kontextoptimierung erfordern oft aufwendiges Fine-Tuning (SFT) oder Reinforcement Learning (RL), was massive Rechenressourcen und große Datensätze benötigt.
Visuelle Ineffizienz: Das Speichern roher Screenshots ist ineffizient, da Webseiten visuell diskontinuierlich sind (ein Klick kann das Layout komplett ändern) und viele irrelevante Elemente (Werbung, Sidebars) enthalten.

2. Methodik: Das M2-Framework

Die Autoren stellen M2 vor, ein training-freies (training-free), speicherbasiertes Framework, das die Kontexteffizienz und die Entscheidungsrobustheit durch einen Dual-Memory-Mechanismus optimiert. Das Framework besteht aus zwei komplementären Komponenten:

A. Interne Erinnerung (Internal Memory) – Dynamische Trajektorien-Zusammenfassung

Anstatt rohe Beobachtungen und lange Textverläufe zu speichern, führt das Agenten-Modell eine selbstgesteuerte Zusammenfassung durch.

Mechanismus: Bei jedem Schritt $t$ wird der Agent angewiesen, den aktuellen Zustand, die durchgeführte Aktion und das visuelle Feedback in eine kompakte textuelle Abstraktion ( $s_t$ ) zu verdichten.
Update-Regel: Die interne Erinnerung $M_t^{in}$ ist eine rekursive Kette dieser Zusammenfassungen ( $s_1, ..., s_{t-1}$ ). Rohdaten (Screenshots, alte Gedanken) werden nach der Generierung der Zusammenfassung aus dem aktiven Kontextfenster verworfen.
Effekt: Der Kontext wächst sublinear mit der Aufgabenlänge. Das Agenten-Modell behält einen klaren Überblick über den Fortschritt, ohne durch redundante visuelle Daten abgelenkt zu werden.

B. Externe Erinnerung (External Memory) – Insight-Retrieval-Augmentation

Diese Komponente bietet strategische Vorerfahrung, die über den aktuellen Verlauf hinausgeht.

Insight-Bank: Es wird eine Offline-Datenbank mit „Insights" (handlungsleitenden Regeln) erstellt, die aus 55.000 erfolgreichen Trajektorien verschiedener Modelle (z. B. Claude, Ovis) extrahiert wurden.
Extraktion: Ein spezialisierter „Abstractor" (ein MLLM) analysiert erfolgreiche Pfade und leitet allgemeine Interaktionsregeln ab (z. B. „Suchstrategien", „Navigations-Shortcuts", „Zustandsvalidierung"), wobei spezifische Werte generalisiert werden.
Retrieval: Bei einer neuen Aufgabe wird basierend auf der semantischen Ähnlichkeit der Benutzeranfrage die relevanteste Insight-Gruppe (Top- $i$ ) aus der Bank abgerufen.
Injection: Diese Insights werden als „Defensive Hints" (strategische Warnhinweise) in den System-Prompt eingefügt, um den Agenten vor bekannten Fallstricken zu schützen.

3. Hauptbeiträge

Training-freie Dual-Memory-Architektur: Ein leichtgewichtiges Framework, das rekursive interne Verfolgung mit externer strategischer Führung kombiniert, ohne kostspieliges Training oder komplexe Multi-Agenten-Systeme.
Intra-Trajektorien-Kompression und Inter-Trajektorien-Retrieval: Mechanismen zur Verdichtung von Ausführungshistorien in kompakte Zusammenfassungen und zum Abruf von Expertenwissen über verschiedene Aufgaben hinweg. Dies mildert Informationsüberlastung und erhöht die Entscheidungsrobustheit.
Skalierbare Wirksamkeit: Das Framework ermöglicht es Open-Source-Modellen, die Leistung proprietärer Modelle zu erreichen, bei gleichzeitig deutlich geringerem Token-Verbrauch.

4. Ergebnisse und Evaluation

Das Framework wurde auf den Benchmarks WebVoyager und OnlineMind2Web evaluiert, unter Verwendung verschiedener Modelle (Qwen3-VL-32B, Claude-3.7-Sonnet, Claude-Sonnet-4).

Wichtige Kennzahlen:

Erfolgsrate (Success Rate):
- Qwen3-VL-32B (Open Source): Steigerung um 16,2 % auf WebVoyager (von 57,8 % auf 74,0 %) und 19,6 % auf OnlineMind2Web.
- Claude-3.7-Sonnet: Steigerung um 12,5 % auf WebVoyager.
- Das Open-Source-Modell mit M2 (74,0 %) übertrifft das Vanilla-Claude-3.7-Sonnet-Modell (72,0 %) ohne M2.
Token-Effizienz:
- Qwen3-VL-32B: Reduktion des Token-Verbrauchs um 57,8 % (WebVoyager) und 58,7 % (OnlineMind2Web).
- Claude-Modelle: Token-Reduktion zwischen 30,3 % und 55,0 %.
Kosten-Nutzen-Verhältnis: Die Latenz für das Retrieval der Insights beträgt nur ca. 6 ms pro Aufgabe, was den Overhead als vernachlässigbar ausweist.

5. Bedeutung und Fazit

Das M2-Framework adressiert das fundamentale Problem der Skalierbarkeit von Web-Agenten. Es zeigt, dass effizientes Kontextmanagement (durch Zusammenfassung) und strategisches Wissen (durch Retrieval) entscheidender für den Erfolg bei langfristigen Aufgaben sind als reine Modellgröße oder aufwendiges Training.

Praktische Relevanz: Da M2 training-frei ist, kann es sofort auf bestehenden Modellen eingesetzt werden, was die Einstiegshürde für den Einsatz von Web-Agenten in der Industrie senkt.
Zukunftsperspektive: Die Arbeit etabliert einen neuen Standard für die Entwicklung nachhaltiger, kosteneffizienter Agenten, die auch in dynamischen und visuell komplexen Umgebungen zuverlässig arbeiten können, ohne an Token-Budget zu scheitern.

Zusammenfassend beweist M2, dass eine intelligente Architektur zur Verwaltung von Gedächtnis und Kontext die Leistungslücke zwischen Open-Source- und proprietären Modellen schließen und gleichzeitig die Betriebskosten drastisch senken kann.

M2^22: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

1. Das Problem: Der "Rucksack-Effekt"

2. Die Lösung: M2 mit zwei Notizblöcken

A. Das Innere Notizbuch (Die "Zusammenfassung")

B. Das Äußere Notizbuch (Die "Weisheit der Experten")

3. Warum ist das so genial?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Das M2-Framework

A. Interne Erinnerung (Internal Memory) – Dynamische Trajektorien-Zusammenfassung

B. Externe Erinnerung (External Memory) – Insight-Retrieval-Augmentation

3. Hauptbeiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Fazit

Mehr davon

M-RAG: Making RAG Faster, Stronger, and More Efficient

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

SRAG: RAG with Structured Data Improves Vector Retrieval

Can AI be a Teaching Partner? Evaluating ChatGPT, Gemini, and DeepSeek across Three Teaching Strategies

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval