Exploration and Exploitation Errors Are Measurable for Language Model Agents

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie gut suchen KI-Agenten wirklich?

Stellen Sie sich vor, Sie schicken einen Roboter in ein riesiges, dunkles Labyrinth, um einen Schatz zu finden. Der Roboter ist super schlau (ein "Sprachmodell-Agent"), aber er kennt den Weg nicht. Er muss zwei Dinge tun:

Erforschen (Exploration): Neue Gänge ausprobieren, um zu sehen, was dahinter liegt.
Ausnutzen (Exploitation): Das Wissen nutzen, das er schon hat, um den schnellsten Weg zum Schatz zu gehen.

Das Problem bisher war: Wir wussten nicht genau, ob der Roboter wirklich gut sucht oder nur zufällig Glück hat. Oft haben wir nur geschaut, ob er am Ende den Schatz gefunden hat (Erfolgsrate). Aber das sagt uns nichts darüber, wie er dorthin kam. Hat er sich verlaufen? Hat er unnötig hin und her gelaufen?

Die neue Methode: Ein "Fehler-Zähler" für das Verhalten

Die Autoren dieses Papiers haben eine clevere Idee entwickelt, um genau das zu messen. Sie haben eine Art Videospiele-Welt gebaut, die wie ein Raster aus Kästchen aussieht.

Die Welt: Ein Teil des Rasters ist sichtbar, der Rest ist im Nebel verborgen.
Die Aufgabe: Der Roboter muss eine Art "Bauplan" (ein DAG – ein Diagramm mit Abhängigkeiten) erfüllen. Er muss z.B. erst den Stein finden, dann den Hammer, und erst dann kann er den Schatz öffnen.
Der Trick: Die Namen der Gegenstände sind sinnlose Buchstabenkombinationen (wie "X7Z9"). Der Roboter kann also nicht raten, wo der Hammer ist, weil er ihn nicht kennt. Er muss wirklich suchen.

Die Metapher des "Fehler-Zählers":
Stellen Sie sich vor, der Roboter läuft durch das Labyrinth. Die Forscher haben einen Zähler entwickelt, der aufpasst:

Erforschungsfehler: Wenn der Roboter in eine Sackgasse läuft, die er schon kennt, oder wenn er sich im Kreis dreht, anstatt neue Gänge zu testen. Das ist, als würde man im selben Zimmer hin und her laufen, statt die Tür zu öffnen.
Ausnutzungsfehler: Wenn der Roboter weiß, wo der Schatz ist, aber trotzdem in die falsche Richtung läuft, statt den kürzesten Weg zu nehmen. Das ist, als würde man den Schlüssel im Schlüsselbund suchen, obwohl man genau weiß, wo er liegt.

Was haben sie herausgefunden?

Sie haben viele der neuesten KI-Modelle (wie GPT-4, Claude, Gemini) getestet. Hier sind die wichtigsten Erkenntnisse, einfach erklärt:

Suchen ist wichtiger als Klugheit:
Die Modelle, die am besten suchten (wenige Erforschungsfehler), hatten die höchste Erfolgsrate. Es ist egal, wie schlau ein Roboter ist; wenn er sich nicht traut, neue Wege zu gehen, findet er den Schatz nie.
- Analogie: Ein Genie, das nie aus dem Haus geht, wird nie ein neues Restaurant finden.
Gleicher Erfolg, unterschiedlicher Weg:
Zwei Modelle konnten beide den Schatz finden (100 % Erfolg). Aber eines war ein "Abenteurer", der alles genau erkundet hat, während das andere ein "Schnellläufer" war, der nur das Nötigste tat. Beide haben gewonnen, aber ihre Strategien waren völlig unterschiedlich.
Die "Hilfsleine" (Harness Engineering) hilft enorm:
Das ist vielleicht der spannendste Teil. Die Forscher haben den Robotern nicht nur die Aufgabe gegeben, sondern ihnen auch eine zusammengefasste Notiz gegeben.
- Ohne Notiz: Der Roboter muss sich alles aus dem Gedächtnis holen ("Wo war ich vor 50 Schritten?").
- Mit Notiz: Der Roboter bekommt eine Karte, auf der steht: "Du warst hier, du hast diesen Stein gefunden, hier ist der nächste Schritt."
- Ergebnis: Mit dieser kleinen Hilfe (der "Notiz") wurden die Fehler drastisch reduziert und die Erfolgsrate explodierte. Es ist, als würde man einem Menschen eine Landkarte geben, statt ihn nur zu sagen "Such mal".
Wissen kann auch stören:
Als sie den Robotern echte Namen gaben (z. B. "Tomatensoße" statt "X7Z9"), passierte etwas Interessantes. Manche Modelle wurden besser, weil sie ihr Vorwissen nutzten. Andere wurden aber schlechter, weil sie zu sehr darauf vertrauten, wo Tomatensoße normalerweise steht, und die Realität im Spiel ignorierten. Sie wurden zu stur.

Fazit für den Alltag

Diese Forschung zeigt uns, dass wir KI-Agenten nicht nur danach bewerten sollten, ob sie die Aufgabe erledigen. Wir müssen auch schauen, wie sie dabei vorgehen.

Lernen: Gute KI muss lernen, wann sie neugierig sein muss (neue Wege gehen) und wann sie effizient sein muss (den bekannten Weg nehmen).
Hilfe: Manchmal brauchen diese KI-Systeme nicht mehr Intelligenz, sondern einfach nur eine bessere Organisation ihrer Gedanken (eine "Notiz" oder "Karte"), um nicht den Kopf zu verlieren.

Kurz gesagt: Um KI-Agenten wirklich gut zu machen, müssen wir ihnen helfen, ihre "Suche" und ihr "Handeln" besser zu balancieren, und ihnen gelegentlich eine kleine Hilfestellung geben, damit sie nicht im Kreis laufen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Sprachmodell-Agenten (LM-Agents) werden zunehmend für komplexe, offene Entscheidungsfindungsaufgaben eingesetzt (z. B. KI-Programmierung, Workflow-Automatisierung, physische KI). Ein zentrales Erfordernis in diesen Szenarien ist die Fähigkeit, den Problembereich zu explorieren (neue Informationen sammeln) und gleichzeitig erworbenes Wissen effektiv zu exploitieren (nutzen), um Ziele zu erreichen.

Das Hauptproblem besteht darin, dass es derzeit keinen systematischen Rahmen gibt, um Exploration und Exploitation aus beobachteten Aktionen zu unterscheiden und zu quantifizieren, ohne Zugriff auf die interne Policy des Agenten zu haben.

Herausforderung: Klassische Reinforcement-Learning-Metriken basieren oft auf internen Wertfunktionen oder Policies. Bei LM-Agenten haben wir jedoch nur Zugriff auf die beobachteten Aktionen (Trajektorien).
Lücke: Bestehende Benchmarks verlassen sich oft auf semantische Informationen (was Vorwissen mit dem Umgebungsreasoning vermischt) oder bewerten nur den Erfolg (Success Rate), ohne zu analysieren, warum ein Agent scheitert (z. B. durch mangelnde Exploration vs. ineffiziente Nutzung von Wissen).

2. Methodik

Die Autoren schlagen einen policy-agnostischen Rahmen vor, der Exploration und Exploitation allein aus Aktions-Trajektorien ableitet.

A. Umgebung und Aufgabenformulierung

Um semantische Voreingenommenheit zu eliminieren, wurde eine kontrollierte Umgebung entwickelt:

Partiell beobachtbare 2D-Gitterkarten: Der Agent bewegt sich in einem Raster, wobei nur besuchte Zellen und deren Nachbarn sichtbar sind. Unbekannte Zellen sind verdeckt.
Unbekannte Task-DAGs (Directed Acyclic Graphs): Aufgaben werden als Graphen modelliert, wobei Knoten Teilaufgaben und Kanten Abhängigkeiten (Preconditions) darstellen.
- Knoten haben Zustände: undiscovered (unentdeckt), discovered (entdeckt, aber Voraussetzungen nicht erfüllt), achieved (erfüllt).
- Symbolische Repräsentation: Anstelle von semantischen Namen (z. B. "Tomatensoße") werden zufällige alphanumerische Tokens (z. B. "D7UX") verwendet. Dies zwingt den Agenten, rein aus der Interaktionshistorie zu schließen, statt auf Vorwissen zurückzugreifen.
Steuerbarkeit: Die Umgebung kann so generiert werden, dass sie entweder hohe Explorationsanforderungen (weite Karten, spärliche Knoten) oder hohe Exploitationsanforderungen (flache Pfade, dichte Abhängigkeiten) stellt.

B. Metrik für Fehler (Exploration & Exploitation Errors)

Die Kerninnovation ist eine Metrik, die Aktionen identifiziert, die keine vernünftige Strategie produzieren würde.

Zielmenge $T(t)$ : Basierend auf dem aktuellen Zustand wird definiert, welche Aktionen produktiv sind:
- Wenn keine Aufgaben ausstehen ( $P(t) = \emptyset$ ): Exploration (unentdeckte Zellen).
- Wenn Aufgaben ausstehen ( $P(t) \neq \emptyset$ ): Exploitation (Erreichen bekannter Knoten).
- In Mischfällen kann beides erlaubt sein.
Gewinn (Gain): Eine Aktion ist ein "Gewinn", wenn sie in eine Zielzelle führt oder die Distanz zu einer Zielzelle verringert.
Stagnations-Score (Stale Score): Um Oszillationen und unnötige Schleifen zu erkennen, wird eine "No-Progress"-Trajektorie $\tau_{np}$ $τ_{n p}$ analysiert.
- Cyclomatic Number ( $c_t$ ): Zählt geschlossene Schleifen.
- Edge/Node Reuse ( $e_t, n_t$ ): Zählt, wie oft Kanten oder Knoten mehr als zweimal traversiert werden (basierend auf graphentheoretischen Optimalitätsgrenzen für Graph-Exploration).
- Ein Fehler wird registriert, wenn der Stagnations-Score steigt (d. h. redundantes Verhalten ohne neuen Informationsgewinn).
Klassifikation: Jeder Fehler wird basierend auf dem Kontext (Case 1–4 in Tabelle 1) als Explorationsfehler, Exploitationsfehler oder beides klassifiziert.

C. Experimentelles Setup

Modelle: Evaluation von 13 Frontier-Modellen (GPT-4.1/5.4, Gemini 3.1, Claude 4.5/4.6, GPT-OSS).
Variablen: Verschiedene Prompt-Strategien (Base, Exploration-fokussiert, Exploitation-fokussiert, Balance) und "Harness Engineering" (strukturierte externe Speicherzusammenfassungen statt roher Kontexthistorie).

3. Wichtige Ergebnisse

A. Korrelation zwischen Fehlern und Erfolg

Starke negative Korrelation: Es besteht eine sehr starke negative lineare Beziehung zwischen der Explorationsrate und dem Erfolg ( $R^2 = 0.947$ ). Agenten, die effektiv explorieren, erreichen das Ziel häufiger.
Schwache Korrelation: Die Exploitationsrate korreliert kaum mit dem Erfolg ( $R^2 = 0.006$ ). Ein Agent kann wenige Exploitationsfehler haben, aber trotzdem scheitern, wenn er nicht genug explorieren konnte, um die notwendigen Knoten zu finden.
Fazit: Geringe Explorationsfehler sind ein starker Prädiktor für den Erfolg.

B. Qualitativ unterschiedliches Verhalten bei gleichem Erfolg

Selbst Modelle mit 100% Erfolgsrate (z. B. Claude Opus 4.6 vs. Gemini 3.1 Pro) zeigen unterschiedliche Verhaltensmuster. Gemini 3.1 Pro neigt dazu, auch während der Exploitation weiter zu explorieren (unentdeckte Zellen prüfen), während Claude Opus 4.6 direkter auf bekannte Ziele zusteuert.

C. Einfluss von Prompts und Harness Engineering

Prompts: Explizite Anweisungen zur Priorisierung von Exploration oder Exploitation reduzieren die entsprechenden Fehlerraten signifikant. Exploration-fokussierte Prompts führen zu den höchsten Gesamterfolgsraten.
Harness Engineering: Die Bereitstellung einer strukturierten Zusammenfassung des Zustands (besuchte Zellen, Frontier, erfüllte Bedingungen) durch einen regelbasierten "Memory Manager" verbessert die Leistung drastisch.
- Beispiel: Bei GPT-4.1 stieg die Erfolgsrate von 63% auf 92,6%, und die Explorationsfehler sanken von 0,297 auf 0,053.

D. Semantische Information

Bei Wiedereinführung semantischer Informationen (z. B. "Kochen") zeigen Modelle unterschiedliche Reaktionen:

GPT-4.1: Nutzt Semantik, um Exploration zu leiten (Erfolgsrate steigt um Faktor 3).
Gemini 3.1 Flash Lite: Semantik führt zu einer Verzerrung hin zu kurzsichtiger Exploitation und erhöht die Explorationsrate (was hier als Fehler gewertet wird, da der Agent zu früh auf bekannte Pfade fixiert wird).

4. Hauptbeiträge

Policy-agnostische Metrik: Einführung einer Methode zur Quantifizierung von Explorations- und Exploitationsfehlern allein aus Aktions-Trajektorien, ohne Zugriff auf interne Policies.
Kontrollierte Umgebung: Design von partiell beobachtbaren Grid-Map-Umgebungen mit symbolischen Task-DAGs, die eine systematische Evaluation unter variierenden Anforderungen ermöglichen und semantische Vorurteile ausschließen.
Empirische Erkenntnisse: Identifikation unterschiedlicher Fehlermodi bei Frontier-Modellen und Nachweis, dass sowohl Prompt-Design als auch Harness-Engineering die Balance zwischen Exploration und Exploitation signifikant verbessern können.

5. Bedeutung und Implikationen

Diese Arbeit bietet einen fundamentalen neuen Blickwinkel auf die Evaluation von LM-Agenten:

Über Success Rate hinaus: Sie zeigt, dass die reine Erfolgsquote irreführend sein kann, da sie nicht aufdeckt, wie ein Agent zu einem Ergebnis kommt. Die Trennung von Explorations- und Exploitationsfehlern ermöglicht eine feinere Diagnose von Schwächen.
Diagnose-Tool: Die Metrik hilft Entwicklern zu verstehen, ob ein Agent scheitert, weil er die Welt nicht genug erkundet (Explorationsproblem) oder weil er das Gelernte nicht effizient nutzt (Exploitationsproblem).
Optimierungspotenzial: Die Ergebnisse belegen, dass LM-Agenten durch minimale technische Anpassungen (Harness Engineering, gezielte Prompts) erheblich verbessert werden können, ohne die Modelle selbst neu zu trainieren.
Zukunft: Der Rahmen dient als Testsuite für die "rohen" kognitiven Fähigkeiten von Agenten und kann als Basis für realistischere, semantisch reiche Umgebungen dienen.

Zusammenfassend liefert das Paper einen robusten, mathematisch fundierten Ansatz, um das "Black-Box"-Verhalten von LM-Agenten in offenen Umgebungen zu entschlüsseln und gezielt zu optimieren.