The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie trainieren einen neuen Mitarbeiter für einen Online-Shop. In den meisten Testverfahren geben Sie ihm einen statischen Katalog: Die Produkte sind fest, die Preise ändern sich nicht, und es gibt immer dieselben Werkzeuge, um Bestellungen aufzugeben. Der Mitarbeiter lernt, diesen einen, starren Katalog perfekt zu bedienen.

Aber das ist nicht die echte Welt! In der Realität ist ein Online-Shop wie ein lebendiger Organismus. Jeden Tag kommen neue Produkte hinzu, alte werden aus dem Sortiment genommen, Preise werden dynamisch angepasst, und manchmal fällt ein ganzes System (wie der Warenkorb) für Wartungsarbeiten aus. Wenn Ihr Mitarbeiter nur den starren Katalog kennt, wird er in der echten Welt sofort scheitern, sobald sich etwas ändert.

Genau dieses Problem lösen die Autoren mit ihrer Arbeit „The World Won't Stay Still" (Die Welt bleibt nicht stehen). Hier ist eine einfache Erklärung ihrer Lösung:

1. Das Problem: Die „Fotografie" vs. der „Film"

Bisherige Tests für KI-Agenten (wie Chatbots, die Aufgaben erledigen) waren wie Fotografien. Sie zeigen eine einzige, statische Momentaufnahme der Welt. Die KI lernt, in diesem einen Bild perfekt zu navigieren.
Die echte Welt ist aber ein Film. Sie entwickelt sich weiter. Neue Funktionen werden hinzugefügt, alte abgeschaltet, und Datenstrukturen ändern sich. Wenn die KI nur auf Fotos trainiert wurde, ist sie blind für die Bewegung im Film.

2. Die Lösung: PROEVOLVE – Der „Baukasten für sich verändernde Welten"

Die Autoren stellen ein neues System namens PROEVOLVE vor. Man kann sich das wie einen intelligenten LEGO-Baukasten vorstellen, der nicht nur statische Modelle baut, sondern diese Modelle live umbaut, während man zuschaut.

Der Bauplan (Der Graph): Statt alles in Text zu beschreiben, wird die Welt als ein riesiges Netzwerk (ein Graph) dargestellt. Jeder Punkt ist ein Teil der Welt (z. B. ein Benutzer, ein Produkt, ein Werkzeug), und die Linien dazwischen zeigen, wie sie zusammenhängen.
Die Programmierbarkeit: Das Geniale ist, dass man diesen Bauplan „programmieren" kann. Man gibt dem System Anweisungen wie:
- „Füge jetzt eine neue Funktion hinzu: Preiswarnungen!" (Das System fügt automatisch neue LEGO-Steine und Verbindungen hinzu).
- „Entferne den Warenkorb!" (Das System baut einen Teil des Modells ab und muss Wege finden, wie man trotzdem weiterarbeiten kann).
- „Verbinde Dinge direkt, die vorher nur über Umwege erreichbar waren!" (Das System baut Abkürzungen).

3. Der Test: Der „Simulations-Flug"

Mit diesem System haben die Forscher nicht nur einen Shop getestet, sondern 200 verschiedene Versionen eines Shops erzeugt, die sich alle leicht voneinander unterscheiden.

Sie starteten mit einem einfachen Shop.
Dann ließen sie ihn 50-mal „evolvieren" (sich entwickeln), wobei sie mal neue Dinge hinzufügten und mal alte entfernten.
Daraus entstanden 3.000 verschiedene Aufgaben für die KI.

Stellen Sie sich vor, Sie lassen Ihren KI-Mitarbeiter erst in einem Shop mit 10 Produkten arbeiten. Dann fügen Sie plötzlich 100 neue Produkte hinzu und entfernen den „Warenkorb"-Knopf. Der Mitarbeiter muss sofort umdenken. Dann entfernen Sie wieder etwas anderes. Das System prüft, ob die KI anpassungsfähig ist oder ob sie panisch wird, sobald sich die Regeln ändern.

4. Was haben sie herausgefunden?

Die Ergebnisse waren aufschlussreich:

KI ist oft starr: Viele der besten KI-Modelle, die in statischen Tests glänzen, scheitern, wenn sich die Umgebung ändert. Sie wissen nicht, wie sie mit dem „Neubau" umgehen sollen.
Erinnerung hilft, aber nicht immer: Wenn die KI sich an frühere Gespräche erinnert, hilft das manchmal, aber nicht immer. Manchmal führt das sogar dazu, dass sie alte, nicht mehr gültige Wege versucht.
Kosten vs. Erfolg: Um in einer sich verändernden Welt erfolgreich zu sein, müssen die KIs oft mehr „arbeiten" (mehr Fragen stellen, mehr Werkzeuge nutzen), was teurer und langsamer ist.

Fazit

Diese Arbeit sagt uns: Wir müssen aufhören, KIs nur in ruhigen Teichen zu testen. Wir müssen sie in stürmischen Flüssen schwimmen lassen, wo sich das Wasser ständig ändert.

PROEVOLVE ist das Werkzeug, das uns erlaubt, diese stürmischen Flüsse künstlich zu erzeugen, um zu sehen, welche KIs wirklich robust sind und welche nur gut darin sind, starre Aufgaben abzuarbeiten. Es ist der Unterschied zwischen einem Schachspieler, der nur gegen einen Computer spielt, und einem, der gegen einen lebenden Gegner spielt, der seine Strategie mitten im Spiel ändert.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Aktuelle Benchmarks für LLM-gestützte Agenten (Large Language Models) basieren überwiegend auf statischen Umgebungen. Diese weisen feste Tool-Sets und unveränderliche Daten-Schemata auf. Dies steht im starken Kontrast zur Realität, in der sich Umgebungen dynamisch entwickeln: Neue Funktionen werden hinzugefügt, bestehende Tools iteriert und veraltete APIs abgeschaltet (deprecated).

Die bestehenden Ansätze vernachlässigen diese evolutionäre Natur. Sie behandeln Umgebungen als isolierte Momentaufnahmen oder skalieren lediglich die Menge der Tools/Daten, ohne die Kohärenz zwischen Schemata, Daten und Tools zu wahren. Dies führt dazu, dass die Anpassungsfähigkeit (Adaptability) und Robustheit von Agenten gegenüber realen, sich wandelnden Systemen nicht umfassend bewertet werden kann.

2. Methodik: ProEvolve Framework

Das Paper stellt ProEvolve vor, ein graphenbasiertes Framework, das die Evolution von Agenten-Umgebungen programmierbar und automatisiert macht.

A. Graph-Formalismus zur Modellierung

Der Kern von ProEvolve ist ein typisierter relationaler Graph $G = (V, E)$ , der die gesamte Umgebung explizit abbildet:

Knoten ( $V$ ): Repräsentieren Schema-Elemente (z. B. Datenfelder wie User.user_id, Order.order_id).
Kanten ( $E$ ): Codieren Beziehungen oder Tool-gestützte Übergänge, die Informationen von einem Schema-Element zu einem anderen abbilden.
Evolution als Graph-Transformation: Änderungen in der Umgebung werden als strukturierte Operationen auf dem Graphen definiert (Hinzufügen/Löschen von Knoten und Kanten). Dies gewährleistet, dass Änderungen an Tools, Schemata und Daten konsistent und kohärent propagiert werden.

B. Programmierbare Evolution (Drei Strategien)

Das Framework nutzt Agenten-Workflows, um automatisch evolutionäre Kurricula zu generieren, die drei Hauptstrategien kombinieren:

Completion (Vervollständigung): Fügt neue Knoten und Kanten hinzu, um neue Fähigkeiten zu unterstützen (z. B. ein neues Tool für „Wunschliste"). Dies imitiert feature-getriebene Entwicklung.
Saturation (Sättigung): Entdeckt indirekte Beziehungen durch Random Walks auf dem Graphen und fügt „Shortcut"-Tools hinzu, die mehrstufige Abfragen in einen einzigen Aufruf zusammenfassen (Effizienzsteigerung).
Deprecation (Abschaltung): Entfernt Knoten und Kanten, um das Abschalten von APIs oder Diensten zu simulieren. Das System generiert dabei realistische Workarounds für Agenten.

C. Generierung von Task-Sandboxes

Auf Basis der evolvierten Graphen werden Aufgaben (Tasks) generiert:

Subgraph-Sampling: Ein zusammenhängender Teilgraph wird ausgewählt, der den strukturellen Umfang einer Aufgabe definiert.
Sandbox-Materialisierung: Ein simuliertes Umfeld wird instanziiert, das die erforderlichen Entitäten und Beziehungen enthält.
Agentic Walk: Ein Referenzpfad wird generiert, bei dem ein „Oracle"-Agent schrittweise Aktionen ausführt. Dabei wird der Kontext als expandierender Subgraph modelliert.
State-Wise Evaluation: Die Bewertung erfolgt nicht nur am Ende, sondern schrittweise. Ein User-Simulator prüft, ob der Agent an jedem Zustand $t$ die notwendigen Informationen gewonnen hat, bevor er zur nächsten Anweisung übergeht.

3. Schlüsselergebnisse und Experimente

Die Autoren validierten das Framework in einem E-Commerce-Szenario:

Skalierung: Aus einem einzigen Seed-Umfeld wurden 200 evolvierte Umgebungen und 3.000 spezifische Task-Sandboxes generiert.
Benchmarks: Verschiedene State-of-the-Art-LLMs (GPT-5, Claude-Opus-4.5, DeepSeek-V3.2, Gemini-2.5-Pro, Qwen3) wurden getestet.
Erkenntnisse:
- Hohe Variabilität: Die Leistung von Agenten schwankt drastisch zwischen verschiedenen Evolutionsstadien. Ein Agent kann bei Hinzufügen von Tools besser werden, aber bei deren Abschaltung stark einbrechen.
- Kein konsistentes Muster: Es gibt keine einheitliche Regel, wie Agenten auf Evolution reagieren; das Verhalten ist modell- und transitionsabhängig.
- Replay-Strategien: Das Speichern von Historie (History Replay) oder Reflexionen (Reflection Replay) verbessert die Leistung nicht konsistent. Bei einigen Modellen (z. B. DeepSeek) führt es zu mehr Tool-Nutzung und höherer Zuverlässigkeit, bei anderen (z. B. Claude) sogar zu schlechterer Performance durch Über-Exploration.
- Kosten-Nutzen-Abwägung: Schwierigere Aufgaben erfordern mehr Interaktionen und Tool-Aufrufe. Es besteht ein klarer Trade-off zwischen Robustheit (Erfolgsrate) und Effizienz (Kosten/Anzahl der Aufrufe).

4. Hauptbeiträge

Erkennung der Lücke: Identifikation der Notwendigkeit, Agenten-Benchmarks von statischen Momentaufnahmen hin zu dynamischen, evolvierten Umgebungen zu verschieben.
Programmable Graph Formalism: Einführung eines einheitlichen Graphen-Modells, das die kohärente Evolution von Daten, Schemata und Tools ermöglicht.
Automatisiertes Framework (ProEvolve): Ein System, das Umgebungen automatisch evolviert, Tasks generiert und diese in Sandboxes evaluiert.
Erste systematische Studie: Bereitstellung des ersten umfassenden Benchmarks für Agenten in sich entwickelnden Umgebungen, der zeigt, dass aktuelle Modelle oft nicht robust genug für reale Dynamiken sind.

5. Bedeutung und Ausblick

Die Arbeit stellt einen Paradigmenwechsel in der Agenten-Evaluation dar. Sie beweist, dass statische Benchmarks die Robustheit von Agenten überschätzen können, da sie die Fähigkeit zur Anpassung an strukturelle Änderungen nicht testen.

Bedeutung:

Realitätsnähe: Ermöglicht eine realistischere Bewertung von Agenten für den Einsatz in Produktionssystemen, wo APIs und Datenstrukturen sich ständig ändern.
Methodischer Fortschritt: Bietet eine skalierbare, kontrollierbare Methode zur Generierung von Testumgebungen, die manuelle Erstellung ersetzt.
Zukünftige Forschung: Legt den Grundstein für die Entwicklung von Agenten, die Evolution explizit erkennen und darauf reagieren können (z. B. durch Curriculum-Learning oder adaptive Strategien).

Zusammenfassend zeigt das Paper, dass die Welt nicht stillsteht und Agenten-Benchmarks dies widerspiegeln müssen, um die wahre Leistungsfähigkeit und Zuverlässigkeit von KI-Agenten zu messen.