The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Die Arbeit stellt ProEvolve vor, ein graphenbasiertes Framework, das die programmierbare Evolution von Agenten-Umgebungen ermöglicht, um die Anpassungsfähigkeit von LLM-Agenten an dynamische reale Bedingungen durch die automatische Generierung variierter Testumgebungen und Aufgaben besser zu evaluieren.

Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie trainieren einen neuen Mitarbeiter für einen Online-Shop. In den meisten Testverfahren geben Sie ihm einen statischen Katalog: Die Produkte sind fest, die Preise ändern sich nicht, und es gibt immer dieselben Werkzeuge, um Bestellungen aufzugeben. Der Mitarbeiter lernt, diesen einen, starren Katalog perfekt zu bedienen.

Aber das ist nicht die echte Welt! In der Realität ist ein Online-Shop wie ein lebendiger Organismus. Jeden Tag kommen neue Produkte hinzu, alte werden aus dem Sortiment genommen, Preise werden dynamisch angepasst, und manchmal fällt ein ganzes System (wie der Warenkorb) für Wartungsarbeiten aus. Wenn Ihr Mitarbeiter nur den starren Katalog kennt, wird er in der echten Welt sofort scheitern, sobald sich etwas ändert.

Genau dieses Problem lösen die Autoren mit ihrer Arbeit „The World Won't Stay Still" (Die Welt bleibt nicht stehen). Hier ist eine einfache Erklärung ihrer Lösung:

1. Das Problem: Die „Fotografie" vs. der „Film"

Bisherige Tests für KI-Agenten (wie Chatbots, die Aufgaben erledigen) waren wie Fotografien. Sie zeigen eine einzige, statische Momentaufnahme der Welt. Die KI lernt, in diesem einen Bild perfekt zu navigieren.
Die echte Welt ist aber ein Film. Sie entwickelt sich weiter. Neue Funktionen werden hinzugefügt, alte abgeschaltet, und Datenstrukturen ändern sich. Wenn die KI nur auf Fotos trainiert wurde, ist sie blind für die Bewegung im Film.

2. Die Lösung: PROEVOLVE – Der „Baukasten für sich verändernde Welten"

Die Autoren stellen ein neues System namens PROEVOLVE vor. Man kann sich das wie einen intelligenten LEGO-Baukasten vorstellen, der nicht nur statische Modelle baut, sondern diese Modelle live umbaut, während man zuschaut.

  • Der Bauplan (Der Graph): Statt alles in Text zu beschreiben, wird die Welt als ein riesiges Netzwerk (ein Graph) dargestellt. Jeder Punkt ist ein Teil der Welt (z. B. ein Benutzer, ein Produkt, ein Werkzeug), und die Linien dazwischen zeigen, wie sie zusammenhängen.
  • Die Programmierbarkeit: Das Geniale ist, dass man diesen Bauplan „programmieren" kann. Man gibt dem System Anweisungen wie:
    • „Füge jetzt eine neue Funktion hinzu: Preiswarnungen!" (Das System fügt automatisch neue LEGO-Steine und Verbindungen hinzu).
    • „Entferne den Warenkorb!" (Das System baut einen Teil des Modells ab und muss Wege finden, wie man trotzdem weiterarbeiten kann).
    • „Verbinde Dinge direkt, die vorher nur über Umwege erreichbar waren!" (Das System baut Abkürzungen).

3. Der Test: Der „Simulations-Flug"

Mit diesem System haben die Forscher nicht nur einen Shop getestet, sondern 200 verschiedene Versionen eines Shops erzeugt, die sich alle leicht voneinander unterscheiden.

  • Sie starteten mit einem einfachen Shop.
  • Dann ließen sie ihn 50-mal „evolvieren" (sich entwickeln), wobei sie mal neue Dinge hinzufügten und mal alte entfernten.
  • Daraus entstanden 3.000 verschiedene Aufgaben für die KI.

Stellen Sie sich vor, Sie lassen Ihren KI-Mitarbeiter erst in einem Shop mit 10 Produkten arbeiten. Dann fügen Sie plötzlich 100 neue Produkte hinzu und entfernen den „Warenkorb"-Knopf. Der Mitarbeiter muss sofort umdenken. Dann entfernen Sie wieder etwas anderes. Das System prüft, ob die KI anpassungsfähig ist oder ob sie panisch wird, sobald sich die Regeln ändern.

4. Was haben sie herausgefunden?

Die Ergebnisse waren aufschlussreich:

  • KI ist oft starr: Viele der besten KI-Modelle, die in statischen Tests glänzen, scheitern, wenn sich die Umgebung ändert. Sie wissen nicht, wie sie mit dem „Neubau" umgehen sollen.
  • Erinnerung hilft, aber nicht immer: Wenn die KI sich an frühere Gespräche erinnert, hilft das manchmal, aber nicht immer. Manchmal führt das sogar dazu, dass sie alte, nicht mehr gültige Wege versucht.
  • Kosten vs. Erfolg: Um in einer sich verändernden Welt erfolgreich zu sein, müssen die KIs oft mehr „arbeiten" (mehr Fragen stellen, mehr Werkzeuge nutzen), was teurer und langsamer ist.

Fazit

Diese Arbeit sagt uns: Wir müssen aufhören, KIs nur in ruhigen Teichen zu testen. Wir müssen sie in stürmischen Flüssen schwimmen lassen, wo sich das Wasser ständig ändert.

PROEVOLVE ist das Werkzeug, das uns erlaubt, diese stürmischen Flüsse künstlich zu erzeugen, um zu sehen, welche KIs wirklich robust sind und welche nur gut darin sind, starre Aufgaben abzuarbeiten. Es ist der Unterschied zwischen einem Schachspieler, der nur gegen einen Computer spielt, und einem, der gegen einen lebenden Gegner spielt, der seine Strategie mitten im Spiel ändert.