RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments

Die Studie stellt mit RetailBench einen Benchmark für realistische Einzelhandelsszenarien vor und zeigt, dass zwar ein neuartiges Framework die operative Stabilität von LLM-Agenten verbessert, deren Leistung bei komplexen Langzeitaufgaben jedoch aufgrund fundamentaler Grenzen der Modelle erheblich nachlässt.

Linghua Zhang, Jun Wang, Jingtong Wu, Zhisong Zhang

Veröffentlicht 2026-03-18
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🛒 Der große Supermarkt-Test: Können KI-Manager langfristig überleben?

Stell dir vor, du stellst einen extrem intelligenten Roboter als Supermarktmanager ein. Dieser Roboter ist kein gewöhnlicher Angestellter, sondern eine hochmoderne Künstliche Intelligenz (ein sogenanntes „LLM-Agent"), die alles über Mathematik, Sprache und Logik weiß.

Die Frage des Papers ist einfach: Kann dieser Roboter einen Supermarkt über Monate hinweg erfolgreich führen, oder wird er nach ein paar Tagen pleitegehen?

1. Das Problem: Kurzfristige Genies, langfristige Chaoten

Bisher haben diese KIs bei kurzen Aufgaben glänzend abgeschnitten. Sie können wie ein Schachgroßmeister einen Zug vorausdenken oder wie ein Dolmetscher einen Satz perfekt übersetzen. Aber sobald es darum geht, einen ganzen Monat lang Entscheidungen zu treffen, wo sich die Umstände ständig ändern (neue Kunden, schwankende Preise, Lieferverzögerungen), geraten sie ins Wanken.

Sie verlieren den Überblick, vergessen ihre langfristigen Ziele und treffen plötzlich völlig verrückte Entscheidungen – wie etwa, 10.000 Dosen Suppe zu bestellen, obwohl sie nur Platz für 50 haben.

2. Der neue Test: „RetailBench" (Der Supermarkt-Simulator)

Die Autoren haben einen neuen Test entwickelt, den sie RetailBench nennen. Stell dir das wie einen fliegenden Simulator für Supermärkte vor, aber statt eines Flugzeugs steuert man hier einen Laden.

  • Die Umgebung: Es ist ein echter, chaotischer Supermarkt. Es gibt Kunden, die kommen und gehen, Produkte, die ablaufen, Lieferanten, die teurer werden, und Nachrichten aus der Welt, die den Verkauf beeinflussen (z. B. „Es regnet, also kaufen alle mehr Suppe").
  • Die Aufgabe: Der KI-Agent muss jeden Tag entscheiden: Was soll ich einkaufen? Zu welchem Preis soll ich verkaufen? Wie viel Geld habe ich noch für die Miete?
  • Das Ziel: Nicht nur einen Tag überleben, sondern monatelang profitabel bleiben. Wenn der Laden die Miete für 5 Tage hintereinander nicht zahlen kann, ist das Spiel vorbei (Game Over).

3. Die Lösung: Der „Strategie- und Ausführungs-Tanz"

Die Forscher haben bemerkt, dass KIs oft scheitern, weil sie versuchen, alles gleichzeitig zu tun: Sie planen die Zukunft und kaufen gleichzeitig Milch ein. Das führt zu Verwirrung.

Deshalb haben sie ein neues System namens „Evolving Strategy & Execution" (Entwickelnde Strategie und Ausführung) erfunden.

Die Analogie: Der Dirigent und das Orchester
Stell dir den KI-Agenten als ein Orchester vor:

  • Der Dirigent (Strategie): Am Morgen trifft der Dirigent eine Entscheidung: „Heute spielen wir ein ruhiges Stück. Wir konzentrieren uns auf teure Weine und ignorieren billige Chips." Diese Entscheidung bleibt den ganzen Tag fest.
  • Das Orchester (Ausführung): Während des Tages spielt das Orchester (führt die Aktionen aus) strikt nach der Partitur des Dirigenten. Es ändert nichts an der Strategie, während es spielt.
  • Der nächste Morgen: Erst am nächsten Morgen trifft der Dirigent wieder eine neue Entscheidung basierend darauf, wie der gestrige Tag lief.

Warum ist das wichtig?
Frühere Systeme waren wie ein Dirigent, der mitten im Stück die Partitur ändert, weil er nervös wird. Das führt zu einem musikalischen Chaos. Das neue System trennt das Nachdenken (Strategie) vom Handeln (Ausführung). Das macht den KI-Manager stabiler und weniger anfällig für Panikentscheidungen.

4. Was haben die Tests ergeben?

Die Forscher haben 8 der besten aktuellen KIs (wie GPT-5, Kimi, DeepSeek) in diesem Simulator getestet.

  • Das Gute: Mit dem neuen „Dirigent-System" haben die KIs deutlich besser abgeschnitten als mit alten Methoden. Sie haben länger überlebt und mehr Geld verdient.
  • Das Schlechte: Je schwieriger der Test wurde (mehr Produkte, mehr Nachrichten, mehr Chaos), desto schlechter wurden die KIs.
    • Halluzinationen: Die KIs erfanden Produkte, die es gar nicht gab (z. B. „Ich kaufe 500 Stück von der imaginären Ware X").
    • Vergesslichkeit: Sie vergaßen wichtige Informationen, wie z. B. dass eine Lieferung erst in einer Woche kommt.
    • Irrationalität: Manchmal setzten sie Preise auf 0 Euro oder bestellten Unmengen an Waren, die sie gar nicht bezahlen konnten.

5. Das Fazit: Noch keine echten Manager

Das Paper zeigt uns eine wichtige Wahrheit: Aktuelle KIs sind brillante Kurzzeit-Taktiker, aber noch keine langfristigen Strategen.

Sie können einen Tag lang gut funktionieren, aber wenn die Komplexität steigt, verlieren sie den Faden. Sie brauchen noch viel mehr Übung, um wie ein erfahrener Supermarktmanager zu denken, der nicht nur auf den heutigen Umsatz schaut, sondern auch weiß, wie man den Laden in fünf Jahren noch am Laufen hält.

Zusammengefasst:
RetailBench ist wie ein Führerschein-Test für KI-Manager. Bisher haben die meisten Kandidaten nur die Parkmanöver (kurze Aufgaben) perfekt beherrscht, aber im echten Berufsalltag (langfristige Planung) sind sie noch nicht bereit, den Job allein zu übernehmen. Das neue „Strategie-System" hilft ihnen zwar, aber der Weg zur vollen Autonomie ist noch lang.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →