RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments

Each language version is independently generated for its own context, not a direct translation.

🛒 Der große Supermarkt-Test: Können KI-Manager langfristig überleben?

Stell dir vor, du stellst einen extrem intelligenten Roboter als Supermarktmanager ein. Dieser Roboter ist kein gewöhnlicher Angestellter, sondern eine hochmoderne Künstliche Intelligenz (ein sogenanntes „LLM-Agent"), die alles über Mathematik, Sprache und Logik weiß.

Die Frage des Papers ist einfach: Kann dieser Roboter einen Supermarkt über Monate hinweg erfolgreich führen, oder wird er nach ein paar Tagen pleitegehen?

1. Das Problem: Kurzfristige Genies, langfristige Chaoten

Bisher haben diese KIs bei kurzen Aufgaben glänzend abgeschnitten. Sie können wie ein Schachgroßmeister einen Zug vorausdenken oder wie ein Dolmetscher einen Satz perfekt übersetzen. Aber sobald es darum geht, einen ganzen Monat lang Entscheidungen zu treffen, wo sich die Umstände ständig ändern (neue Kunden, schwankende Preise, Lieferverzögerungen), geraten sie ins Wanken.

Sie verlieren den Überblick, vergessen ihre langfristigen Ziele und treffen plötzlich völlig verrückte Entscheidungen – wie etwa, 10.000 Dosen Suppe zu bestellen, obwohl sie nur Platz für 50 haben.

2. Der neue Test: „RetailBench" (Der Supermarkt-Simulator)

Die Autoren haben einen neuen Test entwickelt, den sie RetailBench nennen. Stell dir das wie einen fliegenden Simulator für Supermärkte vor, aber statt eines Flugzeugs steuert man hier einen Laden.

Die Umgebung: Es ist ein echter, chaotischer Supermarkt. Es gibt Kunden, die kommen und gehen, Produkte, die ablaufen, Lieferanten, die teurer werden, und Nachrichten aus der Welt, die den Verkauf beeinflussen (z. B. „Es regnet, also kaufen alle mehr Suppe").
Die Aufgabe: Der KI-Agent muss jeden Tag entscheiden: Was soll ich einkaufen? Zu welchem Preis soll ich verkaufen? Wie viel Geld habe ich noch für die Miete?
Das Ziel: Nicht nur einen Tag überleben, sondern monatelang profitabel bleiben. Wenn der Laden die Miete für 5 Tage hintereinander nicht zahlen kann, ist das Spiel vorbei (Game Over).

3. Die Lösung: Der „Strategie- und Ausführungs-Tanz"

Die Forscher haben bemerkt, dass KIs oft scheitern, weil sie versuchen, alles gleichzeitig zu tun: Sie planen die Zukunft und kaufen gleichzeitig Milch ein. Das führt zu Verwirrung.

Deshalb haben sie ein neues System namens „Evolving Strategy & Execution" (Entwickelnde Strategie und Ausführung) erfunden.

Die Analogie: Der Dirigent und das Orchester
Stell dir den KI-Agenten als ein Orchester vor:

Der Dirigent (Strategie): Am Morgen trifft der Dirigent eine Entscheidung: „Heute spielen wir ein ruhiges Stück. Wir konzentrieren uns auf teure Weine und ignorieren billige Chips." Diese Entscheidung bleibt den ganzen Tag fest.
Das Orchester (Ausführung): Während des Tages spielt das Orchester (führt die Aktionen aus) strikt nach der Partitur des Dirigenten. Es ändert nichts an der Strategie, während es spielt.
Der nächste Morgen: Erst am nächsten Morgen trifft der Dirigent wieder eine neue Entscheidung basierend darauf, wie der gestrige Tag lief.

Warum ist das wichtig?
Frühere Systeme waren wie ein Dirigent, der mitten im Stück die Partitur ändert, weil er nervös wird. Das führt zu einem musikalischen Chaos. Das neue System trennt das Nachdenken (Strategie) vom Handeln (Ausführung). Das macht den KI-Manager stabiler und weniger anfällig für Panikentscheidungen.

4. Was haben die Tests ergeben?

Die Forscher haben 8 der besten aktuellen KIs (wie GPT-5, Kimi, DeepSeek) in diesem Simulator getestet.

Das Gute: Mit dem neuen „Dirigent-System" haben die KIs deutlich besser abgeschnitten als mit alten Methoden. Sie haben länger überlebt und mehr Geld verdient.
Das Schlechte: Je schwieriger der Test wurde (mehr Produkte, mehr Nachrichten, mehr Chaos), desto schlechter wurden die KIs.
- Halluzinationen: Die KIs erfanden Produkte, die es gar nicht gab (z. B. „Ich kaufe 500 Stück von der imaginären Ware X").
- Vergesslichkeit: Sie vergaßen wichtige Informationen, wie z. B. dass eine Lieferung erst in einer Woche kommt.
- Irrationalität: Manchmal setzten sie Preise auf 0 Euro oder bestellten Unmengen an Waren, die sie gar nicht bezahlen konnten.

5. Das Fazit: Noch keine echten Manager

Das Paper zeigt uns eine wichtige Wahrheit: Aktuelle KIs sind brillante Kurzzeit-Taktiker, aber noch keine langfristigen Strategen.

Sie können einen Tag lang gut funktionieren, aber wenn die Komplexität steigt, verlieren sie den Faden. Sie brauchen noch viel mehr Übung, um wie ein erfahrener Supermarktmanager zu denken, der nicht nur auf den heutigen Umsatz schaut, sondern auch weiß, wie man den Laden in fünf Jahren noch am Laufen hält.

Zusammengefasst:
RetailBench ist wie ein Führerschein-Test für KI-Manager. Bisher haben die meisten Kandidaten nur die Parkmanöver (kurze Aufgaben) perfekt beherrscht, aber im echten Berufsalltag (langfristige Planung) sind sie noch nicht bereit, den Job allein zu übernehmen. Das neue „Strategie-System" hilft ihnen zwar, aber der Weg zur vollen Autonomie ist noch lang.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz der bemerkenswerten Erfolge von Large Language Model (LLM)-basierten Agenten bei kurzfristigen und hochstrukturierten Aufgaben (z. B. Code-Editierung, mathematische Problemlösung), bleibt ihre Fähigkeit, in realistischen, dynamischen Umgebungen über lange Zeiträume hinweg kohärente Entscheidungen zu treffen, eine offene Herausforderung.

Bestehende Benchmarks konzentrieren sich oft auf kurze Horizonte oder stark strukturierte Interaktionen (z. B. Web-Browsing), was ihre Eignung zur Bewertung von Agenten in komplexen wirtschaftlichen Systemen einschränkt. In solchen Systemen sind folgende Fähigkeiten entscheidend, die aktuellen Modellen jedoch oft fehlen:

Langfristige Planung: Konsistente Strategien über hunderte von Schritten hinweg.
Stabilität: Vermeidung von Verhaltensdrift und kumulativen Fehlern.
Umgang mit Unsicherheit: Reaktion auf stochastische Nachfrage und sich ändernde externe Bedingungen (z. B. Nachrichten, Lieferketten).

Das Paper identifiziert, dass aktuelle Agenten in solchen Szenarien häufig an „Halluzinationen", irrationalen wirtschaftlichen Entscheidungen und dem Verlust der strategischen Kohärenz scheitern, was zum Zusammenbruch des simulierten Geschäfts führt.

2. Methodik

2.1 RetailBench: Der Benchmark

Die Autoren stellen RetailBench vor, einen hochfidelitäts Benchmark, der auf realen kommerziellen Daten (Dominick's Dataset) und etablierten ökonomischen Modellierungsprinzipien basiert.

Szenario: Ein autonomer Agent verwaltet einen Supermarkt über einen Zeitraum von bis zu 1.000 simulierten Tagen.
MDP-Formulierung: Das Problem wird als Markov-Entscheidungsprozess (MDP) modelliert.
Zustandsraum ( $S$ ): Umfasst Produktattribute, Lagerbestände (mit Haltbarkeitsdaten), Lieferkettenzustände (Preise, Qualität, Vorlaufzeiten), Nachfragesignale (Kundenverkehr, Bewertungen), externe Kontexte (finanzielle Nachrichten) und den Finanzstatus (Bargeld, Nettovermögen).
Aktionsraum ( $A$ ): Der Agent kann Preise anpassen, Nachbestellungen tätigen, Informationen abfragen (z. B. Historie, Lieferanten), Notizen schreiben/lesen und den Tag beenden.
Dynamik: Der Tag verläuft in Schleifen (Kundenverkehr, Verkauf, Bewertungen, Lagerupdate, Finanzen). Das Episodenende ist erreicht, wenn der Agent fünf Tage hintereinander keine Miete zahlen kann.
Schwierigkeitsgrade: Drei Konfigurationen (Easy, Middle, Hard) variieren in der Anzahl der Produktkategorien (5 vs. 20), der Budgetbeschränkung und der Einbeziehung dynamischer Nachrichtenereignisse.

2.2 Evolving Strategy & Execution Framework

Um die Stabilität zu verbessern, schlagen die Autoren ein neues Agenten-Framework vor, das Strategie von Ausführung trennt:

Evolving Strategy Phase (Strategie-Entwicklung):
- Der Agent analysiert Umgebungsfeedback und historische Daten.
- Er darf keine direkten Umgebungsaktionen ausführen.
- Ziel: Überprüfung und Anpassung einer globalen, persistenten Strategie (Hinzufügen, Verfeinern oder Entfernen von Komponenten). Dies verhindert einen zu häufigen Strategiewechsel.
Execution Phase (Ausführung):
- Die Strategie ist in dieser Phase fixiert und unveränderlich.
- Der Agent führt konkrete Aktionen strikt gemäß der aktuellen Strategie aus.
- Dies reduziert Oszillationen und sorgt für eine klarere Attribution von Erfolgen/Misserfolgen.

Dieser Ansatz nutzt eine hierarchische Repräsentation der Policy:

Makro-Strategie: Hochlevel-Ziele (z. B. „Priorisiere hohe Marge").
Ausführungs-Strategie: Strukturierte operative Anweisungen (z. B. welche SKUs nachzubestellen sind).
Tägliche Aktionen: Konkrete Tool-Aufrufe.

3. Experimentelles Setup

Modelle: Acht State-of-the-Art LLMs wurden evaluiert (u. a. GPT-5.2, Kimi-K2, GLM-4.6, DeepSeek-V3.2, Qwen-235B, Gemini-3).
Vergleichsbasen: Das vorgeschlagene Framework wurde gegen etablierte Baselines getestet:
- Reflection (Step-Level): Reflexion nach jedem Schritt.
- Reflection (Day-Level): Reflexion einmal pro Tag.
- Plan-and-Act: Klassischer Planer-Ausführer-Ansatz.
Metriken: Betriebsdauer (Tage), durchschnittlicher Tagesumsatz, Tageseinkommen, Verfallsrate (Expiry Ratio), Rückgaberate (Return Ratio) und maximale erreichte Tage.

4. Ergebnisse

4.1 Framework-Vergleich

Das Evolving Strategy & Execution Framework übertraf alle anderen Baselines konsistent in Bezug auf operative Stabilität und wirtschaftliche Leistung (höherer Umsatz, geringere Verfallsraten).
Insbesondere reduzierte es die Volatilität der Strategien im Vergleich zu Reflexions-basierten Ansätzen, die oft zu inkonsistentem Verhalten führten.
Dennoch blieben die Ergebnisse der LLMs signifikant hinter einer handgefertigten heuristischen Policy (Upper Bound) zurück, was die aktuellen Grenzen der Modelle aufzeigt.

4.2 Skalierbarkeit und Komplexität

Leistungsabfall: Mit steigender Komplexität (von Easy zu Hard) verschlechterte sich die Leistung aller Modelle drastisch.
Entscheidungsraum: Modelle scheiterten daran, den gesamten Entscheidungsraum (alle 20 Kategorien und 96 SKUs) effektiv abzudecken. Sie konzentrierten sich oft nur auf einen kleinen Teil der Produkte.
Informationslücken: Modelle nutzten kritische Signale wie Kundenbewertungen oder Rückgaberaten unzureichend, obwohl diese für den Erfolg entscheidend sind.

4.3 Identifizierte Fehlermodi (Failure Modes)

Die Analyse offenbarte vier Hauptursachen für das Scheitern:

Nicht skalierbare Entscheidungsfähigkeit: Die Fähigkeit, Entscheidungen zu treffen, skaliert nicht proportional mit der Größe der Umgebung.
Unvollständige Informationsabdeckung: Modelle ignorieren wichtige Datenquellen systematisch.
Temporale Instabilität: Selbst in stabilen Umgebungen änderten Agenten ihre Ausführungsstrategien täglich zu stark, was zu inkonsistenten Ergebnissen führte.
Halluzinationen und ungültige Aktionen:
- Erfinden nicht existierender SKUs oder Daten.
- Ausgabe irrationaler Aktionen (z. B. negative Bestellmengen, Preise von 0 oder extrem hohen Werten), die das System destabilisieren.

5. Bedeutung und Beiträge

Neuer Benchmark: RetailBench bietet einen realistischen, datengestützten Testboden für die Bewertung von Langzeit-Autonomie in wirtschaftlichen Kontexten, der über einfache Interaktionsaufgaben hinausgeht.
Architektonischer Fortschritt: Das vorgeschlagene Framework demonstriert, dass die Trennung von strategischer Reflexion und operativer Ausführung essenziell ist, um Stabilität in langen Horizonten zu erreichen.
Kritische Einsichten: Die Studie zeigt, dass aktuelle LLMs zwar kurzfristige Aufgaben meistern, aber fundamentale Defizite in Bezug auf langfristige Planung, konsistente Strategieaufrechterhaltung und wirtschaftliche Rationalität aufweisen.
Zukünftige Forschung: Die Ergebnisse deuten darauf hin, dass reine Prompting-Methoden nicht ausreichen. Zukünftige Ansätze müssen wahrscheinlich Reinforcement Learning, Feinabstimmung oder hybride neuro-symbolische Ansätze integrieren, um robuste, strategiefähige Autonomie in dynamischen Umgebungen zu erreichen.

Zusammenfassend liefert das Paper einen wichtigen Beitrag zum Verständnis der Grenzen aktueller KI-Agenten in realistischen Wirtschaftsszenarien und bietet sowohl einen neuen Evaluierungsstandard als auch eine vielversprechende Architektur für zukünftige Entwicklungen.