RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je de eigenaar bent van een enorme supermarkt. Je moet elke dag beslissingen nemen: welke producten moet je vullen op het schap, wat moet je voor ze vragen, en welke leverancier moet je bellen?

Nu, in plaats van dat jij dat doet, heb je een robot-assistent (een AI) aangesteld. Deze robot is heel slim; hij kan lezen, rekenen en zelfs redeneren. Maar er is een probleem: deze robot is gewend om korte taken te doen, zoals "zoek een recept" of "schrijf een e-mail". Wat gebeurt er als je hem de volledige leiding geeft over je supermarkt voor een heel jaar?

Dat is precies wat dit onderzoek, genaamd RetailBench, heeft onderzocht.

Hier is de uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Korte Aandachtspanne" van de Robot

De onderzoekers ontdekten dat deze slimme robots goed zijn in korte taken, maar snel in de war raken als het om lange periodes gaat.

De Analogie: Stel je voor dat je een robot vraagt om een lange reis te maken. Hij kan de eerste 10 minuten perfect de weg vinden. Maar na een uur begint hij te twijfelen, vergeet hij waar hij naartoe ging, en plotseling rijdt hij in de verkeerde richting of stopt hij gewoon.
In de supermarkt: De robot begon goede beslissingen te nemen, maar na een paar weken begon hij producten te bestellen die niet bestonden, prijzen te zetten die onmogelijk waren (bijvoorbeeld €999 voor een blik soep), of hij vergat dat hij huur moest betalen. De winkel ging failliet omdat de robot zijn lange-termijn doel uit het oog verloor.

2. De Oplossing: De "Strategische Chef" en de "Uitvoerende Klerk"

Om dit op te lossen, bedachten de onderzoekers een nieuwe manier om de robot te laten werken. Ze noemen dit het "Evolving Strategy & Execution" raamwerk.

In plaats van dat de robot alles in één keer doet, splitsen ze het in twee rollen:

De Strategische Chef (De Denker): Deze robot kijkt elke ochtend naar de grote lijnen. Hij denkt na over de strategie voor de hele week: "We moeten meer focus leggen op verse groenten en minder op snoep." Hij plant het grote plan.
De Uitvoerende Klerk (De Doener): Deze robot krijgt het plan van de Chef en voert het uit. Hij mag het plan niet zomaar veranderen terwijl hij aan het werk is. Hij doet alleen wat er staat: "Vul de groentekast op, pas de prijs aan."

Waarom werkt dit?
Stel je voor dat je een orkest dirigeert. Als de dirigent (de Chef) elke noot die de violist (de Klerk) speelt, direct probeert te corrigeren, wordt het een chaos. Maar als de dirigent een duidelijk plan schetst en de violist die noten rustig speelt, ontstaat er harmonie. Door het denken en het doen te scheiden, blijft de robot rustig en stabiel.

3. De Test: De Supermarkt Simulator

De onderzoekers bouwden een digitale supermarkt die zich gedraagt als de echte wereld:

Onvoorspelbare klanten: Soms komen er veel mensen, soms weinig.
Nieuws: Soms staat er in de krant dat er een tekort is aan sinaasappels, wat de prijs beïnvloedt.
Vervallen producten: Als je melk te lang op het schap laat staan, is het weg.

Ze lieten 8 verschillende, zeer geavanceerde AI-modellen deze supermarkt runnen.

4. Wat Vonden Ze?

De resultaten waren een mix van hoop en teleurstelling:

De nieuwe methode werkt beter: De robots die werkten met de "Chef en Klerk"-methode (Evolving Strategy) hielden hun winkel langer open en maakten meer winst dan de robots die alles in één keer probeerden te doen. Ze maakten minder fouten en waren stabieler.
Maar nog steeds niet perfect: Zelfs met de nieuwe methode faalden de robots als de supermarkt te groot en te complex werd.
- De "Hallucinaties": Soms bedachten de robots producten die niet bestonden (alsof ze "roze olifanten" bestelden in plaats van melk).
- De "Gierigheid": Soms bestelden ze 18.000 blikken soep, terwijl ze maar ruimte hadden voor 100.
- Verlies van het overzicht: Als de winkel te groot werd (met 20 verschillende productgroepen in plaats van 5), raakten ze de draad kwijt en konden ze niet meer alle producten goed beheren.

5. De Conclusie: We zijn nog niet zover

De boodschap van dit onderzoek is: AI is geweldig, maar nog niet klaar voor de lange termijn.

Het is alsof we een auto hebben die perfect kan parkeren en een korte rit naar de supermarkt kan maken. Maar als we hem vragen om een rondreis over de hele wereld te maken zonder dat hij moe wordt of de weg vergeet, is hij daar nog niet voor gemaakt. Hij raakt verdwaald, maakt onlogische keuzes en stopt uiteindelijk.

Kort samengevat:
De onderzoekers hebben een nieuwe manier bedacht om slimme robots beter te laten plannen voor de lange termijn (door ze te laten denken en doen in aparte stappen). Dit helpt, maar de robots zijn nog steeds niet slim genoeg om een complexe, dynamische wereld (zoals een echte supermarkt) volledig zelfstandig en foutloos te runnen. Er is nog veel werk te doen voordat we echt op deze robots kunnen vertrouwen voor zware, langdurige taken.

RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments

1. Het Probleem: De "Korte Aandachtspanne" van de Robot

2. De Oplossing: De "Strategische Chef" en de "Uitvoerende Klerk"

3. De Test: De Supermarkt Simulator

4. Wat Vonden Ze?

5. De Conclusie: We zijn nog niet zover

Probleemstelling

Methodologie

1. RetailBench: Een Nieuwe Benchmark

2. Het "Evolving Strategy & Execution" Framework

3. Experimenteel Opzet

Belangrijkste Resultaten

1. Framework Prestaties

2. Prestaties over Omgevingen

3. Analyse van Falingsmodi

Bijdragen

Betekenis en Conclusie

RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments

1. Het Probleem: De "Korte Aandachtspanne" van de Robot

2. De Oplossing: De "Strategische Chef" en de "Uitvoerende Klerk"

3. De Test: De Supermarkt Simulator

4. Wat Vonden Ze?

5. De Conclusie: We zijn nog niet zover

Probleemstelling

Methodologie

1. RetailBench: Een Nieuwe Benchmark

2. Het "Evolving Strategy & Execution" Framework

3. Experimenteel Opzet

Belangrijkste Resultaten

1. Framework Prestaties

2. Prestaties over Omgevingen

3. Analyse van Falingsmodi

Bijdragen

Betekenis en Conclusie

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents