Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand

Dit paper introduceert twee nieuwe datagedreven algoritmen die offline versterkte leer- en overlevingsanalyse technieken combineren om optimale prijs- en voorraadbeheerstrategieën te leren in een omgeving met gecensureerde en afhankelijke vraag, waarbij de uitdagingen van ontbrekende winstinformatie en het verlies van de Markov-eigenschap worden overwonnen door het probleem te benaderen als een hoog-ordelijk Markov-beslissingsproces.

Korel Gundem, Zhengling Qi

Gepubliceerd Thu, 12 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je de eigenaar bent van een populaire bakkerij. Je wilt elke dag de perfecte prijs voor je broodjes vinden en precies genoeg deeg bestellen, zodat je nooit te veel verspilt, maar ook nooit klanten teleurstelt omdat je uitverkocht bent.

In de echte wereld is dit echter een enorme puzzel, vooral omdat je twee grote problemen hebt:

1. De "Verborgen Waarde" (Censering)
Stel, je hebt vandaag 10 broodjes en je verkoopt ze allemaal. Je denkt: "Groot succes! Ik had misschien wel 15 verkocht als ik er meer had gehad." Maar je weet het niet zeker. Je ziet alleen dat je 10 hebt verkocht. De vraag van de overige 5 mensen is "gecensureerd" of verborgen. Het is alsof je een raam hebt dat dichtgetrokken is; je ziet de mensen staan, maar je weet niet hoeveel er echt zouden kopen als het raam open was.

2. De "Gedragsspoor" (Afhankelijke Vraag)
Mensen zijn niet robots. Als je gisteren een broodje hebt gekocht, is de kans groter dat je vandaag ook weer langskomt. Als je echter een keer uitverkocht was, zijn ze misschien boos en gaan ze naar de concurrent. De vraag van vandaag hangt dus direct af van wat er gisteren is gebeurd. Het is een kettingreactie.

Wat doet dit paper?

De onderzoekers van dit paper hebben een slimme manier bedacht om deze puzzel op te lossen, puur op basis van oude data (zoals oude verkoopbonnen en prijslijsten), zonder dat ze de klanten opnieuw hoeven te vragen.

Hier is de uitleg in simpele termen, met een paar creatieve vergelijkingen:

De "Gedachtenlees-machine" voor de Bakker
Stel je voor dat je een oude, vergeelde logboek hebt met alle transacties van de afgelopen jaren. De onderzoekers bouwen een algoritme (een soort slimme computer) dat in dat logboek kijkt en zegt: "Hé, kijk eens! Elke keer als we de prijs verlaagden en we uitverkocht raakten, kwamen de klanten de volgende dag niet terug. Maar als we de prijs iets hoger hielden en net genoeg brood hadden, waren ze blij en kwamen ze terug."

Het Oplossen van de "Vervormde Spiegel"
Het grootste probleem is dat de data "vervormd" is door de uitverkochte momenten. Het is alsof je probeert een foto te maken van een landschap, maar er staat een grote muur voor die deels van het beeld verbergt.

  • De oplossing: De onderzoekers gebruiken een wiskundige truc. Ze behandelen de periode waarin je uitverkocht bent alsof het een "tijdreis" is. Ze zeggen: "Oké, we weten niet precies hoeveel mensen wilden kopen, maar we weten dat de 'geheime vraag' nog steeds daar is en de volgende dag misschien terugkomt." Ze bouwen een complexere versie van een beslissingsmodel (een 'hoge-orde MDP') die rekening houdt met hoe lang je al uitverkocht bent.

De Twee Nieuwe Wapens
Om dit te doen, gebruiken ze twee slimme methoden die lijken op hoe een leerling een spel leert spelen:

  1. De "Overlevingsanalist": Dit is alsof je kijkt naar hoe lang een broodje "overleeft" voordat het weg is. Ze gebruiken technieken uit de geneeskunde (overlevingsanalyse) om te voorspellen wat er zou zijn gebeurd als je meer voorraad had gehad.
  2. De "Offline Trainer": In plaats van dat je de bakkerij maandenlang moet testen met verschillende prijzen (en risico loopt op verliezen), "traint" de computer het model op de oude data. Het is alsof je een piloot traint in een simulator met oude vluchtgegevens, in plaats van hem echt te laten crashen.

Het Resultaat
Uiteindelijk levert dit algoritme een "ideale handleiding" op voor de bakker. Het zegt: "Vandaag, gezien de prijs van gisteren en de uitverkochte situatie, moet je de prijs op X zetten en Y broodjes bestellen om op de lange termijn het meeste geld te verdienen."

Waarom is dit speciaal?
Voorheen was dit bijna onmogelijk te doen omdat de data zo rommelig was (door de uitverkochte momenten) en omdat het gedrag van klanten zo afhankelijk was van het verleden. Dit paper is de eerste die een slimme, datagedreven manier vindt om dit exacte probleem op te lossen. Het is alsof ze een magische bril hebben ontdekt die de "verborgen" vraag van klanten zichtbaar maakt, zodat bedrijven nooit meer hoeven te gokken.

Kortom: Ze hebben een manier gevonden om uit een rommelig, onvolledig verleden een heldere toekomststrategie te halen voor winkels die vechten met hun voorraad en prijzen.