Unified Learning-to-Rank for Multi-Channel Retrieval in Large-Scale E-Commerce Search

Dit paper introduceert een unified learning-to-rank-model voor Target.com dat documenten uit meerdere zoekkanalen dynamisch combineert op basis van query-specifieke signalen en gebruikersgedrag, wat resulteert in een verbetering van 2,85% in conversie en een p95-latentie onder de 50 ms.

Aditya Gaydhani, Guangyue Xu, Dhanush Kamath, Ankit Singh, Alex Li

Gepubliceerd Mon, 09 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat Target (een grote Amerikaanse supermarkt) een enorme bibliotheek heeft met miljoenen producten. Wanneer een klant iets zoekt, is het voor de computer onmogelijk om in een fractie van een seconde elke single product in die bibliotheek te bekijken. Dat zou te lang duren en de klant zou weglopen.

In plaats daarvan werkt het systeem als een super-efficiënte bibliotheekmedewerker met een team van gespecialiseerde helpers. Dit is wat dit paper beschrijft: hoe ze die helpers laten samenwerken om de perfecte lijst met producten te maken.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: Te veel helpers, te weinig tijd

Stel je voor dat je een zoekopdracht typt, bijvoorbeeld "winterjas".

  • De Helpers (Kanalen): Je hebt verschillende teams die elk hun eigen lijstje maken:
    • Team A kijkt naar de bestsellers (wat iedereen koopt).
    • Team B zoekt naar nieuwe items (wat net binnen is).
    • Team C zoekt naar seizoensgebonden items (winterjasjes).
    • Team D zoekt op woordelijke overeenkomsten.

Elk team levert een lijstje aan. Het oude systeem was als een manager die deze lijstjes simpelweg naast elkaar plakte met een vaste regel: "Team A krijgt altijd 5 plekken, Team B krijgt 3 plekken, Team C krijgt 2 plekken."

Het probleem: Dit werkt niet goed voor elke klant.

  • Als iemand zoekt op "cadeau voor een baby", wil je misschien meer nieuwe items zien dan bestsellers.
  • Als iemand zoekt op "winterjas" in juli, wil je misschien geen winterjas zien, maar in december juist wel.
  • De oude manager zag deze nuance niet. Hij gaf iedereen een vaste rol, ongeacht wat de klant precies nodig had.

2. De Oplossing: Een slimme "Super-Moderator"

De auteurs van dit paper hebben een nieuw systeem bedacht: een Unificatie-Learning-to-Rank model.

In plaats van vaste regels, hebben ze een slimme moderator (het AI-model) ingezet. Deze moderator kijkt naar alle lijstjes van de helpers en beslist per zoekopdracht en per moment welke producten het belangrijkst zijn.

  • De Analogie: Stel je voor dat je een diner organiseert.
    • De oude methode was: "We eten altijd 3 gangen van de Italiaanse kok en 2 van de Franse kok, ongeacht wie er komt."
    • De nieuwe methode is: De moderator kijkt naar de gasten. "Oh, deze gast is hongerig en houdt van Italiaans? Dan geven we de Italiaanse kok meer kansen. Die andere gast wil iets fris? Dan geeft de Fransen de voorkeur."

De moderator leert uit de geschiedenis: "Wanneer mensen op 'X' zoeken en op 'Y' klikken, was het slim om de 'nieuwe items' hoger te zetten."

3. Hoe leert de moderator? (De "Scorekaart")

De moderator moet weten wat een "goede" keuze is. In de oude wereld telden alleen klikken. Maar in de echte wereld is een klik niet alles.

De paper introduceert een gewichtssysteem dat lijkt op een puntensysteem in een spelletje:

  • Iemand kijkt alleen naar een product? = 1 punt (niet veel waard).
  • Iemand klikt erop? = 3 punten.
  • Iemand legt het in de winkelmand? = 10 punten.
  • Iemand koopt het? = 100 punten.

De moderator probeert niet alleen te zorgen dat mensen klikken, maar vooral dat ze kopen. Hij leert dus dat producten die vaak in de winkelmand belanden, hoger moeten staan dan producten die alleen maar worden bekeken.

4. Het Geheime Wapen: De "Huidige Sfeer"

Een heel belangrijk onderdeel van hun systeem is het kijken naar wat de gebruiker nu doet, niet alleen wat ze in het verleden deden.

  • Vergelijking: Stel je voor dat je normaal gesproken alleen maar koffie drinkt (langdurig gedrag). Maar vandaag heb je een vergadering en heb je dringend een energiedrankje nodig (kortetermijn intentie).
  • De oude systemen zagen alleen: "Deze persoon drinkt koffie."
  • Het nieuwe systeem ziet: "Ah, deze persoon heeft net een energiedrankje in de winkelmand gedaan, dus hij/zij is waarschijnlijk op zoek naar iets voor energie, niet koffie."

Door deze korte-termijn signalen te gebruiken, kan het systeem de lijstjes van de helpers direct aanpassen aan wat de klant nu wil.

5. Het Resultaat: Snel en Slim

Het grootste probleem bij zulke slimme systemen is vaak dat ze te traag zijn. Klanten willen geen wachtijd.

  • Dit systeem is zo geoptimaliseerd dat het binnen 50 milliseconden (sneller dan je kunt knipperen) een beslissing neemt.
  • In echte tests op Target.com bleek dat dit systeem 2,85% meer verkopen opleverde dan het oude systeem met vaste regels.

Samenvatting in één zin

In plaats van een starre lijst te maken met vaste regels voor wie er mag winnen, heeft Target een slimme, snelle moderator ingezet die voor elke klant op dat specifieke moment de perfecte mix van producten samenstelt, gebaseerd op wat de klant écht wil kopen.