TaoSR1: The Thinking Model for E-commerce Relevance Search

TaoSR1 is een nieuw raamwerk dat Large Language Models direct inzetbaar maakt voor e-commerce relevantiezearch door een drie-staps training te gebruiken die redeneervermogen installeert, hallucinaties tegengaat en efficiënte online implementatie mogelijk maakt, wat leidt tot aanzienlijk betere prestaties dan bestaande methoden.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je in een gigantische supermarkt loopt, maar in plaats van 10.000 producten, zijn er miljarden artikelen. Je roept: "Ik wil een alternatief voor mijn favoriete schoenen, maar dan goedkoper!" of "Ik zoek een verf die niet smelt als een auto er overheen rijdt."

Vroeger was de supermarktmedewerker (het oude zoekalgoritme) erg slim in het vinden van exact dezelfde woorden. Als je "rode schoenen" zocht, gaf hij rode schoenen. Maar als je iets complexer vroeg, zoals een "alternatief", raakte hij in de war en gaf hij gewoon de dure originele schoenen. Hij miste de nuance.

De auteurs van dit paper (van Alibaba/Taobao) hebben een nieuwe, super-slimme medewerker bedacht, genaamd TaoSR1. Dit is geen gewone medewerker, maar een denkende AI die net als een mens eerst nadenkt voordat hij antwoordt.

Hier is hoe ze dit hebben gebouwd, vertaald in drie simpele stappen:

Stap 1: De "Denk-voor-het-antwoord" training (SFT met CoT)

Stel je voor dat je een student wilt leren hoe je een moeilijke wiskundetoets moet maken.

  • De oude manier: Je gaf de student alleen het antwoord ("Het is 42"). Hij leerde het antwoord uit het hoofd, maar begreep niet waarom.
  • De nieuwe manier (TaoSR1): Je zegt: "Denk eerst na, schrijf je redenering op, en geef dan pas het antwoord."

In de supermarkt betekent dit: Als je vraagt om een "alternatief voor Miu Miu", denkt de AI eerst: "Oké, de gebruiker wil iets in dezelfde stijl, maar goedkoper. Miu Miu zelf is dus verkeerd. Ik moet een ander merk zoeken dat erop lijkt."

Het probleem: Soms maakt de AI een foutje in zijn gedachtegang (bijvoorbeeld: "Ah, Miu Miu is goedkoper... nee wacht, dat klopt niet"). Als die fout in de gedachtegang zit, is het eindantwoord ook fout.
De oplossing: Ze hebben de volgorde omgedraaid! De AI zegt eerst het antwoord ("Goedkoop alternatief gevonden!"), en daarna schrijft hij de reden op. Zo voorkomt hij dat een gedachtefout het hele antwoord verpest.

Stap 2: Het "Meerkeuze-examen" met een slimme leraar (DPO)

Stel je voor dat de AI een examen doet. Soms heeft hij het antwoord niet direct, maar als je hem 5 keer laat proberen, lukt het hem er één keer wel.

  • De onderzoekers lieten de AI 5 keer hetzelfde antwoord bedenken.
  • Als hij het goed had in één van die 5 pogingen, zeiden ze: "Zie je? Je kunt het!" en ze gaven hem een beloning voor die goede poging.
  • Voor de vragen waar hij nooit goed op antwoordde, haalden ze een echte expert (een nog slimmere AI) erbij. Die expert gaf het juiste antwoord, en de AI leerde van die expert: "Ah, zo moet je het doen!"

Dit hielp de AI om zijn eigen fouten te corrigeren en van de beste leraren te leren.

Stap 3: De "Moeilijkheidsgraad"-filter (GRPO)

Niet alle vragen zijn even lastig.

  • "Wat is de hoofdstad van Frankrijk?" is makkelijk.
  • "Wat is een goedkoop alternatief voor een specifiek designermerk?" is lastig.

De AI was soms te zelfverzekerd bij makkelijke vragen en gaf daar foutieve antwoorden (hallucinaties). De onderzoekers bedachten een slimme truc: Laat de AI alleen oefenen op de moeilijke vragen.
Als de AI een vraag al 100% goed had, zeiden ze: "Volgende!" en gaven ze geen punten. Als hij het fout had, maar het kon wel goed, dan kregen ze extra aandacht. Hierdoor werd de AI niet afgeleid door simpele vragen, maar werd hij een meester in de moeilijke, complexe zoekopdrachten.

Hoe werkt dit in de echte supermarkt? (Online Deploy)

In de echte wereld moet de supermarktmedewerker razendsnel zijn. Je kunt niet 10 seconden wachten terwijl de AI een heel essay schrijft over waarom hij een product kiest.

Daarom gebruiken ze een slimme trapsysteem:

  1. De AI denkt snel en geeft een "vertrouwdheidsscore".
  2. In plaats van een ingewikkelde berekening met veel knoppen, gebruiken ze een simpele drempel: "Is de kans op 'goed' groter dan 70%? Dan is het 'Goed'. Anders 'Midden' of 'Slecht'."
  3. Dit zorgt ervoor dat de AI razendsnel kan werken, maar toch net zo slim blijft als de langzame, denkende versie.

Wat was het resultaat?

Toen ze deze nieuwe AI (TaoSR1) in de echte Taobao-app testten:

  • Mensen vonden veel sneller de producten die ze echt wilden, zelfs bij rare of moeilijke vragen.
  • De "GSB"-score (Good/Same/Bad) steeg met 34% voor vragen over alternatieven. Dat betekent dat bijna 1 op de 3 zoekopdrachten veel beter werd beantwoord dan voorheen.
  • Mensen kochten net zo veel (of zelfs iets meer), wat betekent dat de AI niet "te kieskeurig" werd, maar juist nuttiger.

Kortom: TaoSR1 is een zoekmachine die niet alleen zoekt op woorden, maar echt begrijpt wat je bedoelt, net als een slimme verkoper die eerst even nadenkt voordat hij je iets aanbeveelt.