TaoSR1: The Thinking Model for E-commerce Relevance Search

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je in een gigantische supermarkt loopt, maar in plaats van 10.000 producten, zijn er miljarden artikelen. Je roept: "Ik wil een alternatief voor mijn favoriete schoenen, maar dan goedkoper!" of "Ik zoek een verf die niet smelt als een auto er overheen rijdt."

Vroeger was de supermarktmedewerker (het oude zoekalgoritme) erg slim in het vinden van exact dezelfde woorden. Als je "rode schoenen" zocht, gaf hij rode schoenen. Maar als je iets complexer vroeg, zoals een "alternatief", raakte hij in de war en gaf hij gewoon de dure originele schoenen. Hij miste de nuance.

De auteurs van dit paper (van Alibaba/Taobao) hebben een nieuwe, super-slimme medewerker bedacht, genaamd TaoSR1. Dit is geen gewone medewerker, maar een denkende AI die net als een mens eerst nadenkt voordat hij antwoordt.

Hier is hoe ze dit hebben gebouwd, vertaald in drie simpele stappen:

Stap 1: De "Denk-voor-het-antwoord" training (SFT met CoT)

Stel je voor dat je een student wilt leren hoe je een moeilijke wiskundetoets moet maken.

De oude manier: Je gaf de student alleen het antwoord ("Het is 42"). Hij leerde het antwoord uit het hoofd, maar begreep niet waarom.
De nieuwe manier (TaoSR1): Je zegt: "Denk eerst na, schrijf je redenering op, en geef dan pas het antwoord."

In de supermarkt betekent dit: Als je vraagt om een "alternatief voor Miu Miu", denkt de AI eerst: "Oké, de gebruiker wil iets in dezelfde stijl, maar goedkoper. Miu Miu zelf is dus verkeerd. Ik moet een ander merk zoeken dat erop lijkt."

Het probleem: Soms maakt de AI een foutje in zijn gedachtegang (bijvoorbeeld: "Ah, Miu Miu is goedkoper... nee wacht, dat klopt niet"). Als die fout in de gedachtegang zit, is het eindantwoord ook fout.
De oplossing: Ze hebben de volgorde omgedraaid! De AI zegt eerst het antwoord ("Goedkoop alternatief gevonden!"), en daarna schrijft hij de reden op. Zo voorkomt hij dat een gedachtefout het hele antwoord verpest.

Stap 2: Het "Meerkeuze-examen" met een slimme leraar (DPO)

Stel je voor dat de AI een examen doet. Soms heeft hij het antwoord niet direct, maar als je hem 5 keer laat proberen, lukt het hem er één keer wel.

De onderzoekers lieten de AI 5 keer hetzelfde antwoord bedenken.
Als hij het goed had in één van die 5 pogingen, zeiden ze: "Zie je? Je kunt het!" en ze gaven hem een beloning voor die goede poging.
Voor de vragen waar hij nooit goed op antwoordde, haalden ze een echte expert (een nog slimmere AI) erbij. Die expert gaf het juiste antwoord, en de AI leerde van die expert: "Ah, zo moet je het doen!"

Dit hielp de AI om zijn eigen fouten te corrigeren en van de beste leraren te leren.

Stap 3: De "Moeilijkheidsgraad"-filter (GRPO)

Niet alle vragen zijn even lastig.

"Wat is de hoofdstad van Frankrijk?" is makkelijk.
"Wat is een goedkoop alternatief voor een specifiek designermerk?" is lastig.

De AI was soms te zelfverzekerd bij makkelijke vragen en gaf daar foutieve antwoorden (hallucinaties). De onderzoekers bedachten een slimme truc: Laat de AI alleen oefenen op de moeilijke vragen.
Als de AI een vraag al 100% goed had, zeiden ze: "Volgende!" en gaven ze geen punten. Als hij het fout had, maar het kon wel goed, dan kregen ze extra aandacht. Hierdoor werd de AI niet afgeleid door simpele vragen, maar werd hij een meester in de moeilijke, complexe zoekopdrachten.

Hoe werkt dit in de echte supermarkt? (Online Deploy)

In de echte wereld moet de supermarktmedewerker razendsnel zijn. Je kunt niet 10 seconden wachten terwijl de AI een heel essay schrijft over waarom hij een product kiest.

Daarom gebruiken ze een slimme trapsysteem:

De AI denkt snel en geeft een "vertrouwdheidsscore".
In plaats van een ingewikkelde berekening met veel knoppen, gebruiken ze een simpele drempel: "Is de kans op 'goed' groter dan 70%? Dan is het 'Goed'. Anders 'Midden' of 'Slecht'."
Dit zorgt ervoor dat de AI razendsnel kan werken, maar toch net zo slim blijft als de langzame, denkende versie.

Wat was het resultaat?

Toen ze deze nieuwe AI (TaoSR1) in de echte Taobao-app testten:

Mensen vonden veel sneller de producten die ze echt wilden, zelfs bij rare of moeilijke vragen.
De "GSB"-score (Good/Same/Bad) steeg met 34% voor vragen over alternatieven. Dat betekent dat bijna 1 op de 3 zoekopdrachten veel beter werd beantwoord dan voorheen.
Mensen kochten net zo veel (of zelfs iets meer), wat betekent dat de AI niet "te kieskeurig" werd, maar juist nuttiger.

Kortom: TaoSR1 is een zoekmachine die niet alleen zoekt op woorden, maar echt begrijpt wat je bedoelt, net als een slimme verkoper die eerst even nadenkt voordat hij je iets aanbeveelt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "TaoSR1: The Thinking Model for E-commerce Relevance Search" in het Nederlands.

Probleemstelling

In e-commerce zoeksystemen (zoals Taobao en Tmall) is het voorspellen van de relevantie tussen een zoekopdracht (query) en producten (items) fundamenteel voor de gebruikerservaring.

Huidige beperkingen: Bestaande methoden vertrouwen voornamelijk op BERT-achtige modellen. Hoewel deze uitstekend zijn in tekstuele en basis semantische matching (voor 80-90% van de queries), falen ze bij complexe "long-tail" queries die dieper semantisch begrip en redenering vereisen.
LLM-uitdagingen: Hoewel Large Language Models (LLM's) potentie hebben, zijn de meeste huidige toepassingen in zoeksystemen nog steeds discriminatief (klassificatie) of distilleren ze kennis terug naar kleinere BERT-modellen voor implementatie. Dit lost het probleem van complexe redenering niet op.
Praktische obstakels voor directe LLM-implementatie:
1. Latentie: Chain-of-Thought (CoT) redenering verhoogt de output-tokens en dus de responstijd, wat problematisch is voor real-time zoekopdrachten waarbij honderden kandidaten per query moeten worden beoordeeld.
2. Foutaccumulatie: Bij CoT kan een enkele hallucinatie of redeneerfout in een tussenstap de uiteindelijke classificatie onjuist maken.
3. Discriminatieve hallucinatie: Zelfs met een correcte redeneerketen kan het model een foutief eindantwoord geven.

Methodologie: Het TaoSR1 Framework

De auteurs stellen TaoSR1 voor, een optimalisatieframework dat een generatieve LLM direct inzet voor online relevantievoorspelling. Het framework bestaat uit drie hoofdfasen, gevolgd door een innovatieve implementatiestrategie:

1. Supervised Fine-Tuning (SFT) met Chain-of-Thought (CoT)

Doel: Het model uitrusten met redeneercapaciteiten.
RAG-gebaseerde CoT: Omdat e-commerce regels complex en specifiek zijn, worden CoT-voorbeelden gegenereerd via een Retrieval-Augmented Generation (RAG) pipeline. Dit haalt "atomaire" bedrijfsregels op uit een kennisbank om ze in de prompt te integreren, zodat het model de logica achter labels (bijv. waarom "Mate50" voor "Mate50 Pro" een mismatch is) begrijpt.
Paradigmaverschuiving: De auteurs testen twee benaderingen:
- Think-then-respond: Eerst redeneren, dan het label geven. Dit leidt tot foutaccumulatie en slechtere prestaties.
- Respond-then-think: Eerst het label voorspellen, daarna de redenering genereren. Dit vermindert foutaccumulatie aanzienlijk en is compatibel met lage-latentie eisen.

2. Offline Pass@N Sampling & Direct Preference Optimization (DPO)

Pass@N Strategie: Het model genereert meerdere antwoorden per query. Als er minstens één correct antwoord is (pass@N > 0), wordt dit gebruikt om voorkeursparen te maken.
DPO Training:
- Voor oplosbare gevallen (pass@N > 0): Een correct antwoord (chosen) wordt gepaard met een fout antwoord (rejected) van hetzelfde model.
- Voor moeilijke gevallen (pass@N = 0): Het model faalt consistent. Hierbij wordt een krachtiger "oracle"-model (DeepSeek-R1) gebruikt om de correcte antwoorden ("chosen") te genereren, die worden gepaard met de foutieve antwoorden van het eigen model. Dit injecteert externe kennis in het model.

3. GRPO met Op Moeilijkheid Gebaseerde Sampling

Group Relative Policy Optimization (GRPO): Dit wordt gebruikt om discriminatieve hallucinaties verder te verminderen door online sampling met een grote N.
Dynamic Sampling: In plaats van alle batches te gebruiken, worden alleen batches geselecteerd waar de empirische nauwkeurigheid tussen 0 en een drempel $\gamma$ ligt. Dit betekent dat het model zich richt op "moeilijke" gevallen waar het nog niet perfect is, maar niet op gevallen die het al perfect beheerst of volledig onmogelijk zijn.
Balans: De auteurs vinden dat een gebalanceerde labelverdeling in de trainingsdata cruciaal is voor prestaties.

4. Cumulative Probability Tiering (CumPT) voor Online Deploy

Om de complexiteit van het instellen van meerdere drempelwaarden (hyperparameters) voor het omzetten van klassen naar producttiers (Good/Mid/Bad) te elimineren, introduceren ze CumPT.

In plaats van handmatig drempels in te stellen voor elke klasse, worden de kansen van de klassen (van 4 naar 1) opgeteld.
Er wordt slechts één enkele drempelwaarde ( $\beta_{cum}$ ) gebruikt om te bepalen of een item "Good", "Mid" of "Bad" is. Dit vereenvoudigt de deploy en stabiliseert de prestaties.

Belangrijkste Bijdragen

Een nieuw optimalisatieparadigma: TaoSR1 is een van de eerste frameworks dat een generatieve LLM met CoT-redenering direct inzet voor e-commerce relevantieclassificatie, zonder terug te vallen op discriminatieve distillatie.
Oplossing voor foutaccumulatie: De introductie van de "respond-then-think" architectuur lost het probleem op waarbij CoT-fouten de eindclassificatie verpesten, terwijl het de redeneercapaciteiten behoudt.
Hybride Reinforcement Learning: Een combinatie van DPO (met oracle-gestuurde correctie voor moeilijke gevallen) en GRPO (met difficulty-based sampling) om robuustheid te verhogen.
CumPT: Een elegante methode voor multi-tier classificatie die de operationalisatie in productie vereenvoudigt en stabiliseert.

Resultaten

Offline Evaluatie: TaoSR1 presteert significant beter dan baselines (BERT, Qwen3-0.6B, Qwen3-30B-A3B) op een curatie dataset met uitdagende queries.
- De Macro-F1 score steeg met 4,9 punten ten opzichte van de basis LLM (LLM base) na volledige optimalisatie.
- Het model toont superieure prestaties op specifieke categorieën zoals "alternatieven", "negatie" en "kennisvragen".
Online Evaluatie (A/B-tests):
- Menselijke beoordeling: In side-by-side tests toonde TaoSR1 een verbetering van +16,62% tot +34,43% (GSB) afhankelijk van de query-typen, met de grootste winst bij zoekopdrachten naar alternatieven.
- Bedrijfsmetrics: Er was een toename in Page Views (+2,43%) en Transacties (+0,82%), terwijl de GMV (Gross Merchandise Value) licht daalde (-0,29%), wat aangeeft dat de relevantieverbetering de koopintentie niet schaadt en de gebruikerservaring verbetert.

Betekenis

Dit paper biedt een bewijs dat Large Language Models met redeneercapaciteiten succesvol kunnen worden ingezet in productie-omgevingen voor complexe classificatietaken, mits de juiste architecturale keuzes worden gemaakt (zoals "respond-then-think") en geavanceerde trainingsmethodieken (DPO/GRPO) worden gebruikt. Het biedt waardevolle inzichten voor het balanceren van geavanceerde redeneervermogens met de strikte latentie-eisen van real-time e-commerce systemen. De methode kan waarschijnlijk worden overgedragen op andere classificatietaken in verticale industrieën.