TaoSR1: The Thinking Model for E-commerce Relevance Search

Der Artikel stellt TaoSR1 vor, ein dreistufiges Framework, das Large Language Models durch Supervised Fine-Tuning mit Chain-of-Thought, Direct Preference Optimization und Group Relative Policy Optimization direkt für die E-Commerce-Relevanzsuche einsetzt, um komplexe Schlussfolgerungen zu ermöglichen und dabei Halluzinationen zu minimieren sowie eine effiziente Online-Bereitstellung zu gewährleisten.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist in einem riesigen, unendlichen Einkaufszentrum (wie Taobao oder Amazon). Du suchst nach etwas Bestimmtem, zum Beispiel nach einem „Miu Miu-Alternativ" (etwas Ähnliches, aber günstiger) oder nach einem „Schwarzhaar-Mittel".

In der Vergangenheit waren die Suchmaschinen wie sehr fleißige, aber etwas starre Bibliothekare. Sie suchten nur nach exakt denselben Wörtern. Wenn du „Miu Miu" eingabst, zeigten sie dir nur echte Miu Miu-Produkte, auch wenn du eigentlich etwas anderes wolltest. Sie verstanden den Gedanken hinter deiner Frage nicht, nur die Buchstaben.

Dieses Papier stellt TaoSR1 vor, einen neuen, super-intelligenten Such-Assistenten, der nicht nur liest, sondern denkt.

Hier ist die einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der starre Bibliothekar vs. der Denker

Die alten Modelle (BERT) waren wie ein Schlüssel-Schloss-Prinzip. Wenn der Schlüssel (deine Suche) fast zum Schloss (dem Produkt) passte, ging er auf. Aber bei komplexen Fragen (wie „Was ist eine gute Alternative zu X?") versagten sie oft, weil sie nicht verstehen konnten, was „Alternative" wirklich bedeutet. Sie waren zu starr.

Die neuen großen Sprachmodelle (LLMs) sind wie geniale Detektive. Sie können denken und Zusammenhänge verstehen. Aber sie haben zwei große Schwächen, wenn man sie direkt in einem Einkaufszentrum einsetzt:

  1. Sie sind langsam: Ein Detektiv, der jeden Fall in 10 Schritten löst, dauert ewig. In einem Einkaufszentrum mit Millionen Kunden kann man sich das nicht leisten.
  2. Sie halluzinieren: Manchmal erfinden sie sich eine Logik aus, die gar nicht stimmt, nur um schnell eine Antwort zu geben.

2. Die Lösung: TaoSR1 – Der trainierte Denker

Die Autoren haben einen dreistufigen Trainingsplan entwickelt, um aus dem genialen, aber langsamen Detektiven einen schnellen und zuverlässigen Such-Assistenten zu machen.

Stufe 1: Das Lernen durch „Gedankenketten" (CoT)

Stell dir vor, du lehrst einen Schüler nicht nur die Antwort, sondern auch wie er zum Ergebnis kommt.

  • Der Trick: Das Modell lernt, erst einen kurzen Gedankengang zu schreiben („Ich muss prüfen, ob das Produkt zu meiner Suche passt...") und dann die Antwort zu geben.
  • Das Problem: Wenn der Schüler erst den ganzen Gedankengang schreibt und dann die Antwort, macht er oft Fehler unterwegs, die sich am Ende auf die Antwort auswirken (wie ein Haus, das auf einem wackeligen Fundament gebaut wurde).
  • Die Lösung von TaoSR1: Sie haben eine clevere Umkehrung gefunden: „Antwort zuerst, Erklärung danach". Das Modell sagt sofort: „Das ist ein gutes Produkt!" und erklärt danach, warum. Das ist viel stabiler und schneller, als erst den ganzen Weg zu planen.

Stufe 2: Der „Probier-und-Verbesser"-Zirkel (DPO)

Manchmal ist das Modell unsicher. Stell dir vor, du lässt den Schüler 5-mal die gleiche Aufgabe lösen.

  • Bei 4 Versuchen sagt er „Falsch", aber bei 1 Versuch sagt er „Richtig".
  • Statt ihn nur auf die falschen Antworten zu schimpfen, sagen die Autoren: „Hey, schau mal, du konntest es richtig machen! Das war die gute Antwort. Die anderen waren schlecht."
  • Sie nutzen diese „guten Momente", um das Modell zu belohnen und die „schlechten Momente" zu bestrafen. So lernt es, seine eigenen Fehler zu korrigieren, ohne dass ein Lehrer ständig daneben stehen muss.

Stufe 3: Der Fokus auf die Schweren Fälle (GRPO)

Was, wenn der Schüler bei einer Aufgabe niemals richtig liegt?

  • Hier holen sie sich Hilfe von einem Super-Lehrer (einem noch stärkeren KI-Modell). Dieser Super-Lehrer zeigt dem Schüler die perfekte Lösung.
  • Das Modell lernt dann speziell von diesen schweren Fällen, die es vorher nicht verstanden hat. Es ist wie ein Sportler, der sich auf seine schwächsten Muskeln konzentriert, um insgesamt besser zu werden.

3. Der praktische Einsatz: Der schnelle Kassen-Typ

Ein großes Problem bei solchen Denk-KIs ist, dass sie zu lange brauchen, um zu antworten.

  • Die Lösung: Da das Modell in Stufe 1 gelernt hat, die Antwort zuerst zu geben und die Erklärung danach, ist es extrem schnell. Es kann in Millisekunden sagen: „Das passt!" oder „Das passt nicht!", ohne erst einen langen Roman zu schreiben.
  • Zudem haben sie eine neue Methode entwickelt, um die Ergebnisse in Kategorien (Gut, Mittel, Schlecht) einzuteilen, ohne dass man komplizierte Schalter manuell justieren muss. Es ist wie ein smarter Filter, der sich automatisch anpasst.

Das Ergebnis

Als sie dieses System in Taobao (eine riesige chinesische E-Commerce-Plattform) getestet haben, passierte Folgendes:

  • Bessere Treffer: Bei schwierigen Fragen (wie „Alternativen zu Markenprodukten") fanden die Kunden viel schneller das, was sie suchten.
  • Glücklichere Kunden: Die Menschen waren zufriedener, weil die Suchergebnisse smarter waren.
  • Kein Geschwindigkeitsverlust: Trotz des „Denkens" war das System schnell genug für den Echtzeit-Einsatz.

Zusammenfassend:
TaoSR1 ist wie ein Super-Bibliothekar, der gelernt hat, nicht nur Bücher zu zählen, sondern die Absicht des Lesers zu verstehen. Er denkt nach, macht aber keine langen Umwege, sondern gibt sofort die richtige Antwort und erklärt sie erst hinterher. Das macht die Suche im riesigen digitalen Einkaufszentrum endlich wirklich intelligent.