DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation

Der Artikel stellt DeepInterestGR vor, ein neuartiges generatives Empfehlungssystem, das durch den Einsatz multi-modaler LLMs tiefgreifende Benutzerinteressen extrahiert, diese mittels Belohnungs-Labels und RQ-VAE in semantische IDs kodiert und durch eine zweistufige Trainingspipeline mit Reinforcement Learning die Personalisierung und Interpretierbarkeit von Empfehlungen signifikant verbessert.

Yangchen Zeng

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Empfehlungsalgorithmus ist wie ein persönlicher Butler, der dir Vorschläge macht, was du als Nächstes kaufen oder ansehen sollst.

Bisher waren diese Butler ziemlich oberflächlich. Wenn du dir zum Beispiel Kopfhörer gekauft hast, sagten sie: „Ah, du hast Kopfhörer gekauft, also magst du Kopfhörer." Sie schauten nur auf das Etikett des Produkts (den Titel, die Beschreibung). Sie verstanden nicht, warum du sie gekauft hast. War es, weil du ein Fitness-Fan bist? Weil du viel reist? Oder weil du einfach nur Ruhe brauchst?

Das neue Papier stellt einen Butler vor, der viel tiefer gräbt. Er heißt DeepInterestGR. Hier ist die Erklärung, wie er funktioniert, mit ein paar einfachen Vergleichen:

1. Das Problem: Der „Oberflächen-Butler"

Die alten Systeme waren wie ein Koch, der nur die Zutatenliste liest. Wenn du „Erdbeeren" kaufst, denkt er nur an „Erdbeeren". Er weiß nicht, ob du sie für einen Kuchen, für einen Smoothie oder einfach nur zum Naschen willst. Das nennt die Forscher das „Flache Interesse"-Problem. Sie sehen nur die Hülle, nicht den Kern.

2. Die Lösung: Der „Detektiv-Butler" (DeepInterestGR)

DeepInterestGR ist wie ein hochintelligenter Detektiv, der nicht nur die Zutatenliste liest, sondern deine ganze Lebensweise analysiert. Er nutzt drei magische Werkzeuge:

Werkzeug A: Das „Super-Gehirn-Team" (Multi-LLM Interest Mining)

Stell dir vor, statt nur einem Butler hast du ein Team aus vier der klügsten Detektive der Welt (die sogenannten KI-Modelle wie GPT, Gemini, Kimi, Grok).

  • Wie es funktioniert: Wenn du ein Produkt ansiehst, geben diese Detektive nicht nur eine trockene Beschreibung ab. Sie nutzen ihre „Gedankenketten" (Chain-of-Thought), um zu rätseln: „Hmm, dieser Nutzer kauft oft Laufschuhe und Sport-Apps. Er ist wahrscheinlich kein Sportler, der Wettkämpfe sucht, sondern jemand, der Gesundheit und Stressabbau sucht."
  • Der Clou: Sie nutzen auch Bilder. Wenn du ein Kleidungsstück ansiehst, sagen sie nicht nur „rotes Kleid", sondern „rotes Kleid im Vintage-Stil für jemanden, der künstlerischen Ausdruck liebt". Sie kombinieren Text und Bilder, um das wahre Interesse hinter dem Kauf zu finden.

Werkzeug B: Der „Qualitäts-Filter" (Reward-Labeled Deep Interest)

Manchmal kann ein Detektiv auch mal quatschen oder etwas zu Allgemein halten.

  • Wie es funktioniert: Bevor diese neuen, tiefen Interessen genutzt werden, wirft ein kleiner, schneller Filter (ein einfacher KI-Prüfer) einen Blick darauf. Er fragt: „Ist diese Idee wirklich gut und spezifisch, oder ist sie nur schwammig?"
  • Das Ergebnis: Nur die besten, klarsten Interessen (z. B. „Liebe für minimalistisches Design") bekommen ein grünes Licht. Die schlechten (z. B. „mag Dinge") werden aussortiert. Das sorgt dafür, dass der Butler nur hochwertige Hinweise bekommt.

Werkzeug C: Der „Übersetzer" (Interest-Enhanced Item Discretization)

Jetzt haben wir diese tollen, tiefen Interessen, aber der Computer muss sie verstehen.

  • Wie es funktioniert: Der Butler übersetzt diese komplexen Gedanken in eine Art Geheimsprache (Semantische IDs). Statt nur „Kopfhörer" zu sagen, sagt er: „Kopfhörer für Reisende, die Ruhe suchen".
  • Der Effekt: Das System lernt, dass ein Buch über „Reisen" und Kopfhörer für „Reisende" eigentlich das gleiche tiefe Interesse haben, auch wenn die Produkte völlig unterschiedlich aussehen.

3. Das Training: Lernen durch Lob und Tadel

Wie lernt der Butler, besser zu werden?

  • Schritt 1 (Lernen): Er schaut sich an, was Leute gekauft haben, und versucht, die Muster zu verstehen.
  • Schritt 2 (Verfeinerung): Hier kommt der spannende Teil. Wenn der Butler eine Empfehlung abgibt, die zu den tiefen Interessen passt (z. B. er empfiehlt ein Reisebuch, weil er weiß, dass du gerne reist), bekommt er einen Bonus-Punkt. Wenn er nur auf den Oberflächennamen schaut, bekommt er keinen Bonus.
  • Das Ergebnis: Der Butler lernt schnell, dass es nicht reicht, das Richtige zu raten, sondern er muss das Richtige aus dem richtigen Grund raten.

Warum ist das so cool?

Die Forscher haben das an echten Daten getestet (z. B. aus dem Amazon-Bereich für Schönheit, Sport und Musikinstrumente).

  • Ergebnis: Der neue Butler war deutlich besser als alle anderen. Er traf die Empfehlungen genauer.
  • Der größte Vorteil: Er ist übertragbar. Wenn er gelernt hat, dass du „Qualität über alles" stellst (ein tiefes Interesse), kann er das auch auf eine völlig andere Kategorie anwenden. Er weiß, dass du nicht nur „gute Schuhe" willst, sondern auch „gute Kaffeemaschinen", weil du einfach Wert auf Qualität legst.

Zusammengefasst:
DeepInterestGR verwandelt den Empfehlungsalgorithmus von einem oberflächlichen Verkäufer, der nur nach Preisschildern schaut, in einen einfühlsamen Freund, der versteht, wer du wirklich bist und was du wirklich brauchst – und das alles durch die Nutzung von Super-KIs, die wie menschliche Denker funktionieren.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →