Give Users the Wheel: Towards Promptable Recommendation Paradigm

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie gehen in eine riesige Bibliothek, die von einem sehr strengen, aber etwas sturmen Bibliothekar verwaltet wird.

Das Problem: Der sture Bibliothekar
Dieser Bibliothekar (die herkömmliche Empfehlungsmaschine) kennt Sie sehr gut. Er weiß, dass Sie in den letzten Jahren nur Krimi-Thriller geliehen haben. Wenn Sie also morgen hereinkommen, wird er Ihnen sofort wieder einen neuen Thriller geben, egal was Sie sagen.
Sie sagen: „Ich habe heute Abend Kinder da und möchte lieber einen lustigen Animationsfilm sehen."
Der Bibliothekar ignoriert Sie. Er denkt: „Nein, nein, du magst Thriller. Hier ist ein Thriller." Er ist blind für Ihre aktuelle Stimmung und hört nur auf Ihre Vergangenheit.

Die bisherigen Lösungen: Der überforderte Genie oder der langsame Nachsortierer
Bisher gab es zwei Versuche, dieses Problem zu lösen:

Der KI-Genie-Bibliothekar: Man hat versucht, den Bibliothekar durch eine riesige, super-intelligente KI (ein Large Language Model) zu ersetzen. Diese versteht zwar Ihre Wünsche perfekt, ist aber so langsam und teuer, dass sie in einer echten Bibliothek mit Millionen Büchern nicht funktioniert. Sie würde Stunden brauchen, um nur einen Buchstapel zu sortieren.
Der Nachsortierer: Man hat den alten Bibliotheker behalten, aber einen zweiten Mitarbeiter hinzugefügt, der die Liste der vorgeschlagenen Bücher nachträglich durchsucht und umsortiert. Das Problem: Wenn der alte Bibliothekar Ihnen gar keine lustigen Filme auf die Liste gesetzt hat, kann der Nachsortierer nichts retten. Er kann nur aus dem wählen, was ihm gegeben wurde.

Die neue Lösung: DPR – „Geben Sie dem Nutzer das Steuer"
Die Forscher in diesem Papier haben eine brillante dritte Idee entwickelt, die sie DPR (Decoupled Promptable Sequential Recommendation) nennen.

Stellen Sie sich DPR nicht als neuen Bibliothekar vor, sondern als ein hochmodernes Lenkrad und ein Navigationsgerät, das Sie direkt in das alte Auto (den Bibliothekar) einbauen.

Hier ist, wie es funktioniert, mit einfachen Analogien:

1. Das Lenkrad (Die Fusion)

Das System nimmt Ihre alte Vorliebe (Thriller) und Ihre neue Bitte (Animationsfilm) und verbindet sie. Es sagt dem Bibliothekar: „Behalte dein Wissen über den Kunden, aber lenke die Suche jetzt in eine andere Richtung."

Analogie: Es ist wie ein GPS, das sagt: „Du fährst normalerweise immer zur Arbeit (deine Geschichte), aber heute Abend fährst du zum Kino (dein Wunsch)." Das Auto fährt immer noch effizient, aber der Weg wird sofort angepasst.

2. Die zwei Spezialisten (Die MoE-Türme)

Das System erkennt, dass „Ich will X" (Positiv) und „Ich will kein Y" (Negativ) zwei völlig unterschiedliche Aufgaben sind.

Der Positive Spezialist: Wenn Sie sagen „Ich will Comedy", aktiviert er einen Experten, der alle lustigen Filme hervorhebt und sie näher an Sie heranzieht.
Der Negative Spezialist: Wenn Sie sagen „Keine Horrorfilme", aktiviert er einen anderen Experten, der die Horrorfilme unsichtbar macht oder in den Hintergrund drückt, ohne das ganze System zu stören.
Warum zwei? Wenn man versucht, beide Aufgaben mit einem einzigen Gehirn zu lösen, gerät man in einen Konflikt. Es ist wie wenn Sie gleichzeitig Gas geben und bremsen wollen. DPR trennt diese Aufgaben, damit sie sich nicht gegenseitig blockieren.

3. Der dreistufige Lernprozess

Damit das System nicht verwirrt wird, lernt es in drei Schritten:

Schritt 1: Der Bibliothekar lernt erst einmal ganz normal, wer Sie sind und was Sie mögen (die Basis).
Schritt 2: Er lernt, grobe Kategorien zu verstehen (z. B. „Action" vs. „Komödie").
Schritt 3: Jetzt kommt die Feinarbeit. Das System lernt, Ihre genauen Worte zu verstehen. Wenn Sie sagen „Ich will etwas, das sich anfühlt wie ein sonniger Sonntag", versteht es nicht nur das Wort „Sonntag", sondern die Stimmung dahinter, und passt die Empfehlungen entsprechend an.

Das Ergebnis

Mit DPR passiert Folgendes:

Sie sagen: „Zeig mir etwas Lustiges für die Kinder!"
Das System versteht sofort, dass Sie jetzt keine Thriller wollen, auch wenn Sie sonst nur welche mögen.
Es filtert nicht einfach nur grob (wie ein alter Filter), sondern es verschiebt die gesamte Rangliste. Die lustigen Filme rutschen ganz nach oben, die Thriller rutschen nach unten.
Es ist schnell (wie ein normales Auto) und versteht Ihre Sprache (wie ein Genie).

Zusammenfassend:
DPR gibt Ihnen endlich das Steuer in die Hand. Es zwingt die Empfehlungsmaschine nicht, komplett neu zu lernen, sondern es lehrt sie, flexibel auf Ihre aktuellen Wünsche zu reagieren, ohne dabei ihre Fähigkeit zu verlieren, Ihre langfristigen Vorlieben zu kennen. Sie sind nicht mehr nur ein passiver Zuschauer Ihrer eigenen Daten, sondern der aktive Fahrer Ihrer Empfehlungen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Give Users the Wheel: Towards Promptable Recommendation Paradigm" auf Deutsch:

1. Problemstellung

Herkömmliche sequenzielle Empfehlungssysteme (Sequential Recommendation, SR) wie SASRec oder GRU4Rec sind hervorragend darin, latente Verhaltensmuster aus historischen Nutzerdaten zu extrahieren. Sie leiden jedoch unter einem fundamentalen Mangel: Sie sind blind gegenüber expliziten, sofortigen Nutzerabsichten, die sich von der historischen Gewohnheit unterscheiden.

Das Dilemma: Wenn ein Nutzer eine natürliche Sprachanweisung gibt (z. B. „Empfehle mir Kinderfilme", obwohl er normalerweise Actionfilme schaut), ignorieren traditionelle Modelle diese Anfrage aufgrund ihrer Inertia.
Grenzen bestehender Ansätze:
- LLM als Recommender: Versucht, Empfehlungen direkt über Large Language Models (LLMs) zu generieren. Dies opfert jedoch die Effizienz und die präzisen kollaborativen Signale (ID-basierte Retrieval) zugunsten semantischer Stärke und führt zu hoher Latenz.
- Reranking-Ansätze: Nutzen LLMs nur zur Nachsortierung einer bereits vom Basis-Modell generierten Liste. Wenn das Basis-Modell die relevanten Items aufgrund der Intent-Änderung nicht in die Top-K-Liste aufgenommen hat (Recall-Problem), kann der Reranker nichts retten.

Das Ziel der Arbeit ist es, diese Trade-offs aufzulösen, indem ein System entwickelt wird, das die Effizienz von ID-basierten Modellen mit der Steuerungsfähigkeit natürlicher Sprache kombiniert, ohne die zugrundeliegende Architektur zu ersetzen.

2. Methodik: Decoupled Promptable Sequential Recommendation (DPR)

Die Autoren stellen DPR vor, ein modellagnostisches Framework, das bestehende sequenzielle Backbones (z. B. SASRec, BERT4Rec) befähigt, natürliche Sprach-Prompts nativ zu verarbeiten.

Kernarchitektur

Das Framework besteht aus drei Hauptkomponenten:

Sequential Encoder: Ein herkömmliches Modell (z. B. SASRec), das die intrinsische Nutzerrepräsentation $h_u$ basierend auf der historischen Interaktionssequenz extrahiert. Dies dient als saubere Basis.
Prompt Embedder: Ein vortrainierter Text-Encoder (z. B. Sentence-BERT) kodiert die natürliche Sprachanweisung $p$ in einen semantischen Vektor $c_p$ . Ein MLP-Projektor passt die Dimension an die des Nutzervektors an.
Signal Fusion Module (MoE-Turm): Dies ist das Herzstück der Innovation.
- Entkopplung (Decoupling): Da positive Steuerung („Ich will X") und negative Einschränkung („Kein Y") unterschiedliche Optimierungsziele haben, werden sie nicht in einem einzigen Parameterraum gelernt. Stattdessen gibt es zwei parallele, unabhängige Fusion-Blöcke: einen für positive Steuerung ( $f^+$ ) und einen für negative Unterdrückung ( $f^-$ ).
- Routing: Basierend auf einem semantischen Indikator $c \in \{+, -\}$ (erkannt durch Zero-Shot-Klassifikation) wird der Prompt zu einem der beiden Experten geleitet.
- Mechanismus: Jeder Block nutzt Multi-Head Cross-Attention (MHCA). Der Nutzervektor $h_u$ dient als Query, der Prompt-Vektor $c_p$ als Key und Value. Ein Residual-Verbindung sorgt dafür, dass die ursprüngliche Präferenz erhalten bleibt, während der Prompt die Repräsentation gezielt modifiziert.

Trainingsstrategie (Drei-Phasen-Ansatz)

Um Robustheit und semantische Ausrichtung zu gewährleisten, wird ein gestuftes Training verwendet:

Phase 1: Standard-Vortraining des Sequential Encoders auf der nächsten-Item-Vorhersage.
Phase 2: Feinabstimmung zur Ausrichtung von Nutzerrepräsentationen mit groben Genre-Embeddings (Scaffolding).
Phase 3: Tiefe semantische Ausrichtung. Hier werden grobe Genre-Tags durch feinkörnige, semantische Beschreibungen ersetzt (generiert durch LLMs, z. B. Narrative, Atmosphäre, Appeal).
- Verlustfunktion: Ein einheitlicher Loss maximiert die Wahrscheinlichkeit für Ziel-Items bei positiver Steuerung und verteilt die Wahrscheinlichkeitsmasse über erlaubte Items bei negativer Steuerung (implizite Unterdrückung).

3. Wichtige Beiträge

Definition des „Promptable Recommendation"-Paradigmas: Ein neuer Ansatz, der natürliche Sprache direkt in den kollaborativen Retrieval-Prozess integriert, um die Suche dynamisch zu steuern, ohne die Effizienz von Vektor-Retrieval zu verlieren.
DPR-Framework: Eine modellagnostische Lösung mit einem Mixture-of-Experts (MoE)-Design, das positive und negative Steuerungsentitäten entkoppelt, um Optimierungskonflikte zu vermeiden.
Drei-Phasen-Training: Eine Curriculum-Learning-Strategie, die den semantischen Raum von Prompts schrittweise mit dem kollaborativen Raum aligniert und dabei lexikalische Generalisierung sicherstellt.
Umfassende Evaluation: Demonstration, dass DPR sowohl bei der Einhaltung von Anweisungen als auch bei der Beibehaltung der sequenziellen Vorhersagequalität überlegen ist.

4. Ergebnisse

Die Experimente wurden auf realen Datensätzen (MovieLens-1M und MIND) durchgeführt und verglichen DPR mit:

Traditionellen SR-Modellen (SASRec, GRU4Rec).
Heuristischen Filtern (Filtern basierend auf Tags).
LLM-basierten Ansätzen (LLM als Recommender, LLM als Reranker).

Ergebnisse im Detail:

Positive Steuerung: DPR übertrifft die besten Filter-Baselines massiv. Auf ML-1M (SASRec) wurde eine Verbesserung von +71,84 % in NDCG@10 gegenüber dem stärksten Filter erreicht. DPR kann Items aktiv an die Spitze der Liste „ziehen", während Filter nur die Reihenfolge leicht verschieben können.
Negative Unterdrückung: DPR zeigt robuste Leistung, insbesondere mit GRU4Rec als Backbone, und übertrifft Filter-Methoden signifikant (+15,37 % auf ML-1M). Bei SASRec ist die Leistung leicht hinter den besten Filtern, aber immer noch sehr konkurrenzfähig.
Vergleich mit LLMs:
- Gegenüber generischen LLMs (Qwen, Llama) ist DPR deutlich überlegen, da LLMs kollaborative Signale schlecht lernen.
- Gegenüber spezialisierten LLMs (RecGPT, RecLM-gen) ist DPR immer noch besser (z. B. Recall@10 von 0,7300 vs. 0,3626 bei RecLM-gen im positiven Task).
- Im Vergleich zu LLM-Rerankern (Two-Stage) ist DPR effizienter (End-to-End) und weniger anfällig für Rauschen bei großen Kandidatenmengen, insbesondere bei negativen Aufgaben.
Implizite Absichten: In einer Evaluation mit „LLM-as-a-Judge" für nuancierte, nicht-genre-spezifische Anfragen (z. B. „Ich will etwas Chaotisches") erreichte DPR die höchsten Gesamtwerte, was zeigt, dass es sowohl historische Präferenzen als auch aktuelle Stimmungen balanciert.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke in der Empfehlungsforschung: Die Unfähigkeit bestehender Systeme, direkte Nutzeranweisungen zu befolgen, ohne ihre Effizienz zu opfern.

Technische Innovation: Die Entkopplung von positiven und negativen Steuerungspfaden (Two-Tower MoE) löst das Problem der Gradientenkonflikte, das bei der gemeinsamen Optimierung dieser gegensätzlichen Ziele entsteht.
Praktische Relevanz: DPR ermöglicht es, bestehende, hocheffiziente Empfehlungssysteme (die in der Industrie Standard sind) um eine natürliche Sprachsteuerung zu erweitern, ohne sie durch langsame LLMs zu ersetzen.
Zukunftsperspektive: Der Ansatz zeigt, dass „Prompting" nicht nur für generative Modelle gilt, sondern auch als präzises Steuerungsinstrument für diskrete, ID-basierte Retrieval-Systeme dienen kann. Dies ebnet den Weg für interaktivere und nutzerzentriertere Empfehlungssysteme der nächsten Generation.

Zusammenfassend bietet DPR einen robusten, effizienten und modellagnostischen Weg, um Nutzer die Kontrolle über ihre Empfehlungserlebnisse zurückzugeben („Give Users the Wheel").

Give Users the Wheel: Towards Promptable Recommendation Paradigm

1. Das Lenkrad (Die Fusion)

2. Die zwei Spezialisten (Die MoE-Türme)

3. Der dreistufige Lernprozess

Das Ergebnis

1. Problemstellung

2. Methodik: Decoupled Promptable Sequential Recommendation (DPR)

Kernarchitektur

Trainingsstrategie (Drei-Phasen-Ansatz)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses