Give Users the Wheel: Towards Promptable Recommendation Paradigm

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer getrainde butler hebt die al jarenlang voor je werkt. Hij kent je smaak tot in de puntjes: je houdt van spannende actiefilms, grappige komedies en gruwelijke horror. Elke avond als je thuiskomt, legt hij precies dat op de tafel.

Maar dan gebeurt er iets: je bent moe, je hebt een stressvolle dag gehad en je wilt niets met actie of horror. Je wilt gewoon een rustige, grappige animatiefilm kijken met je kinderen. Als je tegen je oude butler zegt: "Geef me iets anders, geen horror!", kijkt hij je verbaasd aan en legt hij toch weer een horrorfilm op de tafel. Waarom? Omdat hij alleen naar je verleden kijkt, niet naar wat je nu wilt.

Dit is precies het probleem met de meeste aanbevelingssystemen (zoals die van Netflix of YouTube) die vandaag de dag worden gebruikt. Ze zijn slim in het analyseren van je geschiedenis, maar "blind" voor wat je direct vraagt.

De auteurs van dit paper, "Give Users the Wheel" (Geef de gebruikers het stuur), hebben een oplossing bedacht genaamd DPR. Laten we uitleggen hoe dit werkt met een paar creatieve vergelijkingen.

1. Het Dilemma: De Butler vs. De Chatbot

Vroeger hadden we twee opties, maar beide hadden grote nadelen:

Optie A: De "Alles-kunnende" Chatbot (LLM als aanbeveler).
Stel je een superintelligente AI voor die alles weet over films en je kunt vragen wat je wilt. Hij begrijpt je taal perfect. Maar hij is traag en vergeet vaak de fijne details van wat jij en je vrienden in het verleden hebben geklikt. Het is alsof je een briljante schrijver vraagt om een recept te bedenken, maar hij vergeet dat je allergisch bent voor pinda's omdat hij je niet kent.
Optie B: De "Filterende" Butler (Hervorming).
Je kunt je oude butler proberen te dwingen door te zeggen: "Filter alle horror eruit." Maar als de butler de horrorfilms al niet eens in zijn lijstje heeft gezet (omdat hij alleen naar je verleden kijkt), helpt het filteren niets. Hij heeft geen goede opties om uit te kiezen.

2. De Oplossing: DPR (De Nieuwe Butler met een Stuurwiel)

De auteurs bedachten DPR (Decoupled Promptable Sequential Recommendation). Dit is geen vervanging van je oude butler, maar een upgrade.

Stel je voor dat je de oude butler (die je geschiedenis kent) een stuurwiel geeft.

De Butler (De Basis): Hij blijft doen wat hij goed doet: hij kijkt naar je geschiedenis en weet dat je van films houdt.
Het Stuurwiel (De Prompt): Jij kunt nu een natuurlijk taalcommando geven, zoals: "Ik wil vanavond iets grappigs voor de kinderen, maar geen horror."

DPR zorgt ervoor dat dit commando direct het stuur van de aanbeveling overneemt, zonder dat de butler zijn kennis over je geschiedenis verliest.

Hoe werkt dit technisch? (In simpele termen)

Het geheim zit in drie slimme onderdelen:

A. De Vertaler (Fusie-module)

De butler spreekt "getallen en codes" (hij weet dat film X een 8.5 is), maar jij spreekt "menselijke taal" (animatie, grappig). DPR heeft een vertaler die jouw woorden direct omzet in een signaal dat de butler begrijpt. Het is alsof je een vertaler naast je zet die fluistert: "Hé butler, de klant wil nu 'grappig' in plaats van 'spannend', pas je lijst aan!"

B. De Twee Kruiswegen (MoE - Mixture of Experts)

Dit is misschien wel het coolste deel. Menselijke wensen zijn soms tegenstrijdig.

Soms wil je: "Laat me meer zien van dit type film!" (Positief sturen).
Soms wil je: "Laat me nooit meer dit type film zien!" (Negatief onderdrukken).

In oude systemen probeerde je dit met één brein te doen, wat leidde tot verwarring (net als iemand die probeert tegelijkertijd gas te geven en te remmen).
DPR heeft twee aparte experts:

De 'Ja'-Expert: Die zich specialiseert in het vinden van dingen die je wilt.
De 'Nee'-Expert: Die zich specialiseert in het wegdrukken van dingen die je niet wilt.
Ze werken parallel en zorgen ervoor dat je boodschap duidelijk overkomt zonder dat ze elkaar verstoren.

C. De Drie-Stage Training (Het Opleidingsprogramma)

Je kunt niet zomaar een butler die alleen films kent, direct laten werken met complexe zinnen. DPR wordt in drie stappen opgeleid:

Stap 1: De butler leert zijn basiswerk (welke films vind je leuk?).
Stap 2: Hij leert grove categorieën begrijpen (bijv. "Komedie" vs. "Actie").
Stap 3: Hij leert de subtiele nuances van menselijke taal (bijv. "Iets wat me doet lachen alsof ik op vakantie ben").
Dit zorgt ervoor dat het systeem stabiel blijft, of je nu een prompt geeft of niet.

Waarom is dit een revolutie?

In de proeven die de auteurs deden, bleek dat DPR:

Veel beter is dan systemen die alleen filteren (zoals "verberg horror").
Sneller en nauwkeuriger is dan systemen die proberen alles met een enorme taalmodel te doen.
Flexibel is: Je kunt zeggen "Geef me iets voor een regenachtige zondag" en het systeem snapt dat je een warm, gezellig drama wilt, zonder dat je het woord "drama" hoeft te gebruiken.

Conclusie

Kortom: DPR geeft de gebruiker het stuurwiel.
Het combineert de kracht van een slimme butler (die je kent) met de flexibiliteit van een gesprek (waar je kunt zeggen wat je nu wilt). Het zorgt ervoor dat de aanbevelingen niet alleen gebaseerd zijn op wat je gisteren deed, maar op wat je vandaag nodig hebt.

Het is alsof je eindelijk een auto hebt die niet alleen automatisch rijdt, maar ook luistert als je zegt: "Ik wil niet naar de snelweg, ik wil een mooie route langs het water." En dan doet hij dat ook, zonder dat je de auto hoeft te vervangen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Give Users the Wheel: Towards Promptable Recommendation Paradigm" in het Nederlands.

Titel: Geef Gebruikers de Regie: Naar een Promptbaar Aanbevelingsparadigma

1. Het Probleem

Traditionele sequentiële aanbevelingsmodellen (zoals SASRec of GRU4Rec) zijn zeer succesvol in het ontdekken van impliciete gedragspatronen uit historische data. Ze hebben echter een fundamenteel tekort: ze zijn structureel "blind" voor expliciete gebruikersintenties.

Het dilemma: Als een gebruiker een directe instructie geeft via natuurlijke taal (bijv. "Ik wil vanavond een kinderfilm kijken" terwijl ze normaal gesproken actiefiefilms kijken), reageren traditionele modellen vaak traag of negeren ze de instructie vanwege de inertie van hun historische data.
Bestaande oplossingen en hun beperkingen:
- LLM als Aanbeveler: Vervangt het bestaande model door een Large Language Model (LLM). Dit is semantisch krachtig maar verliest de efficiëntie en precisie van collaboratieve filtering (ID-gebaseerde signalen) en heeft hoge inferentielatentie.
- Herordenen (Reranking): Gebruikt een LLM om de top-resultaten van een traditioneel model te herschikken. Dit is echter beperkt door het "recall"-probleem: als het oorspronkelijke model de relevante items niet heeft gevonden (door de intentieverschuiving), heeft de LLM niets om te herschikken.

De auteurs stellen de vraag of het mogelijk is om een traditioneel aanbevelingsmodel natiu (native) te sturen via natuurlijke taal zonder de efficiëntie van collaboratieve filtering op te offeren.

2. Methodologie: Decoupled Promptable Sequential Recommendation (DPR)

Het paper introduceert DPR, een model-agnostisch framework dat bestaande sequentiële backbones (zoals SASRec) uitrust met de mogelijkheid om prompts te verwerken. De kernarchitectuur bestaat uit drie hoofdblokken:

A. Architectuur

Sequentiële Encoder: Verwerkt de historische interacties van de gebruiker ( $S_u$ ) en genereert een intrinsieke interesse-representatie ( $h_u$ ). Dit kan elk bestaand model zijn (SASRec, BERT4Rec, GRU4Rec).
Prompt Embedder: Codeert de natuurlijke taal-instructie ( $p$ ) naar een semantische vector ( $c_p$ ) met behulp van een pre-trained encoder (bijv. Sentence-BERT) en een MLP-projector.
Signaal Fusie Module (Het hart van DPR):
- Mixture-of-Experts (MoE) Tower: Omdat positieve instructies ("Ik wil X") en negatieve beperkingen ("Geen Y") fundamenteel verschillende operaties zijn (feature injectie vs. feature onderdrukking), gebruikt DPR twee parallelle, onafhankelijke fusieblokken: een Positive Fusion Block en een Negative Fusion Block.
- Routing: Een semantische indicator ( $c \in \{+, -\}$ ) bepaalt welk blok wordt gebruikt.
- Mechanisme: Het blok gebruikt Multi-Head Cross-Attention (MHCA) waarbij de gebruikersrepresentatie de 'Query' is en de prompt de 'Key' en 'Value'. Een residuale connectie zorgt ervoor dat de oorspronkelijke voorkeuren behouden blijven, terwijl de prompt de representatie subtiel bijstuurt.

B. Training Strategie (Drie-fasen)
Om robuustheid te garanderen en de semantische ruimte van prompts te aligneren met de collaboratieve ruimte, wordt een drie-fasen training toegepast:

Fase 1 (Pre-training): Standaard training van de sequentiële encoder op de volgende-item-predictie taak.
Fase 2 (Coarse-grained Alignment): Fine-tuning met breed categorische labels (genres) om een basis te leggen.
Fase 3 (Deep Semantic Alignment): Fine-tuning met fijnkorrelige, semantisch verrijkte tags (gegenereerd door LLMs, bijv. "sfeer", "plot", "appeal").
- Semantic Augmentation: LLMs genereren beschrijvende tags voor items om de kloof tussen ruwe genres en specifieke prompts te overbruggen.
- Lexicale Decoupling: Testdata wordt herschreven met synoniemen om te voorkomen dat het model alleen oppervlakkige sleutelwoorden leert in plaats van diepe semantiek.

C. Verliesfunctie
DPR gebruikt een unificatie van positieve sturing en negatieve onderdrukking:

Positief: Maximaliseer de kans op één specifiek doelitem dat voldoet aan de prompt.
Negatief: Minimaliseer de kans op items die niet voldoen aan de prompt door de kansmassa te herschikken over alle toegestane items (multi-target optimalisatie).

3. Belangrijkste Bijdragen

Definitie van Promptable Recommendation: Een nieuw paradigma dat collaboratieve filtering combineert met natuurlijke taalcontrole, waarbij gebruikers actief de zoekruimte kunnen sturen.
DPR Framework: Een model-agnostische oplossing die bestaande systemen "promptbaar" maakt via een decoupled ontwerp (MoE-toren voor conflicterende gradienten en een fusiemodule).
Validatie van Effectiviteit: Uitgebreide experimenten tonen aan dat DPR state-of-the-art presteert op prompt-gestuurde taken, terwijl het de prestaties in standaard sequentiële scenario's behoudt.

4. Resultaten

De auteurs hebben experimenten uitgevoerd op de datasets MovieLens-1M en MIND.

Vergelijking met Traditionele Modellen: DPR overtreft zowel de basislijnen als gefinetunte versies (+f) en heuristische filters.
- Op de Positive Steering taak (bijv. "Ik wil een komedie") boekte DPR op ML-1M een 71,84% verbetering in NDCG@10 ten opzichte van de beste filter-baseline.
- Op de Negative Suppression taak (bijv. "Geen horror") presteerde DPR consistent beter dan heuristische filters, vooral bij GRU4Rec-backbones.
Vergelijking met LLM-gebaseerde methoden:
- LLM als Aanbeveler: Generatieve LLMs (zoals Llama-2, Qwen) presteerden slecht in zero-shot settings en zelfs gefinetunte LLMs (zoals RecGPT) werden significant verslagen door DPR (bijv. Recall@10 van 0,73 voor DPR vs. 0,36 voor RecLM-gen).
- LLM als Reranker: LLM-rerankers zijn gevoelig voor ruis en presteren slechter naarmate de kandidaatset groter wordt. DPR levert betere resultaten in één end-to-end stap zonder de hoge latentie van LLM-reranking.
Implicit Intent: In een evaluatie waarbij een LLM als "rechter" diende voor nuance (geen expliciete genres, maar stemmingen), behaalde DPR de hoogste scores voor "Intent Fulfillment" en "History Alignment".

5. Betekenis en Conclusie

Dit paper is significant omdat het de trade-off tussen efficiëntie (van ID-gebaseerde modellen) en controleerbaarheid (van LLMs) oplost.

Het bewijst dat men niet hoeft te kiezen tussen een snel, traditioneel systeem en een traag, semantisch krachtig LLM.
Door de prompt direct in de latent space van de gebruiker te integreren via een decoupled architectuur, kunnen systemen dynamisch reageren op real-time intenties zonder de kwaliteit van de collaboratieve filtering te verliezen.
De aanpak maakt aanbevelingssystemen "promptbaar", waardoor gebruikers de regie kunnen nemen over hun ervaring, wat een belangrijke stap is naar meer persoonlijke en adaptieve aanbevelingen.

Kortom, DPR biedt een schaalbare, model-agnostische oplossing om traditionele aanbevelingssystemen te transformeren tot systemen die zowel de geschiedenis van de gebruiker als hun directe instructies respecteren.

Give Users the Wheel: Towards Promptable Recommendation Paradigm

1. Het Dilemma: De Butler vs. De Chatbot

2. De Oplossing: DPR (De Nieuwe Butler met een Stuurwiel)

Hoe werkt dit technisch? (In simpele termen)

A. De Vertaler (Fusie-module)

B. De Twee Kruiswegen (MoE - Mixture of Experts)

C. De Drie-Stage Training (Het Opleidingsprogramma)

Waarom is dit een revolutie?

Conclusie

Titel: Geef Gebruikers de Regie: Naar een Promptbaar Aanbevelingsparadigma

1. Het Probleem

2. Methodologie: Decoupled Promptable Sequential Recommendation (DPR)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses