Give Users the Wheel: Towards Promptable Recommendation Paradigm

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente personale molto intelligente, ma un po' testardo. Questo assistente conosce i tuoi gusti alla perfezione: se ti piace il cinema d'azione, lui continuerà a mostrarti solo film di esplosioni e inseguimenti, giorno dopo giorno.

Il problema sorge quando, stasera, hai un capriccio diverso: "Ho voglia di ridere con i miei figli, mostrami un cartone animato!". Il tuo assistente tradizionale, legato ai tuoi dati storici, ti ignora e continua a proposti film di supereroi. È come se guidassi un'auto con il volante bloccato dritto: non puoi sterzare anche se vuoi cambiare strada.

Questo è il problema che gli autori del paper "Give Users the Wheel" (Dai il volante agli utenti) vogliono risolvere.

Ecco la loro soluzione spiegata in modo semplice, con qualche analogia per renderla più chiara.

1. Il Problema: Due Mondi che non Si Parlano

Attualmente, ci sono due modi principali per fare raccomandazioni, ma entrambi hanno dei difetti:

I Modelli Tradizionali: Sono come un libro di ricette. Sono velocissimi e sanno esattamente cosa ti piace in base a cosa hai mangiato in passato. Ma se chiedi "voglio qualcosa di piccante" e il libro contiene solo ricette dolci, non sa come adattarsi.
I Modelli con Intelligenza Artificiale (LLM): Sono come chef creativi. Capiscono perfettamente le tue richieste in linguaggio naturale ("voglio qualcosa di piccante"). Ma sono lenti, costosi e spesso dimenticano i tuoi gusti specifici perché sono troppo concentrati sulla conversazione.

La sfida era: come possiamo avere la velocità e la precisione del "libro di ricette" ma con la capacità di ascolto dello "chef creativo"?

2. La Soluzione: DPR (Il Volante Intelligente)

Gli autori propongono un nuovo sistema chiamato DPR (Decoupled Promptable Sequential Recommendation).

Immagina che il tuo sistema di raccomandazione sia un'auto.

Il Motore (Il modello tradizionale): È già lì, potente e veloce. Sa guidare bene in base alla tua storia di guida.
Il Volante (Il Prompt): È la nuova parte che aggiungono. Non devono cambiare l'intero motore (che sarebbe costoso e lento), ma aggiungono un volante che ti permette di sterzare in tempo reale.

Quando scrivi "Mostrami commedie", non stai chiedendo all'auto di diventare un'ambulanza. Stai solo dicendo al volante: "Sterza verso la zona delle commedie, ma mantieni la velocità del motore".

3. Come Funziona (Le 3 Magie)

Per far funzionare questo "volante", hanno usato tre trucchi ingegnosi:

A. Il Traduttore (Modulo di Fusione)

Il motore parla una lingua (i numeri e i dati dei tuoi click) e tu parli un'altra (le parole).
Il sistema ha un traduttore istantaneo. Quando dici "Voglio un film spaventoso", il traduttore converte quella frase in un segnale che il motore capisce, senza rompere il suo flusso di lavoro. È come avere un interprete che sussurra al pilota: "Lui vuole andare a nord", mentre il pilota continua a guidare.

B. I Due Pedali Separati (Architettura MoE)

Qui c'è la parte più intelligente. A volte vuoi aggiungere qualcosa ("Voglio commedie"), a volte vuoi toglierne ("Niente film horror").

Pedale dell'acceleratore (Positivo): Spinge il sistema verso ciò che vuoi.
Pedale del freno (Negativo): Blocca ciò che non vuoi.

In molti sistemi, questi due pedali sono collegati allo stesso meccanismo, creando confusione (come frenare e accelerare insieme). DPR ha due pedali separati. Se vuoi "Niente horror", il sistema usa solo il freno per bloccare quella strada, senza disturbare la guida verso le altre direzioni. Questo evita che il sistema si "confonda" o si blocchi.

C. L'Allenamento a Tre Stadi (La Scuola Guida)

Non puoi dare il volante a un pilota inesperto subito. Hanno usato una strategia di allenamento in tre fasi:

Fase 1: Il modello impara a guidare bene da solo (basandosi solo sulla tua storia).
Fase 2: Impara a riconoscere le categorie grandi (es. "Azione", "Commedia").
Fase 3: Impara a capire le sfumature precise (es. "Un film con un'atmosfera malinconica ma divertente").
È come imparare prima a guidare in un parcheggio, poi in una strada dritta, e infine in mezzo al traffico con le indicazioni del navigatore.

4. I Risultati: Chi Vince?

Hanno fatto delle prove su enormi quantità di dati (film e notizie).

Risultato: Il nuovo sistema (DPR) è stato molto meglio di quelli vecchi quando gli utenti facevano richieste specifiche.
Il vantaggio chiave: A differenza dei vecchi sistemi che dovevano "filtrare" (cancellare) i risultati sbagliati dopo averli trovati, DPR cambia la rotta prima ancora di iniziare a cercare. È come se, invece di cercare 100 ristoranti e poi cancellare quelli che non piacciono, il sistema sapesse esattamente quali ristoranti cercare fin dall'inizio.

In Sintesi

Questo paper ci dice che non dobbiamo scegliere tra un sistema veloce ma rigido e uno intelligente ma lento. Possiamo avere entrambi.

L'analogia finale:
Prima, le raccomandazioni erano come un treno su binari fissi: potevi solo salire e scendere, ma non potevi cambiare direzione.
Ora, con DPR, abbiamo messo il volante sull'auto. Il motore (la tecnologia vecchia) è lo stesso, potente e affidabile, ma ora tu, l'utente, puoi dire: "Oggi voglio andare verso la montagna" o "Oggi voglio evitare la città", e l'auto sterza immediatamente per soddisfare il tuo desiderio, senza perdere di vista la tua storia di guida.

Dai il volante agli utenti: è questo il messaggio. Non più solo "guarda cosa ti piace", ma "dì cosa vuoi oggi".

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "Give Users the Wheel: Towards Promptable Recommendation Paradigm" in italiano.

1. Il Problema: Il Dilemma dell'Intento Utente

I sistemi di raccomandazione sequenziali convenzionali (come SASRec o GRU4Rec) eccellono nel modellare i pattern comportamentali impliciti basati sulla cronologia storica dell'utente. Tuttavia, presentano un limite fondamentale: sono ciechi all'intento esplicito dell'utente. Se un utente cambia improvvisamente le sue preferenze (es. un fan di film d'azione chiede film per bambini), i modelli tradizionali continuano a spingere contenuti basati sulla storia passata, ignorando la richiesta immediata.

L'integrazione attuale dei Large Language Models (LLM) per risolvere questo problema presenta due paradigmi problematici:

LLM come Recommender: Sostituisce completamente il modello di raccomandazione con un LLM. Questo sacrifica l'efficienza e la precisione della filtrazione collaborativa (basata su ID) e soffre di latenza elevata.
LLM come Reranker: Utilizza l'LLM per riordinare i risultati di un modello base. Questo approccio è vincolato dalla capacità di recall del modello iniziale; se il modello base non recupera gli elementi pertinenti a causa del cambio di intento, l'LLM non ha candidati validi su cui lavorare.

Il paper pone la domanda cruciale: è possibile "promptare" direttamente un modello di raccomandazione convenzionale tramite linguaggio naturale senza abbandonare i segnali collaborativi?

2. Metodologia: DPR (Decoupled Promptable Sequential Recommendation)

Gli autori propongono DPR, un framework agnostico rispetto al modello che permette ai backbones sequenziali esistenti di supportare nativamente la raccomandazione promptabile. L'obiettivo è modulare direttamente la rappresentazione latente dell'utente nello spazio di recupero.

L'architettura DPR si compone di tre elementi chiave:

A. Moduli di Codifica

Sequential Encoder: Un modello esistente (es. SASRec, BERT4Rec, GRU4Rec) che estrae la rappresentazione dell'interesse intrinseco dell'utente ( $h_u$ ) basata sulla cronologia.
Prompt Embedder: Un encoder pre-addestrato (es. Sentence-BERT) che trasforma l'istruzione testuale ( $p$ ) in un vettore semantico ( $c_p$ ), proiettato nella stessa dimensione di $h_u$ .

B. Fusione dei Segnali e Architettura MoE

Per allineare i segnali semantici (prompt) e collaborativi (storia), DPR introduce un Fusion Module basato su un'architettura Mixture-of-Experts (MoE) a due percorsi indipendenti:

Positive Fusion Block: Gestisce le richieste di "steering positivo" (es. "Voglio film di commedia").
Negative Fusion Block: Gestisce i vincoli di "soppressione negativa" (es. "Non mostrare film horror").
Meccanismo: Utilizza l'attenzione incrociata multi-testa (MHCA) dove la rappresentazione dell'utente è la Query e il vettore del prompt è sia Key che Value. Vengono utilizzati collegamenti residui per preservare la stabilità delle preferenze storiche mentre si iniettano o rimuovono caratteristiche specifiche. Questa separazione evita conflitti di ottimizzazione tra l'amplificare e il sopprimere le caratteristiche nello stesso spazio parametrico.

C. Strategia di Addestramento a Tre Stadi

Per garantire robustezza e allineamento semantico, DPR utilizza una strategia curriculare:

Stage 1: Pre-addestramento standard del modello sequenziale sulla previsione del prossimo elemento.
Stage 2: Fine-tuning per allineare le rappresentazioni utente con embedding di categorie ampie (es. generi).
Stage 3: Allineamento semantico profondo. Qui, i tag di genere grezzi vengono sostituiti da tag semantici arricchiti generati da LLM (descrizioni narrative, atmosfera, appeal). Inoltre, i prompt di test vengono parafrasati lessicalmente per garantire che il modello impari la semantica latente e non il semplice matching di parole chiave.

La funzione di perdita unificata massimizza la probabilità degli elementi target per lo steering positivo e ridistribuisce la massa di probabilità per la soppressione negativa su un insieme di candidati conformi.

3. Contributi Chiave

Definizione del Paradigma: Introduce il concetto di Promptable Recommendation, dove i prompt naturali guidano dinamicamente il processo di recupero mantenendo l'efficienza della filtrazione collaborativa.
Architettura DPR: Un design decoupled che integra un modulo di fusione, una torre MoE per gestire intenti conflittuali (positivi/negativi) e una strategia di training a tre stadi.
Performance Superiori: Dimostrazione sperimentale che DPR supera sia i metodi basati su LLM (come Qwen o Llama usati come raccomandatori) sia i metodi di reranking tradizionali, mantenendo al contempo prestazioni competitive nei task sequenziali standard.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su dataset reali (MovieLens-1M e MIND).

Confronto con Baseline Tradizionali: DPR ha mostrato miglioramenti significativi nei task controllabili. Ad esempio, su ML-1M con backbone SASRec, DPR ha ottenuto un miglioramento del 71.84% in NDCG@10 rispetto alla migliore baseline di filtraggio (Filter) per lo steering positivo.
Confronto con LLM: Rispetto a modelli generativi come Qwen2.5 o Llama-2 (usati in zero-shot o fine-tuned), DPR ha superato di gran lunga le prestazioni, specialmente nei task di recupero (Recall@10 fino a 0.7300 contro 0.3626 per i migliori LLM). Questo conferma che l'architettura ibrida è più efficace nel guidare le rappresentazioni latenti rispetto alla generazione pura.
Robustezza: DPR mantiene prestazioni competitive anche in assenza di prompt (scenario sequenziale standard), dimostrando che l'aggiunta del modulo di controllo non degrada le capacità fondamentali del modello.
Ablation Study:
- La rimozione dello Stage 2 (allineamento grezzo) causa un calo drastico delle prestazioni, confermando la necessità di un approccio curriculare.
- L'uso di una singola torre (Single-Tower) invece di due torri separate (Two-Tower) porta a un crollo delle prestazioni (fino al -35% in NDCG), validando l'ipotesi che steering positivo e soppressione negativa richiedano spazi parametrici distinti.

5. Significato e Impatto

Il lavoro "Give Users the Wheel" rappresenta un passo avanti significativo verso sistemi di raccomandazione più interattivi e controllabili.

Superamento del Trade-off: Risolve il dilemma storico tra la precisione della filtrazione collaborativa e la flessibilità del linguaggio naturale.
Efficienza: Offre una soluzione end-to-end a bassa latenza, evitando la necessità di costosi processi di reranking o l'uso di LLM pesanti per l'inferenza in tempo reale.
Flessibilità: Permette agli utenti di modificare attivamente le raccomandazioni in tempo reale (es. "Voglio qualcosa di diverso oggi") senza perdere il contesto storico, rendendo il sistema più adattivo alle esigenze dinamiche dell'utente.

In sintesi, DPR dimostra che non è necessario sostituire i modelli di raccomandazione esistenti con LLM per ottenere il controllo tramite prompt; è sufficiente modulare intelligentemente le loro rappresentazioni interne.