Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente personale digitale (come un algoritmo di raccomandazione) il cui compito è mostrarti video, prodotti o notizie che ti piacciono. Il suo obiettivo è farti stare sul sito il più a lungo possibile e farti felice.

Tuttavia, c'è un grande problema: questo assistente sta imparando guardando un specchio distorto.

Il Problema: Lo Specchio Fumoso

Nella vita reale, quando clicchi su qualcosa, non è sempre perché ti piace davvero. A volte clicchi perché:

È l'oggetto più famoso (tutti lo vedono).
È quello che ti è stato mostrato per primo.
È quello che gli altri stanno guardando.

Il sistema attuale pensa: "Oh, ha cliccato su questo video famoso, quindi deve piacergli!". Ma in realtà, l'utente potrebbe essere solo annoiato o influenzato dalla massa. Questo crea un circolo vizioso: il sistema mostra solo cose famose, le persone le cliccano (perché sono le uniche che vedono), e il sistema pensa che siano le migliori, ignorando i "gioielli nascosti" (i contenuti meno famosi ma di alta qualità).

Il risultato? Un mondo dove i ricchi (i contenuti famosi) diventano sempre più ricchi, e i poveri (i contenuti di nicchia) non vengono mai visti. Inoltre, gli utenti alla lunga si stufano e smettono di usare il servizio.

La Soluzione: DSRM-HRL (Il "Detersivo" e il "Manager")

Gli autori di questo paper propongono un nuovo metodo chiamato DSRM-HRL. Per spiegarlo in modo semplice, immagina che il sistema abbia due nuovi super-poteri:

1. Il "Detersivo Magico" (DSRM - Purificazione dello Stato)

Prima di prendere una decisione, il sistema usa un modello speciale (basato su una tecnologia chiamata Diffusion Model, simile a quella usata per generare immagini) che agisce come un detersivo per lo specchio.

Come funziona: Prende la "sporca" storia dei clic dell'utente (piena di rumore e distorsioni dovute alla popolarità) e la "lava".
L'obiettivo: Rimuovere il "fumo" della popolarità per rivelare il vero desiderio dell'utente.
L'analogia: È come se un restauratore d'arte pulisse un vecchio quadro coperto di fuliggine. Una volta pulito, si vede che il vero soggetto non è il mostro che sembrava, ma un bellissimo paesaggio. Ora il sistema sa cosa l'utente vuole davvero, non solo cosa ha cliccato per abitudine.

2. Il "Manager e l'Operaio" (HRL - Apprendimento Gerarchico)

Una volta che lo specchio è pulito, il sistema usa una struttura a due livelli, come un'azienda con un Capo e un Dipendente.

Il Capo (Livello Alto): Pensa al lungo termine. Il suo compito è assicurarsi che il sistema sia equo. Dice: "Oggi dobbiamo mostrare anche qualche video di un creatore sconosciuto, altrimenti tra un mese tutti si annoieranno". Imposta le regole di giustizia.
L'Operaio (Livello Basso): Pensa al breve termine. Il suo compito è piacere all'utente ora. Dice: "Ok, Capo, ho capito che devo mostrare un video di nicchia. Tra quelli disponibili, quale sceglierò per far sorridere l'utente in questo preciso istante?".

Perché è geniale?
Nei sistemi vecchi, il "Capo" e l'"Operaio" erano la stessa persona, confusa e stressata. Dovevano scegliere tra "piacere subito" e "essere giusti", e spesso fallivano in entrambi.
Con questo nuovo sistema, il Capo gestisce la strategia di giustizia a lungo termine, mentre l'Operaio si concentra solo sul piacere immediato, ma solo rispettando le regole del Capo.

Il Risultato: Una Vittoria per Tutti

Grazie a questa combinazione di "pulizia" e "gestione a due livelli", il sistema riesce a:

Non perdere gli utenti: Perché continua a mostrare contenuti interessanti e freschi, non solo i soliti noti.
Dare una chance a tutti: I contenuti meno famosi (la "coda lunga") hanno finalmente la possibilità di essere visti.
Essere più intelligenti: Non si basa su ciò che è "rumoroso" (popolare), ma su ciò che è "vero" (preferenze reali).

In Sintesi

Immagina un ristorante.

Il vecchio sistema: Serve solo il piatto più famoso del menu perché tutti lo ordinano. Alla fine, i clienti si stufano e non tornano, e i cuochi che fanno piatti deliziosi ma sconosciuti non vengono mai pagati.
Il nuovo sistema (DSRM-HRL):
1. Prima pulisce la mente del cameriere, facendogli capire cosa il cliente vuole davvero mangiare, non solo cosa ha ordinato per abitudine.
2. Poi, un manager dice al cameriere: "Oggi devi proporre anche un piatto del cuoco di nicchia".
3. Il cameriere sceglie il piatto di nicchia migliore per quel cliente specifico.

Il risultato? Il cliente è felice, il cuoco di nicchia è felice, e il ristorante prospera nel tempo. È questo il concetto di "Fairness Begins with State": la giustizia inizia pulendo la percezione della realtà.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Il Fallimento dello Stato Osservato nei Sistemi di Raccomandazione Interattiva

I sistemi di raccomandazione interattivi (IRS) basati sull'Apprendimento per Rinforzo (RL) mirano a massimizzare il valore a lungo termine dell'utente. Tuttavia, il paper identifica un errore fondamentale nelle metodologie esistenti: l'assunzione che lo stato osservato dell'utente sia una rappresentazione fedele delle sue vere preferenze.

In realtà, i feedback impliciti sono fortemente contaminati da:

Bias di Popolarità: Gli utenti interagiscono più frequentemente con elementi popolari non necessariamente perché li preferiscono, ma perché sono esposti di più.
Bias di Esposizione: Il sistema stesso crea un ciclo di feedback distorto ("rich-get-richer"), dove gli elementi popolari ricevono più visibilità, generando più dati, che a loro volta rafforzano la loro popolarità.
Rumore Epistemico: Il segnale di interesse reale è sepolto sotto un rumore sistematico e non lineare.

Quando un agente RL addestra la sua politica su uno stato "sporco" (corrotto da questo rumore), si crea un conflitto artificiale tra accuratezza (massimizzare il reward immediato) ed equità (garantire visibilità agli elementi a coda lunga). Gli autori sostengono che questo conflitto non è un problema di progettazione della ricompensa (reward shaping), ma un fallimento nella stima dello stato.

2. Metodologia: DSRM-HRL

Per risolvere questi problemi, gli autori propongono DSRM-HRL, un framework che riformula la raccomandazione equa come un problema di due fasi: purificazione dello stato latente seguita da decisione gerarchica disaccoppiata.

A. Modulo di Rappresentazione dello Stato Denoising (DSRM)

Basato sui Modelli Diffusivi, questo modulo affronta la sfida di ricostruire un manifold di preferenze latente a bassa entropia partendo da una storia di interazioni ad alta entropia e rumorosa.

Processo Forward: Simula la degradazione del segnale di preferenza iniettando rumore gaussiano progressivamente nello stato codificato.
Processo Reverse: Utilizza un modello generativo per invertire il processo di corruzione. Invece di generare nuovi elementi, il modello "denoisa" lo stato osservato per recuperare il manifold di preferenze latente ( $\hat{s}_t$ ) che è invariante rispetto ai bias di esposizione.
Obiettivo: Separare il segnale di interesse reale dal rumore sistematico della popolarità, preservando le sfumature comportamentali fini necessarie per la personalizzazione.

B. Apprendimento per Rinforzo Gerarchico (HRL)

Una volta ottenuto uno stato purificato, il sistema utilizza un'architettura HRL per disaccoppiare gli obiettivi temporali conflittuali:

Policy di Alto Livello (Manager): Regola la traiettoria di equità a lungo termine. Output una variabile di controllo strategico $z_t$ (che definisce i vincoli di equità) basandosi sullo stato purificato. Ottimizza un obiettivo a livello di ecosistema (es. equità di esposizione).
Policy di Basso Livello (Worker): Ottimizza l'impegno immediato dell'utente (short-term engagement) selezionando gli elementi, ma operando strettamente all'interno dei vincoli di equità imposti dal Manager.

Vantaggio: Questa struttura risolve il conflitto temporale permettendo al Manager di gestire l'equità su orizzonti lunghi senza interferire con l'ottimizzazione immediata dell'engagement.

3. Contributi Chiave

Ridefinizione del Problema: Gli autori identificano e formalizzano il difetto di modellazione fondamentale nelle raccomandazioni eque: l'assunzione di uno stato utente non distorto. Sostengono che l'intervento equo deve iniziare dalla stima dello stato, non solo dalla modifica della ricompensa.
Architettura Ibrida Innovativa: Propongono una combinazione di denoising basato su diffusione (per la purificazione dello stato) e disaccoppiamento gerarchico delle policy (per la gestione degli obiettivi multi-temporali).
Validazione Empirica: Dimostrano che la purificazione dello stato è un prerequisito necessario per un processo decisionale equo robusto, migliorando significativamente sia l'esposizione degli elementi a coda lunga che i reward cumulativi degli utenti.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su simulatori ad alta fedeltà (KuaiSim) utilizzando i dataset reali KuaiRec e KuaiRand-Pure.

Performance Complessiva (RQ1): DSRM-HRL supera costantemente sia i metodi RL generici (es. A2C, TD3) che i metodi RL consapevoli dell'equità (es. SAC4IR, DNaIR).
- Su KuaiRec, ha migliorato la Lunghezza dell'Interazione (Len) del 21,1% rispetto al miglior baseline equo e del 27,9% rispetto al miglior baseline RL generale.
- Ha raggiunto un fronte di Pareto superiore, ottenendo alti reward cumulativi mantenendo un basso Absolute Difference (AD) (misura di disparità di esposizione).
Studio di Ablazione (RQ2):
- L'uso di un RL a singolo livello (FLAT) anche con stati purificati fallisce nel conciliare gli obiettivi.
- L'uso di HRL senza denoising (sugli stati originali) performa peggio, confermando che il controllo gerarchico da solo non basta se l'input è corrotto.
- I metodi di denoising euristici tradizionali (RCE, TCE) falliscono, confermando che solo l'approccio basato su diffusione apprende efficacemente i pattern di rumore non lineari.
Sensibilità ai Passi di Diffusione (RQ3): Un numero moderato di passi (10-30) è ottimale. Un eccesso di passi porta a un "over-smoothing" che cancella le preferenze personalizzate, riducendo le prestazioni.
Efficienza Computazionale (RQ4): Sebbene DSRM-HRL richieda più tempo di addestramento rispetto ai metodi base (circa 2.1x di DNaIR), è significativamente più efficiente delle strategie di denoising euristiche e offre un ottimo compromesso costo-prestazioni.
Stabilità (RQ5): Il framework mostra una convergenza molto più liscia e stabile rispetto ai baselines, riducendo la varianza e prevenendo il collasso delle prestazioni tipico degli ambienti non stazionari.

5. Significato e Impatto

Il lavoro ribalta la visione convenzionale secondo cui l'equità e l'accuratezza sono un compromesso inevitabile. Dimostra che questo compromesso è spesso un artefatto di stati di input distorti.

Impatto Teorico: Sposta il focus della ricerca sull'equità dai meccanismi di ricompensa alla qualità della rappresentazione dello stato (state representation learning).
Impatto Pratico: Offre un percorso robusto per l'IA responsabile nei sistemi decisionali sequenziali, permettendo di rompere il ciclo di feedback "i ricchi diventano più ricchi" e garantendo una visibilità equa agli elementi a coda lunga senza sacrificare la soddisfazione dell'utente.
Innovazione Tecnica: Introduce l'uso dei modelli diffusivi non per la generazione di dati, ma come strumento di inferenza di purificazione per recuperare manifold latenti in contesti di RL interattivo.