Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, conçue pour être comprise par tout le monde, même sans être expert en informatique.

🎬 Le Titre : "Débiaiser les Recommandations Séquentielles avec un Score d'Inversion Sensible au Temps"

Traduisons cela en langage courant : Comment rendre les recommandations de films, de musiques ou de livres plus justes en tenant compte du temps qui passe et de ce que l'algorithme nous a montré (ou pas).

🎭 Le Problème : Le Magicien qui Cache des Cartes

Imaginez un magicien (l'algorithme de recommandation) qui essaie de prédire quel tour de magie vous aimerez le plus ensuite. Pour cela, il regarde votre historique : les cartes que vous avez choisies (les clics, les achats).

Mais il y a un gros problème : le magicien ne vous montre qu'un petit tas de cartes.

Si vous cliquez sur une carte, le magicien pense : "Ah ! Il aime ça !"
Si vous ne cliquez pas sur une carte, le magicien pense : "Il ne l'a pas choisie, donc il ne l'aime pas."

C'est là que ça coince :

Le biais de sélection (La carte cachée) : Le magicien ne vous a même pas montré la carte "Super Film d'Horreur". Vous ne l'avez pas choisie, mais ce n'est pas parce que vous ne l'aimez pas, c'est parce qu'elle était cachée ! Le magicien vous juge mal.
Le biais d'exposition (La carte trop visible) : Le magicien vous montre 10 fois le même film à la mode. Vous le cliquez par curiosité. Il pense : "Il adore ce film !" alors que vous l'avez juste vu partout.

En gros, l'algorithme actuel est comme un ami qui ne vous propose que des plats qu'il a déjà cuisinés, et qui pense que vous n'aimez pas les autres plats parce que vous ne les avez jamais goûtés.

🕰️ La Solution : La Machine à Remonter le Temps (TIPS)

Les chercheurs proposent une nouvelle méthode appelée TIPS (Time-aware Inverse Propensity Scoring). Pour faire simple, c'est comme donner au magicien une machine à remonter le temps et un miroir à hypothèses.

Au lieu de se fier uniquement à ce qui s'est passé, l'algorithme se pose des questions du type : "Et si... ?" (C'est ce qu'on appelle le raisonnement contrefactuel).

Voici les trois questions magiques que l'algorithme se pose pour chaque interaction :

"Et si j'avais montré un objet similaire à ce moment-là ?"
- Analogie : Vous avez acheté un iPhone. Et si je vous avais montré un étui pour iPhone à la même seconde ? Si vous ne l'avez pas acheté, ce n'est peut-être pas parce que vous n'aimez pas les étuis, mais parce que je ne vous l'ai pas assez bien présenté.
"Et si j'avais montré un objet très populaire à ce moment-là ?"
- Analogie : Et si j'avais mis en avant le dernier hit musical ? Si vous ne l'avez pas écouté, c'est peut-être que vous n'aimez pas ce genre de musique, et non pas que vous ignorez les tendances.
"Et si j'avais montré le même objet, mais à un moment légèrement différent ?"
- Analogie : Vous avez regardé un film hier soir. Et si je vous l'avais proposé il y a 2 heures ? Votre humeur aurait-elle changé ? Cela aide à comprendre si votre choix était dû au moment (le temps) ou à votre vrai goût.

⚖️ Comment ça marche concrètement ?

L'algorithme utilise ces questions pour créer des scénarios imaginaires (des "contre-faits").

Il dit : "Attends, cet objet était rarement montré. Si je le recommande, je dois lui donner un poids plus fort dans mes calculs, car le fait que vous l'ayez choisi malgré sa rareté prouve que vous l'aimez vraiment !"
À l'inverse, il dit : "Cet objet était montré 100 fois. Si vous ne l'avez pas choisi, c'est un vrai signe de désintérêt, pas juste un oubli."

En ajoutant la notion de temps, l'algorithme comprend que vos goûts changent. Ce que vous aimiez il y a 6 mois (un documentaire) n'est peut-être pas ce que vous voulez voir ce soir (une comédie). Le "temps" est la clé pour ne pas confondre un vieux goût avec un nouveau.

🏆 Le Résultat : Un Magicien Plus Juste

En testant cette méthode sur de vraies données (films, musique, livres), les chercheurs ont vu que :

Les recommandations sont plus précises.
L'algorithme découvre mieux vos vrais goûts cachés.
Il fonctionne aussi bien pour les modèles classiques que pour les modèles très modernes (comme ceux qui utilisent l'intelligence artificielle générative).

En résumé

Imaginez que vous êtes dans un supermarché où le chef de rayon ne vous montre que les produits en promo. Si vous n'achetez pas, il pense que vous n'aimez pas les autres produits.

La méthode TIPS, c'est comme si le chef de rayon disait : "Attends, je n'ai pas montré les autres produits. Si je les avais montrés, auriez-vous acheté celui-ci ?" En simulant ces situations imaginaires et en regardant l'heure qu'il est, il arrive enfin à comprendre ce que vous aimez vraiment, et non pas juste ce que vous avez eu la chance de voir.

C'est une façon de rendre les recommandations plus humaines, plus justes et plus intelligentes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Les biais dans la Recommandation Séquentielle

La recommandation séquentielle (SR) vise à prédire la prochaine interaction d'un utilisateur en modélisant l'ordre temporel de ses comportements historiques. Cependant, les approches existantes (modèles traditionnels et générateurs) souffrent de deux biais majeurs dus à l'absence de logs d'exposition (c'est-à-dire qu'elles ne savent pas quels articles ont été montrés mais non cliqués) :

Biais d'exposition (Exposure Bias) : Les articles qui n'ont jamais été exposés à l'utilisateur sont implicitement traités comme s'ils n'intéressaient pas l'utilisateur. Le modèle ne peut pas distinguer un manque d'intérêt d'un manque d'exposition.
Biais de sélection (Selection Bias) : Les articles exposés mais non interactés (non cliqués) sont souvent interprétés à tort comme un manque d'intérêt, alors que cela peut être dû à la stratégie d'affichage ou au contexte.

Les méthodes classiques de Propensity Scoring Inverse (IPS) tentent de corriger ces biais en rééquilibrant les interactions observées par l'inverse de leur probabilité d'exposition. Toutefois, l'IPS conventionnel est statique :

Il ignore les dépendances séquentielles (l'interaction future dépend des interactions passées).
Il ne capture pas la dynamique temporelle (les préférences et les stratégies d'exposition évoluent dans le temps).
Il ne peut pas distinguer efficacement les articles "non exposés" des articles "non intéressants" sans logs d'exposition explicites.

2. Méthodologie : TIPS (Time-aware Inverse Propensity Scoring)

Les auteurs proposent un cadre novateur nommé HyperG, basé sur une méthode de TIPS (Time-aware Inverse Propensity Scoring), conçue comme un module plug-in compatible avec n'importe quel modèle de recommandation séquentielle.

A. Modèle Causal Structurel (SCM)

Le papier formalise les relations causales entre les préférences utilisateur ( $U$ ), l'exposition des articles ( $E$ ) et les interactions ( $C$ ). L'objectif est d'estimer la distribution d'exposition $P(E=1|u)$ en l'absence de logs d'exposition, en utilisant un raisonnement contrefactuel.

B. Stratégie de Double Encodage

Pour séparer la sémantique statique des articles de la dynamique des préférences, le modèle maintient deux matrices d'encodage distinctes :

Encodage d'interaction ( $H^{(C)}$ ) : Capture les préférences explicites (clics, achats).
Encodage d'exposition ( $H^{(E)}$ ) : Capture les facteurs influençant l'exposition (popularité, promotions).
Encodage Temporel : Les intervalles de temps entre les interactions sont normalisés et transformés en vecteurs d'embedding pour capturer l'évolution des préférences.

C. Construction d'Échantillons Contrefactuels

Pour estimer la distribution d'exposition sans données d'exposition réelles, le système génère des échantillons contrefactuels pour chaque interaction factuelle $(u, v, t)$ :

Articles Similaires : "Et si l'utilisateur avait vu un article similaire ?" (basé sur la similarité des embeddings d'exposition).
Articles Populaires : "Et si l'utilisateur avait vu un article très populaire ?" (échantillonnage basé sur la fréquence d'interaction globale).
Même Article, Temps Différent : "Et si l'article avait été montré à un moment légèrement différent ?" (perturbation du vecteur temporel).

Ces paires (article, temps) contrefactuelles sont utilisées comme positives pour l'estimation de l'exposition (car elles sont plausibles d'avoir été exposées) et comme négatives pour l'inférence des préférences utilisateur (car elles n'ont pas été cliquées).

D. Estimation de l'Influence de l'Exposition (E → C et E → U)

Un module plug-in ( $f_\phi$ ) utilise un mécanisme de Cross-Attention pour intégrer les informations d'exposition dans la séquence d'interactions de l'utilisateur.

Il calcule un score de propension temporel $\pi_t$ (probabilité d'exposition) pour chaque article à un instant donné.
Ce score est utilisé pour pondérer les interactions lors de l'entraînement du modèle de recommandation principal ( $g_\theta$ ).

E. Objectif d'Optimisation

La fonction de perte finale combine l'apprentissage de la distribution d'exposition et la tâche de recommandation ajustée par TIPS :
$\mathcal{L} = \mathcal{L}_{BPR-TIPS} + \gamma \mathcal{L}_{EP}$
Où $\mathcal{L}_{BPR-TIPS}$ rééquilibre les interactions positives et négatives en utilisant l'inverse du score de propension temporel, et $\mathcal{L}_{EP}$ est la perte d'estimation de l'exposition.

3. Contributions Clés

Estimation de la distribution d'exposition sans logs : Le cadre HyperG construit des exemples contrefactuels basés sur le temps pour estimer les probabilités d'exposition, résolvant le problème du manque de données d'exposition.
Correction dynamique des biais : Contrairement à l'IPS statique, TIPS intègre la dépendance séquentielle et la dynamique temporelle, permettant de mieux distinguer les articles "non exposés" des articles "non intéressants".
Architecture Plug-in Universelle : La méthode est conçue pour être appliquée à la fois aux modèles séquentiels traditionnels (basés sur l'attention, RNN) et aux modèles génératifs (VAE, Diffusion), améliorant leur performance sans nécessiter de réentraînement complet de l'architecture de base.

4. Résultats Expérimentaux

Les expériences ont été menées sur quatre jeux de données publics (MovieLens-1M/10M, Music4All, GoodReads) en comparant HyperG avec des modèles de pointe (SASRec, TiSASRec, DiffuRec, CVAE, etc.).

Performance Globale : HyperG améliore systématiquement les performances (HR@10 et NDCG@10) par rapport aux modèles de base et aux méthodes de débiaisage existantes.
- Sur les modèles séquentiels traditionnels (Attention), l'amélioration moyenne est d'environ 6% en HR@10.
- Sur les modèles génératifs (Diffusion), les gains sont également significatifs (environ 5% en HR@10).
Impact de l'échelle : Les améliorations sont plus marquées sur les grands jeux de données (ex: ML-10M, Music4All), où la richesse des interactions permet une correction plus précise des biais de sélection.
Études d'ablation :
- La suppression de l'information temporelle ou du module d'estimation d'exposition entraîne une chute significative des performances, confirmant la nécessité des deux composantes.
- Les modèles génératifs sont légèrement plus résilients à la suppression du temps que les modèles séquentiels classiques, mais bénéficient tous deux de l'approche complète.
Analyse des Propensions : HyperG produit des scores de propension plus discriminants entre les articles positifs et négatifs que l'IPS traditionnel, ce qui permet une ré-pondération plus efficace des articles sous-exposés.

5. Signification et Conclusion

Cet article apporte une contribution majeure au domaine de la recommandation séquentielle en adressant le problème critique du biais d'exposition dans un contexte où les logs d'exposition sont souvent indisponibles.

Innovation Théorique : L'intégration du raisonnement contrefactuel temporel dans l'IPS permet de modéliser la causalité dynamique des préférences utilisateur, dépassant les limitations des approches statiques.
Impact Pratique : En tant que module plug-in, HyperG offre une solution immédiate pour améliorer la précision et l'équité des systèmes de recommandation existants, tant dans la recherche que dans les applications industrielles, sans nécessiter de données d'exposition supplémentaires.
Versatilité : La capacité à fonctionner sur des architectures aussi diverses que les Transformers, les RNN et les modèles de Diffusion démontre la robustesse et la généralité de l'approche proposée.

En résumé, HyperG/TIPS établit un nouvel état de l'art pour le débiaisage des recommandations séquentielles en exploitant intelligemment la dimension temporelle et les données contrefactuelles pour reconstruire une vision plus juste des préférences utilisateur.