Give Users the Wheel: Towards Promptable Recommendation Paradigm

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes dans un restaurant très populaire. Le serveur (le système de recommandation classique) connaît parfaitement vos habitudes : il sait que vous adorez les plats épicés et qu'il vous a servi une poutine chaque mardi pendant trois ans.

Mais ce soir, vous êtes fatigué, vous avez eu une journée difficile, et vous voulez quelque chose de doux et de réconfortant, comme une soupe à la citrouille.

Le problème : Le serveur, aveuglé par votre historique, vous dit : « Ah, vous aimez le piment ? Voici un autre plat épicé ! » Il ignore votre demande immédiate car il est programmé pour suivre vos habitudes passées, pas pour écouter votre envie du moment.

C'est exactement le problème que résout l'article « Donnez le volant aux utilisateurs : Vers un paradigme de recommandation par commande ».

Voici une explication simple de leur solution, appelée DPR, avec des analogies du quotidien.

1. Le Dilemme actuel : Deux mauvaises options

Aujourd'hui, pour essayer de comprendre vos demandes, on a deux approches qui ne fonctionnent pas très bien :

L'approche « Tout-LLM » (Le Chef Célèbre) : On remplace le serveur par un grand chef cuisinier (une Intelligence Artificielle avancée) qui connaît tous les plats du monde.
- Le hic : Ce chef est lent, coûteux, et il oublie souvent vos goûts spécifiques (vos habitudes) parce qu'il est trop occupé à lire des livres de cuisine. Il ne connaît pas votre histoire personnelle.
L'approche « Reclassage » (Le Filtre) : On garde le serveur habituel, mais on ajoute un inspecteur qui trie la liste des plats après coup.
- Le hic : Si le serveur n'a pas pensé à vous proposer la soupe (parce qu'il vous a servi du piment), l'inspecteur ne peut pas la trouver ! Il ne peut que supprimer ce qui est déjà là. C'est comme essayer de trouver une aiguille dans une botte de foin en enlevant juste le foin, mais sans avoir l'aiguille.

2. La Solution DPR : Donner le volant au client

Les auteurs proposent une troisième voie : DPR (Recommandation Séquentielle Découplée et Commandable).

L'idée est de garder le serveur rapide et efficace (qui connaît vos habitudes), mais de lui donner un interphone pour que vous puissiez lui donner des instructions directes en langage naturel, sans tout casser.

Comment ça marche ? (Les 3 ingrédients magiques)

A. Le Pont de Traduction (Le Module de Fusion)
Le serveur parle « code de restaurant » (numéros de plats, statistiques), et vous parlez « langage humain » (« Je veux du réconfort »).

L'analogie : DPR agit comme un traducteur simultané. Il prend votre phrase « Je veux du réconfort » et la transforme instantanément en un signal que le serveur comprend : « Ah, il faut augmenter la probabilité des soupes et diminuer celle des plats épicés ». Il ne remplace pas le serveur, il le guide.

B. Les Deux Voies Séparées (L'Architecture à Deux Tours)
C'est le cœur de l'innovation. Les humains peuvent dire deux choses opposées :

Positif : « Je veux des films d'horreur ! » (Ajouter du piment).
Négatif : « Pas de films d'horreur, j'ai peur ! » (Enlever le piment).

Si on utilise la même partie du cerveau (ou du code) pour faire les deux, ça crée une confusion (un conflit).

L'analogie : Imaginez un orchestre. Si le chef demande aux violons de jouer fort (positif) et aux cuivres de se taire (négatif) en utilisant le même bâton, c'est le chaos. DPR utilise deux baguettes de chef séparées. L'une est spécialisée pour ajouter ce que vous voulez, l'autre pour supprimer ce que vous ne voulez pas. Elles travaillent ensemble sans se marcher dessus.

C. L'Entraînement en Trois Étages (La Stratégie de Formation)
Pour que ce système fonctionne, on ne peut pas juste lui donner des ordres du jour au lendemain. Il faut le former progressivement.

Étape 1 : Le serveur apprend ses bases (qui êtes-vous ?).
Étape 2 : On lui apprend à comprendre les grandes catégories (comédie, drame).
Étape 3 : On lui apprend la nuance fine. On lui explique que « Je veux rire » ne veut pas dire juste « Comédie », mais peut signifier « Une ambiance légère et joyeuse ». C'est comme passer d'un manuel scolaire à une conversation réelle.

3. Les Résultats : Pourquoi c'est génial ?

Les tests montrent que ce système est le meilleur des deux mondes :

Il est rapide : Il ne remplace pas le serveur par un géant lent. Il reste efficace.
Il vous écoute : Si vous dites « Je veux voir un film avec mon enfant ce soir », il arrête de vous proposer des films d'horreur (même si vous en avez regardé hier) et vous propose des dessins animés.
Il comprend la nuance : Il sait faire la différence entre « Je ne veux pas de films d'horreur » (suppression) et « Je veux un film d'aventure » (ajout).

En résumé

Imaginez que la recommandation classique est un GPS qui vous force à prendre l'autoroute parce que c'est le chemin habituel, même si vous voulez aller à la plage.

DPR, c'est comme avoir un GPS intelligent qui vous dit : « Je sais que vous prenez toujours l'autoroute, mais puisque vous avez dit "Je veux la plage", je vais recalculer l'itinéraire instantanément pour vous y emmener, tout en gardant votre voiture (vos habitudes) sous contrôle. »

C'est une façon de redonner le volant au conducteur (l'utilisateur) sans abandonner la route (les données historiques).

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les systèmes de recommandation séquentielle conventionnels (comme SASRec ou GRU4Rec) excellent dans l'extraction de motifs comportementaux implicites à partir de l'historique des utilisateurs. Cependant, ils souffrent d'une cécité structurelle face à l'intention explicite de l'utilisateur. Lorsqu'un utilisateur exprime un besoin immédiat via un langage naturel (ex: "Je veux regarder un film d'animation avec mes enfants" alors qu'il a l'habitude de regarder des films d'action), le modèle continue de recommander selon ses habitudes passées, ignorant la demande en temps réel.

Les approches existantes pour intégrer les Grands Modèles de Langage (LLM) présentent un dilemme :

LLM en tant que recommandateur : Sacrifie l'efficacité et la précision collaborative des modèles basés sur les IDs (ID-based) et souffre de latence élevée.
Approche par ré-ranking (Reranking) : Utilise le LLM pour réorganiser les résultats d'un modèle de base. Cependant, si le modèle de base ne récupère pas (recall) les items pertinents suite au changement d'intention, le LLM n'a rien à réorganiser.

Objectif : Créer un système capable de "piloter" nativement un modèle de recommandation séquentiel via des invites en langage naturel, sans abandonner les signaux collaboratifs ni sacrifier l'efficacité.

2. Méthodologie : DPR (Decoupled Promptable Sequential Recommendation)

Les auteurs proposent DPR, un cadre agnostique au modèle qui permet aux architectures séquentielles existantes de supporter nativement la recommandation pilotable par invite.

A. Architecture du Modèle

Le framework se compose de trois modules principaux :

Encodeur Séquentiel (Base) :
- Capture les préférences historiques de l'utilisateur à partir de la séquence d'interactions ( $S_u$ ).
- Produit une représentation latente de l'utilisateur ( $h_u$ ) purement basée sur le comportement passé (ex: SASRec, GRU4Rec).
Encodeur d'Invite (Prompt Embedder) :
- Encode l'invite textuelle ( $p$ ) en un vecteur sémantique ( $c_p$ ) à l'aide d'un encodeur pré-entraîné (ex: Sentence-BERT) et d'un projecteur MLP.
- Un indicateur sémantique ( $c \in \{+, -\}$ ) est déduit pour distinguer une orientation positive ("Je veux...") d'une contrainte négative ("Ne recommande pas...").
Module de Fusion de Signaux (Signal Fusion Module) :
- C'est le cœur de l'innovation. Il utilise une architecture Mixture-of-Experts (MoE) avec deux tours de fusion découplés :
  - Bloc de Fusion Positive ( $f^+$ ) : Pour amplifier les caractéristiques souhaitées.
  - Bloc de Fusion Négative ( $f^-$ ) : Pour supprimer ou "désapprendre" les caractéristiques indésirables.
- Mécanisme : Chaque bloc utilise une attention croisée multi-têtes (MHCA) où la représentation de l'utilisateur ( $h_u$ ) est la requête (Query) et le vecteur d'invite ( $c_p$ ) est la clé et la valeur (Key/Value).
- Résolution des conflits : En séparant les paramètres pour les commandes positives et négatives, DPR évite les conflits d'optimisation (gradient conflict) qui surviendraient si un seul ensemble de paramètres devait apprendre à la fois à ajouter et à retirer des caractéristiques.

B. Stratégie d'Entraînement (Three-Stage Training)

Pour assurer la robustesse et l'alignement sémantique, l'entraînement suit trois étapes progressives :

Pré-entraînement (Stage 1) : Entraînement standard du modèle séquentiel de base sur la prédiction du prochain item.
Alignement par Genre (Stage 2) : Ajustement fin pour aligner les représentations utilisateurs avec des catégories larges (genres), servant de fondation sémantique.
Alignement Sémantique Fin (Stage 3) :
- Utilisation de tags sémantiques enrichis générés par un LLM (Narratif, Atmosphère, Appui) pour combler l'écart entre les titres d'items et les genres abstraits.
- Augmentation lexicale : Les invites d'entraînement et de test sont lexicalement distinctes mais sémantiquement équivalentes pour forcer le modèle à apprendre la sémantique latente plutôt que le matching de mots-clés.
- Fonction de perte unifiée : Le modèle est entraîné à maximiser la vraisemblance des items cibles (pour les invites positives) et à redistribuer la masse de probabilité hors des items interdits (pour les invites négatives), tout en maintenant la capacité de recommandation séquentielle de base.

3. Contributions Clés

Définition du Paradigme "Promptable Recommendation" : Un système qui intègre nativement les invites en langage naturel dans le processus de récupération collaborative, permettant un pilotage dynamique de l'espace de recherche.
Architecture DPR : Une solution agnostique au modèle dotée d'une fusion de signaux découplée (MoE) pour gérer simultanément l'amplification positive et la suppression négative sans interférence.
Stratégie d'Entraînement Robuste : Une approche en trois étapes avec augmentation sémantique et désaccord lexical pour garantir que le modèle généralise bien aux intentions implicites et explicites.

4. Résultats Expérimentaux

Les expériences ont été menées sur des jeux de données réels (MovieLens-1M et MIND) en comparant DPR avec des modèles séquentiels classiques, des filtres heuristiques, et des modèles basés sur les LLM.

Performance sur les tâches de pilotage (Prompting) :
- DPR surpasse significativement les modèles de base et les approches de ré-ranking.
- Sur ML-1M avec SASRec, DPR améliore le NDCG@10 de +71,84% par rapport à la meilleure ligne de base de filtrage pour les tâches positives.
- Pour les tâches négatives (exclusion), DPR montre une supériorité notable, notamment avec l'encodeur GRU4Rec (+15,37% sur ML-1M).
Comparaison avec les LLM (LLM-as-a-recommender) :
- Les LLM génériques (Qwen, Llama) en mode "zero-shot" ont de très faibles performances.
- Même les LLM spécialisés (RecGPT, RecLM) sont largement surpassés par DPR. DPR atteint un Recall@10 de 0,7300 contre 0,3626 pour le meilleur LLM sur la tâche positive, démontrant que l'architecture découplée est plus efficace pour orienter les représentations latentes que la génération pure.
Efficacité et Latence :
- Contrairement aux pipelines de ré-ranking par LLM qui souffrent de latence et de sensibilité au bruit (surtout pour les tâches d'exclusion), DPR opère en une seule étape d'inférence end-to-end avec une latence faible.
Études d'Ablation :
- La suppression de l'étape d'alignement par genre (Stage 2) entraîne une baisse de performance, confirmant la nécessité d'une transition progressive.
- L'utilisation d'une seule tour (Single-Tower) au lieu de deux tours (Two-Tower) provoque une chute drastique des performances (jusqu'à -35%), validant l'hypothèse que les opérations d'ajout et de suppression de caractéristiques sont fondamentalement divergentes.

5. Signification et Impact

Cet article marque un tournant vers des systèmes de recommandation plus interactifs et contrôlables. En démontrant qu'il est possible d'intégrer le langage naturel directement dans le mécanisme de récupération collaborative sans sacrifier l'efficacité, DPR résout le compromis traditionnel entre la précision des modèles ID-based et la flexibilité des LLM.

Points forts :

Contrôle Granulaire : Permet aux utilisateurs de modifier dynamiquement leurs recommandations via des contraintes positives ou négatives.
Efficacité : Reste rapide et scalable, contrairement aux solutions basées uniquement sur les LLM.
Robustesse : Fonctionne aussi bien avec des invites explicites que des demandes sémantiques implicites complexes.

En résumé, DPR offre une voie pratique pour "donner le volant" aux utilisateurs, leur permettant de guider activement le système de recommandation vers leurs besoins immédiats tout en respectant leurs préférences historiques.

Give Users the Wheel: Towards Promptable Recommendation Paradigm

1. Le Dilemme actuel : Deux mauvaises options

2. La Solution DPR : Donner le volant au client

Comment ça marche ? (Les 3 ingrédients magiques)

3. Les Résultats : Pourquoi c'est génial ?

En résumé

1. Problématique et Contexte

2. Méthodologie : DPR (Decoupled Promptable Sequential Recommendation)

A. Architecture du Modèle

B. Stratégie d'Entraînement (Three-Stage Training)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

Online Monitoring of Metric Temporal Logic using Sequential Networks

Homotopy type theory as a language for diagrams of $\infty$ -logoses