IntPro: A Proxy Agent for Context-Aware Intent Understanding via Retrieval-conditioned Inference

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous parlez à un robot très intelligent (une IA) pour l'aider à faire des tâches. Souvent, le robot comprend mal ce que vous voulez vraiment, car il ne connaît pas votre histoire, vos habitudes ou votre humeur du moment. Il répond de manière trop générique, comme un serveur qui vous donnerait le même plat à tout le monde, sans savoir si vous avez faim, si vous êtes en colère ou si vous cherchez juste une information rapide.

Les auteurs de ce papier, IntPro, proposent une solution brillante : ils ne demandent pas au robot principal de tout deviner seul. Au lieu de cela, ils placent un intermédiaire (un "Proxy") entre vous et le robot.

Voici comment cela fonctionne, expliqué avec des images simples :

1. Le Problème : Le Robot qui a la mémoire courte

D'habitude, quand vous posez une question, le robot regarde seulement ce que vous dites à l'instant T.

Exemple : Vous dites "C'est trop cher !".
Le robot classique : "Je peux vous aider à trouver des réductions ?" (Il pense que vous voulez acheter).
La réalité : Vous êtes peut-être en train de lire un article sur l'inflation et vous exprimez juste une frustration générale. Le robot a raté le contexte.

2. La Solution : L'Assistant Personnel (Le Proxy)

IntPro, c'est comme un assistant personnel très attentif qui se tient juste derrière votre épaule. Son travail n'est pas de répondre à votre place, mais de comprendre ce que vous voulez vraiment avant de transmettre le message au grand robot.

Ce qui rend cet assistant spécial, c'est qu'il a deux super-pouvoirs :

A. Il a un "Carnet de Mémoire" (La Bibliothèque d'Intention)

Imaginez que cet assistant tient un carnet où il note, pour chaque personne, ce qu'ils ont voulu dire dans le passé.

Si vous avez l'habitude de dire "C'est trop cher" quand vous êtes frustré par la politique, l'assistant le sait.
Il ne se contente pas de lire votre phrase actuelle ; il va chercher dans son carnet : "Attends, cette personne a déjà dit ça il y a deux jours, et elle voulait dire qu'elle était en colère, pas qu'elle voulait acheter."

B. Il sait quand utiliser son carnet et quand réfléchir seul

C'est la partie la plus intelligente. L'assistant ne fouille pas dans son carnet pour tout et n'importe quoi.

Cas facile : Si vous dites "Bonjour", il sait que c'est une salutation. Il répond directement sans chercher dans le carnet (c'est rapide et efficace).
Cas difficile : Si vous dites quelque chose d'ambigu comme "C'est bizarre...", il se dit : "Humm, je ne suis pas sûr. Je vais vérifier dans le carnet de cette personne pour voir comment elle utilise ce mot habituellement."

3. Comment l'ont-ils appris ? (L'Entraînement)

Pour que cet assistant soit aussi doué, les chercheurs l'ont entraîné avec une méthode en deux temps, un peu comme un étudiant qui prépare un examen :

L'Entraînement de base (SFT) : On lui montre des milliers d'exemples de conversations. On lui apprend à écrire de petites explications : "Pourquoi cette phrase signifie-t-elle cela ?". Il apprend à résumer les liens entre ce que vous dites et ce que vous voulez.
L'Entraînement par le jeu (Reinforcement Learning) : C'est là que la magie opère. On lui donne des points (des récompenses) :
- Si le cas est simple et qu'il répond vite sans chercher dans le carnet : Points !
- Si le cas est difficile et qu'il va chercher dans le carnet pour trouver la bonne réponse : Beaucoup de points !
- S'il cherche dans le carnet pour une question simple (perdre du temps) : Zéro point.
- S'il ne cherche pas dans le carnet pour une question difficile et se trompe : Zéro point.

Grâce à ce système, l'assistant apprend à juger quand il doit faire appel à son expérience passée (le carnet) et quand il peut improviser.

4. Pourquoi c'est génial ?

Personnalisation : Plus vous utilisez le système, plus le carnet de l'assistant se remplit, et plus il vous comprend bien. Il s'adapte à vous, pas à tout le monde.
Vitesse et Économie : Comme il est petit et intelligent, il peut tourner sur votre téléphone ou votre ordinateur sans avoir besoin d'appeler un super-ordinateur dans le cloud pour chaque petite question.
Précision : Il évite les malentendus en tenant compte de votre histoire personnelle.

En résumé :
IntPro, c'est comme avoir un traducteur de sentiments entre vous et l'IA. Ce traducteur connaît votre histoire, sait quand consulter ses notes pour ne pas se tromper, et explique clairement à l'IA ce que vous voulez vraiment dire. Résultat : l'IA vous répond enfin comme un humain qui vous connaît bien.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'interaction entre les humains et les grands modèles de langage (LLM) devient centrale dans les workflows modernes. Cependant, une étape critique reste souvent négligée : la compréhension précise de l'intention utilisateur dans un contexte donné.

Défi principal : La compréhension de l'intention est intrinsèquement difficile car elle nécessite de raisonner à la fois sur le contexte immédiat (situation, historique de conversation) et sur les motivations sous-jacentes de l'utilisateur.
Limites des approches actuelles :
- Les méthodes existantes traitent souvent la compréhension de l'intention comme une tâche de reconnaissance statique (classification sur des étiquettes prédéfinies), ignorant les motifs d'intention accumulés propres à chaque utilisateur.
- L'application directe des LLMs pour cette tâche repose sur des workflows de prompts fragiles et coûteux.
- Il manque de mécanismes pour générer des explications structurées sur le lien entre le contexte et l'intention, ce qui est crucial pour personnaliser les réponses du LLM.

2. Méthodologie : IntPro

Les auteurs proposent IntPro, un agent "proxy" (intermédiaire) placé entre l'utilisateur et le LLM cloud. Ce proxy est conçu pour comprendre le contexte, inférer l'intention et générer des explications, en s'appuyant sur une bibliothèque d'historique d'intentions personnelle.

A. Architecture et Concepts Clés

Le Proxy : Il ne se contente pas de prédire une étiquette d'intention. Il génère un tuple $(\ell, exp)$ , où $\ell$ est l'étiquette et $exp$ est une explication d'intention en langage naturel. Cette explication abstrait comment les signaux contextuels mènent à l'intention exprimée.
Bibliothèque d'Historique d'Intentions (Intent History Library) : Les explications d'intention sont stockées par utilisateur. Elles servent de représentations pour la recherche (retrieval) de motifs d'intention personnels.
Inférence Conditionnée par la Recherche (Retrieval-conditioned Inference) : Le proxy adopte une stratégie dynamique :
- Inférence directe : Pour les cas simples, il déduit l'intention directement.
- Inférence avec recherche : Pour les cas ambigus, il interroge la bibliothèque d'historique pour retrouver des motifs d'intention similaires chez l'utilisateur afin d'affiner sa décision.

B. Pipeline d'Entraînement

L'entraînement de IntPro se déroule en deux phases principales :

Supervised Fine-Tuning (SFT) :
- Utilisation d'un cadre de génération de trajectoires d'inférence conditionnée par la recherche.
- Le modèle apprend à générer des explications et à décider quand utiliser l'outil de recherche (retrieval) ou à répondre directement.
- Les trajectoires incluent des appels d'outils et des raisonnements multi-tours.
Apprentissage par Renforcement (RL) avec GRPO :
- Utilisation de l'optimisation de politique relative par groupe (Group Relative Policy Optimization - GRPO) pour affiner le comportement de l'agent.
- Fonction de Récompense Consciente de l'Outil (Tool-aware Reward) : C'est une contribution majeure. La récompense est dynamique et dépend de la difficulté du contexte (estimée par la précision du groupe) :
  - Contextes faciles : Récompense les réponses directes correctes, pénalise les recherches inutiles.
  - Contextes difficiles : Récompense l'utilisation réussie de la recherche, pénalise les réponses directes erronées.
- Cela apprend à l'agent à équilibrer l'inférence directe et l'utilisation de l'historique personnel, évitant ainsi de sur-utiliser ou de sous-utiliser la recherche.

3. Contributions Principales

Explications d'Intention comme Représentations de Recherche : Introduction d'explications d'intention (génériques et personnalisées) qui servent de clés de recherche pour le matching de motifs d'intention personnels, améliorant la séparation sémantique des intentions.
Cadre d'Inférence Hybride : Proposition d'un mécanisme qui permet à l'agent de choisir dynamiquement entre l'inférence directe et l'inférence conditionnée par la recherche, s'adaptant à la complexité du contexte.
Entraînement GRPO avec Récompenses Adaptatives : Développement d'un schéma d'entraînement par RL utilisant des fonctions de récompense "conscientes de l'outil" pour guider l'agent vers une stratégie de décision optimale (quand chercher, quand répondre).
Validation Expérimentale Robuste : Démonstration de l'efficacité sur trois scénarios diversifiés (lecture, dialogue, réseaux sociaux) et sur plusieurs types de modèles (Qwen, Llama).

4. Résultats Expérimentaux

Les expériences ont été menées sur trois jeux de données : Highlight-Intent (lecture), MIntRec2.0 (dialogue multimodal) et Weibo Post-Sync (réseaux sociaux).

Performance Supérieure : IntPro surpasse systématiquement les LLMs cloud (GPT-4o, Qwen3-30B) en mode "zero-shot" et même en mode "retrieval-augmented" (où le LLM reçoit les mêmes données). IntPro apprend activement à utiliser l'historique, contrairement aux LLMs qui l'utilisent passivement.
Comparaison avec les Baselines :
- Il bat les modèles discriminatifs (BERT, RoBERTa) qui ne peuvent pas générer d'explications.
- Il surpasse les variantes d'entraînement sans récompense consciente de l'outil (Naive GRPO), prouvant l'importance de la fonction de récompense dynamique.
Généralisation :
- Cross-domain : Entraîné uniquement sur MIntRec2.0, IntPro transfère bien ses capacités sur Weibo et Highlight-Intent, surpassant les LLMs de grande taille.
- Accumulation Progressive : Les performances s'améliorent à mesure que l'historique d'intentions de l'utilisateur s'enrichit, validant le principe d'adaptation continue.
Efficacité : Bien que légèrement plus lent que les petits modèles discriminatifs, IntPro (modèles 3B-4B) est beaucoup plus rapide et moins gourmand en mémoire que les LLMs cloud, permettant un déploiement potentiel sur appareil (on-device) avec génération d'explications.

5. Signification et Impact

Ce travail marque une avancée significative dans l'architecture Human-Proxy-LLM :

Passage de la Reconnaissance à la Compréhension : Il transforme la compréhension de l'intention d'une tâche de classification statique en un processus de raisonnement dynamique et explicable.
Personnalisation Réelle : En stockant et en récupérant des explications plutôt que de simples données brutes, le système capture les motivations profondes et les préférences uniques de chaque utilisateur.
Optimisation des Coûts et de la Vie Privée : En permettant l'exécution locale (on-device) d'un agent capable de comprendre le contexte complexe, IntPro réduit la dépendance aux appels API cloud coûteux et améliore la confidentialité des données utilisateur.
Apprentissage Adaptatif : La capacité de l'agent à apprendre quand utiliser la mémoire historique introduit une nouvelle forme d'intelligence artificielle adaptative, capable de gérer l'ambiguïté contextuelle de manière plus humaine.

En conclusion, IntPro démontre qu'un agent proxy entraîné avec des mécanismes de recherche conditionnée et des récompenses adaptatives peut surpasser les modèles massifs dans la compréhension fine et personnalisée des intentions humaines.