Learning to Retrieve from Agent Trajectories

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un assistant personnel très intelligent, capable de faire des recherches complexes sur Internet pour vous. Disons que vous lui demandez : « Quelle est l'histoire exacte de la fusion de cette station de radio en 2017 ? ».

Pour répondre, l'assistant ne se contente pas de lire une seule page. Il doit :

Poser des questions à un moteur de recherche.
Lire les résultats (les « snippets »).
Décider lesquels ouvrir en entier.
Lire le contenu, réfléchir, et parfois poser d'autres questions.
Finalement, vous donner la réponse.

C'est ce qu'on appelle un agent de recherche.

Le Problème : Un Moteur de Recherche « Humain » pour un Robot

Jusqu'à présent, les moteurs de recherche (comme Google) ont été entraînés pour plaire aux humains.

Comment ? En regardant ce que les humains cliquent et combien de temps ils restent sur une page. Si un humain clique et reste 5 minutes, le moteur pense : « Ah, c'est un bon résultat ! ».
Le souci : Les agents intelligents (les robots) ne pensent pas comme des humains. Ils ne cliquent pas par curiosité, mais pour résoudre un problème précis. Ils peuvent ignorer un résultat que l'humain aurait adoré, ou cliquer sur un résultat que l'humain aurait trouvé inutile.

C'est comme si vous entraîniez un chien de garde à aboyer quand un humain passe, mais que vous le mettiez ensuite à garder une maison remplie de robots. Le chien va aboyer au mauvais moment parce qu'il a été entraîné pour les humains, pas pour les robots.

La Solution : LRAT (Apprendre aux robots à chercher)

Les auteurs de cette paper (LRAT) ont eu une idée géniale : au lieu d'entraîner le moteur de recherche avec les habitudes des humains, utilisons les traces laissées par les robots eux-mêmes.

Ils ont créé un système qui observe comment les agents de recherche travaillent et apprend du moteur de recherche directement à partir de ces observations.

Voici comment ils font, avec une analogie simple :

1. Le « Clic » devient la « Lecture » (Le signal positif)

Quand un agent décide d'ouvrir un document en entier (action « Browse »), c'est un signe fort : il pense que ce document est utile.

Analogie : Imaginez un détective qui choisit de lire un dossier en entier plutôt que de juste jeter un coup d'œil à la couverture. Ce dossier est probablement important.
Ce que fait LRAT : Il dit au moteur : « Hé, le robot a lu ce document, donc c'est un bon résultat pour sa question ! ».

2. Les documents ignorés sont de « Mauvaises » réponses (Le signal négatif)

Dans les recherches humaines, si on ne clique pas sur un résultat, ce n'est pas forcément mauvais (peut-être qu'il était caché en bas de la page). Mais les robots, eux, regardent souvent tous les résultats.

Analogie : Si un chef cuisinier regarde tous les ingrédients sur la table et n'en prend qu'un seul pour sa recette, c'est que les autres ne lui servent à rien pour ce plat précis.
Ce que fait LRAT : Il dit au moteur : « Le robot a vu les autres documents, ne les a pas choisis, donc ce sont de mauvais résultats pour cette question ».

3. La « Réflexion » mesure l'importance (Le signal d'intensité)

C'est l'astuce la plus intelligente. Après avoir lu un document, l'agent écrit une pensée (un « trace de raisonnement »).

Analogie : Imaginez un étudiant qui lit un livre.
- S'il lit une page et dit « Bah, ça ne m'aide pas » et passe à autre chose, c'est une lecture rapide (peu utile).
- S'il lit une page et écrit une longue dissertation de 500 mots pour expliquer comment ce livre change sa compréhension du problème, c'est un document très utile.
Ce que fait LRAT : Il mesure la longueur de la « réflexion » du robot après la lecture. Plus le robot réfléchit longuement sur un document, plus ce document est considéré comme précieux. Il donne donc plus de points à ce document lors de l'entraînement.

Les Résultats : Pourquoi c'est formidable ?

Les chercheurs ont testé leur méthode (LRAT) avec différents robots (des petits et des très gros) et différents moteurs de recherche.

Résultat : Les robots qui utilisent le moteur de recherche entraîné par LRAT réussissent beaucoup mieux leurs missions.
Efficacité : Ils trouvent la réponse plus vite et font moins d'étapes inutiles.
Robustesse : Ça marche même si le robot est très puissant (comme un super-ordinateur) ou très petit.

En résumé

Cette paper nous dit : « Arrêtons d'enseigner aux moteurs de recherche ce que les humains aiment. Apprenons-leur ce que les robots intelligents ont besoin de trouver. »

C'est comme passer d'un manuel de conduite écrit pour les humains à un manuel écrit pour les voitures autonomes. En utilisant les traces de conduite des voitures elles-mêmes (leurs erreurs, leurs succès, leurs réflexions), on crée un système de navigation bien plus performant pour l'ère des robots.

C'est une révolution pour l'avenir de la recherche sur Internet, où de plus en plus de questions seront posées par des intelligences artificielles plutôt que par des humains.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Le Décalage Humain-Agent

Les systèmes de recherche d'information (IR) traditionnels sont conçus et entraînés selon un paradigme centré sur l'humain. Les modèles de classement (Learning-to-Rank) s'appuient massivement sur des logs d'interaction humaine (clics, temps de séjour) pour apprendre la pertinence.

Cependant, avec l'émergence rapide d'agents de recherche pilotés par des modèles de langage (LLM), la dynamique change fondamentalement :

Changement d'acteur : La récupération est de plus en plus consommée par des agents autonomes plutôt que par des humains.
Intégration cyclique : La recherche n'est plus une étape finale, mais un composant central intégré dans des boucles de raisonnement et d'action multi-tours (ReAct).
Le Décalage (Mismatch) : Les modèles de récupération actuels, entraînés sur des données humaines, présentent un décalage fondamental avec la manière dont les agents formulent des requêtes et consomment les résultats. Les requêtes des agents sont des actions intermédiaires visant à résoudre des problèmes complexes, et non de simples besoins informationnels immédiats. Cela rend les signaux de pertinence humains (comme les clics) inadaptés ou biaisés pour entraîner des récupérateurs destinés aux agents.

Objectif de l'article : Proposer un nouveau paradigme d'entraînement où les modèles de récupération sont appris directement à partir des trajectoires d'interaction des agents, créant ainsi une boucle de données durable spécifique à l'ère des agents.

2. Méthodologie : Le Framework LRAT

Les auteurs proposent LRAT (Learning to Retrieve from Agent Trajectories), un cadre simple mais efficace pour extraire des signaux de supervision de haute qualité à partir des trajectoires d'agents.

A. Analyse des Trajectoires d'Agents

Avant de concevoir le modèle, les auteurs analysent systématiquement les trajectoires d'agents de recherche profonde (Deep Research Agents). Ils identifient trois signaux comportementaux clés :

L'action de navigation (Browsing) comme condition nécessaire : Les documents que l'agent choisit de lire en entier (action [Browse]) sont des candidats naturels pour des signaux positifs. Les trajectoires réussies montrent une forte corrélation entre le nombre de documents navigués et le succès de la tâche.
Les documents non navigués comme négatifs fiables : Contrairement aux logs de clics humains où l'absence de clic peut être due à un biais de position (l'utilisateur n'a pas vu le résultat), les agents examinent activement les snippets. Les documents non navigués dans un ensemble de résultats sont donc des négatifs fiables (rejet explicite) sans besoin de correction de biais de position.
Les traces de raisonnement post-navigation comme indicateur d'intensité : La longueur du raisonnement de l'agent immédiatement après avoir navigué sur un document est fortement corrélée à son utilité. Un raisonnement long indique une intégration profonde de l'information, tandis qu'un raisonnement court suggère un rejet rapide.

B. Architecture de LRAT

Le framework LRAT transforme ces observations en un processus d'entraînement en trois étapes :

Extraction de signaux de pertinence (Mining) :
- Supervision Naïve : À partir des transitions [Search] $\to$ [Browse], les documents navigués sont étiquetés comme positifs et les autres documents du même lot comme négatifs.
- Filtrage par Raisonnement (Reasoning-Aware Filtering) : Un LLM (juge) analyse les traces de raisonnement post-navigation pour filtrer les "faux positifs" (documents navigués mais jugés inutiles par l'agent). Cela affine la qualité des données positives.
Estimation de l'Intensité de Pertinence (Relevance Intensity) :
- Au lieu de traiter tous les positifs de manière égale, LRAT attribue un poids à chaque paire requête-document.
- Le poids est fonction de la longueur du raisonnement post-navigation ( $l$ ). Une fonction de saturation exponentielle est utilisée pour mapper cette longueur à un score d'utilité, imitant le principe du "temps de séjour" dans la recherche humaine mais adapté aux agents.
- Formule du poids : $w = \frac{1}{\mu_{raw}} (1 - \exp(-\ln 2 \cdot \frac{l}{\beta}))$ .
Apprentissage Contrastif Pondéré (Weighted Contrastive Learning) :
- Le modèle de récupération (un encodeur dense bi-encoder) est entraîné avec une perte InfoNCE pondérée.
- La perte intègre les poids calculés précédemment, donnant plus d'importance aux documents qui ont déclenché un raisonnement approfondi de l'agent.
- L'ensemble négatif est hybride : documents non navigués de la même requête + négatifs intra-batch.

3. Contributions Clés

Nouveau Paradigme : Identification du décalage fondamental entre l'entraînement centré sur l'humain et la recherche par agent, et formulation du "Learning to Retrieve from Agent Trajectories" comme nouvelle approche.
Framework LRAT : Proposition d'une méthode pratique qui extrait des signaux de supervision de haute qualité sans annotation humaine supplémentaire, en exploitant les interactions agent-système.
Validation Empirique : Démonstration que les trajectoires d'agents peuvent soutenir une boucle de données (data flywheel) auto-améliorante, où le récupérateur s'améliore itérativement grâce aux interactions des agents.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux benchmarks : InfoSeek-Eval (en domaine) et BrowseComp-Plus (hors domaine, complexe).

Amélioration de la Récupération de Preuves (Evidence Recall) : LRAT améliore significativement la capacité du récupérateur à retrouver les documents de preuve annotés. Sur BrowseComp-Plus, les gains de rappel vont de +7% à +37% selon l'agent et le modèle de récupération.
Succès de Tâche End-to-End : Les agents équipés de récupérateurs entraînés avec LRAT obtiennent des taux de réussite (Success Rate) nettement supérieurs.
- Exemple : Sur l'agent GLM-4.7 (358B), le taux de réussite passe de 67,7% à 82,0% sur InfoSeek-Eval.
- Gain moyen observé : +28,6% sur InfoSeek-Eval et +27,5% sur BrowseComp-Plus.
Efficacité d'Exécution : Le nombre moyen d'étapes (interactions) nécessaires pour résoudre une tâche diminue (jusqu'à -30%), indiquant que les agents trouvent l'information plus rapidement.
Robustesse et Évolutivité :
- Les performances s'améliorent avec la taille des données d'entraînement (jusqu'à 30k trajectoires).
- LRAT fonctionne bien avec divers modèles d'agents (de 4B à 358B paramètres) et divers modèles de récupération (BM25, Qwen3-Embedding, E5).
- Simulation de boucle de données : Même en utilisant des trajectoires partiellement incorrectes (échecs de l'agent), l'entraînement améliore le récupérateur, validant le potentiel d'une boucle de données continue en production.

5. Signification et Impact

Ce travail marque un tournant dans la recherche sur la récupération d'information :

Fin de l'hégémonie des logs humains : Il démontre que pour l'ère des agents autonomes, les données d'interaction humaine ne sont plus la source de vérité optimale. Les trajectoires d'agents sont une source de supervision plus pertinente, scalable et naturelle.
Alignement Agent-Récupérateur : En alignant directement les objectifs de récupération sur les comportements de l'agent (navigation, raisonnement), LRAT résout le goulot d'étranglement de performance que représente la récupération dans les systèmes de recherche complexes.
Faisabilité Industrielle : La méthode ne nécessite aucune annotation humaine coûteuse et peut être appliquée à n'importe quel agent ou récupérateur, offrant une voie pratique pour créer des systèmes de recherche auto-améliorants.

En résumé, LRAT établit que les trajectoires d'agents sont la nouvelle "monnaie" pour l'entraînement des systèmes de recherche, ouvrant la voie à une nouvelle génération de moteurs de recherche optimisés pour les agents intelligents.