Automatic In-Domain Exemplar Construction and LLM-Based Refinement of Multi-LLM Expansions for Query Expansion

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de trouver un livre dans une immense bibliothèque, mais vous ne connaissez pas le titre exact ni les mots précis utilisés par les bibliothécaires. Vous donnez une description vague, et la bibliothèque vous répond : "Désolé, je n'ai rien trouvé." C'est le problème classique de la recherche d'information : le décalage entre ce que vous demandez et ce qui est écrit dans les documents.

Les chercheurs de cet article ont créé une solution intelligente pour aider les ordinateurs à mieux comprendre vos demandes. Voici comment cela fonctionne, expliqué simplement avec des analogies.

1. Le Problème : La "Traduction" Ratée

Les moteurs de recherche traditionnels fonctionnent comme des dictionnaires rigides. Si vous cherchez "voiture rapide" et que le document parle de "bolide", le moteur ne fait pas le lien.
Pour corriger cela, on utilise des LLM (de grands modèles de langage, comme des IA très intelligentes) pour réécrire votre demande avec plus de mots-clés pertinents. C'est comme demander à un ami de reformuler votre question pour qu'elle soit plus claire.

Mais il y a deux problèmes avec cette méthode :

L'IA est parfois perdue : Si on lui demande de réécrire sans lui donner d'exemples, elle peut halluciner ou utiliser des mots qui ne correspondent pas au sujet (comme un traducteur qui invente des mots).
Les exemples sont mal choisis : Souvent, on donne à l'IA des exemples venant de domaines différents (par exemple, lui demander de parler de médecine en lui donnant des exemples de cuisine). C'est comme demander à un chef étoilé de réparer une voiture : il est doué, mais pas dans ce domaine précis.

2. La Solution : Une Équipe de Détectives Autonomes

Les auteurs proposent une méthode en trois étapes, comme une équipe de détectives qui travaille sans supervision humaine.

Étape 1 : Construire une "Boîte à Outils" sur Mesure

Au lieu d'utiliser des exemples génériques trouvés sur Internet, l'IA crée sa propre boîte à outils spécifique au domaine (médecine, droit, web, etc.).

L'analogie : Imaginez que vous cherchez un livre sur la biologie. Au lieu de demander à un bibliothécaire généraliste, l'IA va d'abord fouiller dans les rayons de biologie, repérer les livres les plus pertinents, et les utiliser comme "modèles" pour apprendre à reformuler votre question. Elle le fait toute seule, sans qu'un humain ait besoin de tout trier à la main.

Étape 2 : Choisir les Meilleurs Exemples (Le Tri par Groupes)

Une fois qu'elle a des milliers d'exemples potentiels, comment choisir les bons ?

L'analogie : Imaginez que vous devez choisir 4 amis pour vous aider à préparer un discours. Si vous choisissez 4 amis qui pensent tous exactement la même chose, vous aurez une vision étroite.
La méthode : L'IA utilise une technique de "regroupement" (clustering). Elle sépare tous les exemples en groupes différents (comme des étagères thématiques) et choisit un représentant pour chaque groupe. Cela garantit que les exemples donnés à l'IA sont variés et couvrent tous les aspects du sujet, comme un jury diversifié.

Étape 3 : Le Duo de Génies et le Chef d'Orchestre

C'est ici que la méthode devient vraiment puissante. Au lieu de demander à une seule IA de faire le travail, ils en utilisent deux différentes (par exemple, une IA de type "Qwen" et une autre "Llama").

L'analogie : Imaginez deux traducteurs experts qui travaillent séparément sur la même phrase. Le premier pourrait être très précis sur les détails techniques, le second très bon sur le style.
Le Chef d'Orchestre (L'IA de Raffinement) : Au lieu de simplement coller les deux traductions ensemble (ce qui ferait un texte brouillon), une troisième IA agit comme un chef d'orchestre. Elle écoute les deux, garde les meilleures idées de chacun, supprime les répétitions et les erreurs, et écrit une seule phrase parfaite et cohérente.

3. Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé cette méthode sur plusieurs types de recherches (documents web, encyclopédies, articles scientifiques).

Résultat : Cette méthode "automatique" bat largement les anciennes méthodes, même celles qui utilisent des humains pour choisir les exemples.
L'avantage clé : Tout se fait sans étiquettes humaines (pas besoin de payer des gens pour trier des documents) et sans entraînement complexe. C'est une solution "clé en main" qui s'adapte à n'importe quel sujet.

En Résumé

Ce papier décrit une méthode où l'ordinateur apprend à mieux chercher en :

Se créant ses propres exemples pertinents dans le domaine visé.
Choisissant une équipe d'exemples variés pour éviter les biais.
Faisant travailler deux IA en parallèle et utilisant une troisième pour fusionner leurs meilleures idées en une seule réponse parfaite.

C'est comme passer d'un chercheur solitaire et parfois maladroit à une équipe de détectives ultra-efficace, qui sait exactement où regarder et comment communiquer pour trouver l'aiguille dans la botte de foin.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La recherche d'information (RI) traditionnelle souffre souvent d'un décalage de vocabulaire entre la requête de l'utilisateur et les documents pertinents. Bien que les méthodes classiques d'expansion de requête (QE) basées sur le Pseudo-Relevance Feedback (PRF), comme Rocchio ou RM3, soient efficaces, elles dépendent fortement de la qualité du classifieur initial et ne peuvent pas injecter de connaissances sémantiques au-delà du corpus.

L'arrivée des Grands Modèles de Langage (LLM) offre une nouvelle voie pour générer des reformulations sémantiquement riches via l'apprentissage en contexte (ICL). Cependant, les approches actuelles basées sur les LLM présentent plusieurs limites majeures :

Dépendance aux prompts manuels : Elles reposent souvent sur des exemples (exemplaires) choisis manuellement ou sur des prompts fixes.
Sensibilité au domaine : Les exemples provenant de domaines non pertinents entraînent des performances instables.
Utilisation d'un seul modèle : La plupart des travaux n'utilisent qu'un seul LLM, laissant inexploité le potentiel complémentaire de modèles hétérogènes.
Manque de scalabilité : Les méthodes nécessitant une annotation humaine ou un entraînement spécifique ne sont pas adaptables à de nouveaux corpus non étiquetés.

L'objectif de cet article est de proposer un cadre automatisé, adaptatif au domaine et sans étiquettes pour l'expansion de requêtes, capable de sélectionner dynamiquement des exemples pertinents et de fusionner les sorties de plusieurs LLM.

2. Méthodologie

Le cadre proposé se déroule en trois étapes principales, illustrées dans la figure 1 de l'article :

Étape 1 : Construction automatique d'un pool d'exemples in-domaine

Au lieu d'utiliser des exemples manuels, l'approche construit un grand pool d'exemples $(requête, passage)$ à partir d'un corpus non étiqueté cible :

Pour chaque requête de semence (issues des ensembles de données d'entraînement), un retriever BM25 récupère les $N$ meilleurs candidats.
Ces candidats sont réordonnés par un modèle MonoT5.
Le passage le mieux classé est conservé comme "passage pseudo-pertinent".
Cela génère un pool de milliers d'exemples in-domaine (ex: 100k pour MS MARCO, 809 pour SciFact) sans aucune annotation humaine.

Étape 2 : Sélection d'exemplaires par clustering (Few-Shot ICL)

Pour chaque requête de test, le système doit sélectionner un sous-ensemble d'exemples pour le prompt ICL :

Les embeddings des candidats du pool sont calculés via Contriever.
Une stratégie de clustering (k-means) est appliquée pour regrouper les exemples en $k$ groupes sémantiques.
Le médoid (l'exemple le plus proche du centre du cluster) de chaque groupe est sélectionné.
Avantage : Cette méthode assure la diversité thématique et la stabilité des démonstrations, évitant la redondance et le biais de sélection.

Étape 3 : Ensembliste Multi-LLM avec Raffinement

Pour exploiter la complémentarité des modèles, l'architecture utilise trois LLM :

Génération : Deux LLM hétérogènes (ici Qwen-2.5-7B et Llama-3.1-8B) génèrent indépendamment des expansions de requête en utilisant les mêmes exemplaires sélectionnés à l'étape 2.
Raffinement : Un troisième LLM (le même que le générateur principal) agit comme module de fusion. Il reçoit la requête originale et les deux expansions générées.
Instruction de fusion : Le modèle de raffinement est invité à synthétiser les deux expansions en un seul paragraphe cohérent, en conservant les entités et relations utiles tout en éliminant le bruit et la redondance.
Requête finale : La requête finale est construite en concaténant 5 copies de la requête originale avec l'expansion raffinée.

3. Contributions Clés

Pipeline entièrement automatisé et sans étiquettes : Construction de pools d'exemples in-domaine via un pipeline BM25-MonoT5, éliminant le besoin de prompts manuels ou d'exemples annotés.
Stratégie de sélection par clustering : Une méthode simple et reproductible pour sélectionner des démonstrations ICL stables et diversifiées, garantissant une adéquation avec le domaine cible.
Ensembliste Multi-LLM avec raffinement : Introduction d'un mécanisme de fusion au niveau de la requête (sans entraînement supplémentaire) où un LLM consolide les sorties de deux autres LLM hétérogènes, exploitant leurs connaissances complémentaires.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois benchmarks : TREC DL20 (recherche web), DBPedia-Entity (recherche d'entités) et SciFact (vérification de claims scientifiques).

Comparaison avec les baselines :
- La méthode proposée (Cluster-ICL QE) surpasse systématiquement les méthodes lexicales (BM25, Rocchio), le Zero-shot (sans exemples) et le Few-shot avec des exemples fixes hors domaine.
- Sur DL20, le raffinement multi-LLM atteint un NDCG@10 de 62,86 %, surpassant significativement le BM25 (47,96 %) et les approches à un seul LLM.
- Sur SciFact, l'approche raffinée améliore le NDCG@10 de 72,07 % contre 69,19 % pour le Few-shot fixe.
Impact du raffinement :
- La simple concaténation des expansions de deux LLM apporte des gains modestes.
- L'étape de raffinement par LLM apporte les gains les plus importants, démontrant que la fusion intelligente est supérieure à la simple juxtaposition de textes.
Robustesse et Généralisation :
- Les gains sont statistiquement significatifs sur tous les domaines, y compris les corpus biomédicaux (SciFact) et les grandes collections web.
- L'approche fonctionne également avec des retrieveurs denses (basés sur SBERT), prouvant qu'elle n'est pas limitée aux méthodes lexicales.
Analyse d'ablation :
- L'utilisation d'exemples in-domaine (Cluster) est cruciale : les exemples fixes hors domaine fonctionnent mal sur des domaines spécifiques.
- Augmenter la longueur de génération (128 tokens) dégrade les performances (bruit), tandis que le raffinement multi-LLM maintient une haute qualité avec une longueur contrôlée.

5. Signification et Impact

Ce travail démontre que l'expansion de requêtes basée sur les LLM peut être rendue scalable, robuste et adaptable sans nécessiter d'annotation humaine ni d'entraînement coûteux.

Pratique : La solution offre un testbed reproductible pour la sélection d'exemplaires et la génération multi-agents, applicable directement à des systèmes de recherche réels.
Théorique : Elle valide l'hypothèse que la complémentarité entre différents LLM, lorsqu'elle est orchestrée par un mécanisme de raffinement, permet de dépasser les limites des modèles individuels.
Innovation : Le passage d'une approche "prompting manuel" à une construction "automatique et adaptative" des exemples in-domaine résout un goulot d'étranglement majeur dans l'application des LLM à la recherche d'information.

En résumé, l'article propose une architecture élégante qui combine la récupération de pertinence pseudo-automatisée, la sélection intelligente d'exemples par clustering et la fusion collaborative de modèles, établissant un nouvel état de l'art pour l'expansion de requêtes sans supervision.