Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous gérez une immense bibliothèque partagée par des milliers de personnes différentes (des entreprises, des équipes, des clients). Chaque personne a ses propres livres, ses propres notes et ses propres questions. Le problème ? Personne n'a pris le temps d'étiqueter correctement ces livres pour dire : « Ce livre répond exactement à cette question ». De plus, si vous voulez améliorer le système de recherche pour une équipe, vous ne pouvez pas tout réorganiser de zéro, car cela prendrait des années et bloquerait tout le monde.

C'est exactement le défi que résout cette recherche, baptisée DevRev-Search. Voici comment ils ont fait, expliqué simplement avec des images du quotidien.

1. Le Problème : La "Bibliothèque Sombre" et le "Taxi de Réindexation"

La "Donnée Sombre" (Dark Data) : Dans les entreprises, il y a des montagnes de documents (tickets de support, manuels, emails) qui sont comme des livres rangés dans le noir. On sait qu'ils existent, mais on ne sait pas ce qu'ils contiennent vraiment ni comment ils répondent aux questions. C'est une mine d'or inutilisée.
Le "Taxi de Réindexation" : Habituellement, pour rendre un moteur de recherche plus intelligent, on doit réapprendre à tout le monde (les livres et les questions) à se comprendre. C'est comme si, pour améliorer la façon dont un bibliothécaire répond aux questions, vous deviez refaire l'étiquetage de tous les livres de la bibliothèque, un par un. Pour une entreprise avec des milliers de clients, c'est trop cher et trop lent.

2. La Solution Magique : Deux Astuces Géniales

Les auteurs ont proposé une méthode en deux temps pour résoudre ce problème sans casser la banque ni attendre des années.

Astuce A : Construire la carte au trésor sans humains (Construction Automatique)

Au lieu de payer des milliers d'humains pour lire des documents et dire "Oui, ça répond à ça" (ce qui est lent et coûteux), ils ont créé un robot détective.

Le Grand Rassemblement : Ils ont demandé à sept "détectives" différents (des algorithmes de recherche variés) de chercher des réponses potentielles. Certains sont experts dans les mots exacts, d'autres dans le sens des phrases.
Le Juge Suprême (LLM-as-a-Judge) : Tous ces détectives ont mis leurs trouvailles dans un panier. Ensuite, un "Grand Juge" (une intelligence artificielle très puissante) a examiné chaque proposition. Il a dit : "Attends, ce document ressemble au mot de la question, mais il ne répond pas vraiment au problème. Je le jette."
Le Résultat : Ils ont ainsi créé une carte de trésor (un jeu de données d'entraînement) de haute qualité, sans avoir besoin d'un seul humain pour annoter manuellement. C'est comme si un chef cuisinier avait goûté des milliers de plats préparés par des robots pour ne garder que les meilleurs, sans avoir cuisiné lui-même.

Astuce B : La "Métamorphose du Questeur" (Adaptation sans Réindexation)

C'est ici que la magie opère pour éviter le "Taxi de Réindexation".

Imaginez que la bibliothèque est un immense entrepôt où chaque livre est scellé dans un bloc de béton (l'index des documents). Vous ne pouvez pas bouger les blocs.

L'ancienne méthode : Pour améliorer la recherche, on essayait de casser les blocs de béton pour changer l'étiquette des livres. C'était impossible.
La nouvelle méthode : Ils ont décidé de ne toucher qu'au Questeur (celui qui pose la question).
- Ils gardent les livres fixes (l'index des documents reste tel quel).
- Ils entraînent uniquement le Questeur à poser ses questions d'une manière plus intelligente, plus précise, pour qu'il trouve les bons livres sans avoir besoin de changer les livres eux-mêmes.
- C'est comme entraîner un chasseur à mieux viser sans avoir à déplacer les cibles.

3. L'Effet "Super-Pouvoirs" (Ajustement Économe)

Pour entraîner ce Questeur, ils n'ont pas besoin de le rééduquer de A à Z (ce qui serait lent et lourd). Ils utilisent une technique appelée PEFT (Fine-Tuning Économe en Paramètres).

L'analogie du "Veste de Sur-Mesure" : Au lieu de refaire tout le corps du Questeur, on lui ajoute juste une petite veste ajustée (des couches supplémentaires légères) qui lui permet de mieux comprendre le contexte spécifique de son entreprise.
Le résultat : Le Questeur devient un expert de son domaine spécifique, mais il reste léger et rapide. Cela permet à des milliers d'entreprises d'avoir leur propre version personnalisée du moteur de recherche, instantanément, sans que le système ne s'effondre.

En Résumé

Cette recherche nous dit :

Ne gaspillez pas de temps à annoter manuellement : Utilisez une équipe de robots pour trouver les réponses, puis un super-robot pour filtrer le bruit.
Ne déplacez pas les livres : Gardez votre base de données fixe.
Entraînez seulement celui qui pose la question : Adaptez le moteur de recherche en modifiant uniquement la façon dont il comprend les questions, en utilisant des techniques légères et rapides.

C'est une façon intelligente de rendre la recherche dans les entreprises aussi précise que Google, mais sans le coût exorbitant et la lenteur habituels. C'est comme passer d'un déménagement complet de bibliothèque à l'achat d'une paire de lunettes sur mesure pour votre bibliothécaire.

Each language version is independently generated for its own context, not a direct translation.

Titre : Réussir à grande échelle : Construction automatisée de jeux de données et adaptation côté requête pour la recherche multi-locataire

1. Problématique

L'article aborde les défis majeurs rencontrés lors du déploiement de systèmes de recherche par récupération dense (dense retrieval) dans des environnements d'entreprise multi-locataires (multi-tenant). Deux goulots d'étranglement principaux sont identifiés :

La pénurie de données étiquetées (Data Scarcity) : Les entreprises possèdent d'énormes quantités de données propriétaires ("dark data") telles que des tickets de support, des trackers de problèmes et une documentation interne. Cependant, ces données manquent cruellement d'étiquettes de pertinence (relevance labels) nécessaires pour l'adaptation de domaine. Les benchmarks existants (comme BEIR) ne capturent pas la nature hétérogène et bruyante de ces données.
La latence d'adaptation et le coût de ré-indexation (Adaptation Latency) : Dans une architecture bi-encodeur standard, l'adaptation du modèle nécessite souvent un fine-tuning simultané des encodeurs de requêtes et de documents. Toute mise à jour de l'encodeur de documents oblige à régénérer les embeddings pour l'intégralité du corpus et à reconstruire l'index (par exemple, HNSW). Pour des plateformes hébergeant des milliers de locataires avec des indices isolés, ce "taxe de ré-indexation" est prohibitif en termes de coûts computationnels et de temps.

2. Méthodologie

Les auteurs proposent une approche unifiée composée de deux volets principaux : la construction de jeux de données automatisée et une stratégie d'adaptation préservant l'index.

A. Construction Automatisée de Jeux de Données (Pipeline DevRev-Search)
Pour surmonter le manque d'étiquettes humaines, l'équipe a développé un pipeline entièrement automatisé pour créer le benchmark DevRev-Search :

Collecte et Nettoyage : Extraction de requêtes réelles depuis les interactions d'agents, suivie d'un filtrage multi-étapes (longueur, détection de langue, déduplication, diversité par clustering).
Segmentation Sémantique : Utilisation de la méthode Recursive Character Splitting (via LangChain) pour découper les documents longs en fragments de 500 caractères, préservant les limites structurelles naturelles (paragraphes, phrases) pour une meilleure granularité sémantique.
Génération de Candidats par Fusion (Fusion-based Generation) : Au lieu de s'appuyer sur un seul modèle, le système utilise un ensemble de 7 récupérateurs hétérogènes (6 modèles d'embedding denses et 1 récupérateur lexical BM25). L'union des résultats de ces modèles maximise le rappel (recall).
Filtrage par LLM-as-a-Judge : Un grand modèle de langage (LLM) agit comme juge pour filtrer les candidats. Il ne génère pas les étiquettes mais filtre les faux positifs issus de la fusion, en ne conservant que les fragments documentaires qui répondent réellement à la requête. Une validation humaine sur un échantillon de 10% a confirmé la fiabilité de ce processus.

B. Stratégie d'Adaptation Preservant l'Index (Index-Preserving Adaptation)
Pour éviter le coût de ré-indexation, les auteurs proposent une approche asymétrique :

Adaptation Uniquement sur la Requête (Query-Only) : L'encodeur de documents ( $E_d$ ) et l'index sont figés (frozen). Seul l'encodeur de requêtes ( $E_q$ ) est ajusté. Cela permet un déploiement rapide et spécifique à chaque locataire sans toucher aux documents stockés.
Fine-Tuning Économe en Paramètres (PEFT) : Pour rendre cette adaptation encore plus efficace, l'étude explore des techniques PEFT appliquées uniquement à l'encodeur de requêtes :
- LoRA (Low-Rank Adaptation) : Adaptation via des matrices de bas rang.
- Projections Linéaires et FFN : Têtes d'adaptation linéaires ou réseaux de neurones feed-forward sur les embeddings.
- Dégel Partiel : Défigement sélectif des dernières couches du transformateur.

3. Contributions Clés

Benchmark DevRev-Search : Un nouveau jeu de données de haute fidélité pour la recherche technique en entreprise, généré sans annotateurs humains, comblant le vide des benchmarks existants pour ce domaine.
Stratégie "Zéro Ré-indexation" : Démonstration qu'un fine-tuning asymétrique (uniquement sur la requête) permet d'obtenir des performances compétitives tout en éliminant le coût prohibitif de la ré-indexation des documents.
Efficacité du PEFT en Adaptation Asymétrique : Preuve que des méthodes comme LoRA peuvent égaler, voire surpasser, le fine-tuning complet de l'encodeur de requêtes, offrant un compromis qualité/coût idéal pour le déploiement multi-locataire.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois jeux de données : DevRev-Search (données d'entreprise), SciFact (scientifique) et FiQA-2018 (financier).

Comparaison QD vs Q (Query-Document vs Query-Only) :
- L'approche Query-Only (Q) a démontré des pertes de performance minimales par rapport au fine-tuning complet des deux encodeurs (QD).
- Sur le modèle qwen3-4b et le jeu SciFact, la stratégie Q a même légèrement surpassé la stratégie QD en Rappel@10 (Recall@10).
Performance des Méthodes PEFT :
- La configuration LoRA (notamment avec un rang $r=32$ ou $64$) a systématiquement égalé ou dépassé le fine-tuning complet de l'encodeur de requêtes.
- Les têtes FFN (Feed-Forward Networks) se sont révélées particulièrement performantes, surpassant le fine-tuning complet sur SciFact.
- Le dégel des 8 premières couches du transformateur a sous-performé par rapport à LoRA, malgré l'utilisation de plus de paramètres, soulignant l'efficacité de la régularisation implicite de LoRA.
Analyse d'Ablation :
- L'ajout de negatifs durs asynchrones (ANCE) a stabilisé l'entraînement et évité l'effondrement des représentations (representation collapse).
- La fusion de 7 récupérateurs a prouvé sa supériorité : aucun modèle unique n'atteignait un rappel parfait (le meilleur étant à ~82%), et l'ensemble combiné a permis d'atteindre un rappel bien supérieur (>97% dans les ablations).

5. Signification et Impact

Cet article propose une solution pragmatique et évolutive pour l'industrie de la recherche d'information en entreprise.

Viabilité Économique : En éliminant la nécessité de ré-indexer des millions de documents pour chaque mise à jour de modèle, l'approche rend économiquement viable l'adaptation de modèles de recherche pour des milliers de locataires distincts.
Exploitation des Données "Sombres" : Le pipeline automatisé permet de transformer des logs de requêtes bruts et des documents non étiquetés en jeux de données d'entraînement de haute qualité, résolvant le problème de la rareté des données étiquetées.
Équilibre Qualité-Efficacité : La combinaison de la construction de données automatisée et de l'adaptation PEFT asymétrique offre un cadre robuste pour déployer des moteurs de recherche d'entreprise performants, rapides à mettre à jour et peu coûteux à maintenir.

En résumé, les auteurs démontrent qu'il est possible de réussir la recherche à grande échelle en multi-locataire en abandonnant le paradigme symétrique coûteux au profit d'une approche asymétrique, économe en paramètres et alimentée par des données synthétisées de manière intelligente.

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

1. Le Problème : La "Bibliothèque Sombre" et le "Taxi de Réindexation"

2. La Solution Magique : Deux Astuces Géniales

Astuce A : Construire la carte au trésor sans humains (Construction Automatique)

Astuce B : La "Métamorphose du Questeur" (Adaptation sans Réindexation)

3. L'Effet "Super-Pouvoirs" (Ajustement Économe)

En Résumé

Titre : Réussir à grande échelle : Construction automatisée de jeux de données et adaptation côté requête pour la recherche multi-locataire

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study