Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Each language version is independently generated for its own context, not a direct translation.

De Grote Bibliotheek zonder Kaartjes: Hoe je een slimme zoekmachine bouwt zonder alles opnieuw te ordenen

Stel je voor dat je een enorme bibliotheek hebt met miljoenen boeken (de documenten). Maar er is een groot probleem: niemand heeft de kaarten geschreven die vertellen welke boeken bij welke vragen passen. Bovendien heb je duizenden verschillende bibliothecarissen (de klanten), en elke bibliothecaris heeft zijn eigen unieke verzameling boeken die niemand anders kan zien.

Dit is precies het probleem dat bedrijven hebben met hun interne zoekmachines. Ze hebben veel zoekopdrachten, maar geen goede antwoorden om hun software te leren. En als ze de software willen updaten, is het alsof ze alle boeken in de hele bibliotheek opnieuw moeten nummeren en in de schappen moeten zetten – een proces dat te duur en te langzaam is.

De auteurs van dit paper (van DevRev en de Universiteit van Texas) hebben een slimme oplossing bedacht. Ze noemen het "Succesvol op Schaal". Hier is hoe het werkt, stap voor stap:

1. Het probleem: "Donkere Data" en de "Hersorteer-Taks"

Donkere Data: Bedrijven hebben enorme hoeveelheden data (zoals klantklachten en handleidingen), maar niemand weet welke stukjes tekst het antwoord zijn op welke vraag. Het is alsof je een berg puzzelstukken hebt, maar geen foto van het eindresultaat.
De Hersorteer-Taks: Normaal gesproken moet je, om een zoekmachine slimmer te maken, zowel de vragen als de antwoorden (de boeken) opnieuw leren. In een grote bibliotheek betekent dit dat je alle boeken opnieuw moet scannen en van een nieuwe code moet voorzien. Dit kost te veel tijd en geld, vooral als je duizenden klanten hebt.

2. De Oplossing: Een Robot die de Puzzelstukken Legt

In plaats van mensen te laten zoeken naar de juiste antwoorden (wat duur en traag is), bouwen ze een automatische fabriek om deze data te maken.

De "Super-Scanners" (Retrievers): Ze gebruiken zeven verschillende soorten zoekrobots. Sommige zoeken op exacte woorden (zoals een woordenboek), andere zoeken op betekenis (zoals een mens die begrijpt wat je bedoelt).
De "Gouden Kooi" (Fusie): Ze nemen alle resultaten van deze zeven robots en gooien ze in één grote mand. Zo missen ze geen enkel relevant stukje tekst.
De "Rechter" (LLM-as-a-Judge): Nu hebben ze een grote hoop kandidaten, maar veel zijn onzin. Ze gebruiken een super-slimme AI (een Large Language Model) als een strenge rechter. Deze AI kijkt naar elke vraag en elk antwoord en zegt: "Nee, dit is alleen maar een woord-overeenkomst, het is geen echt antwoord" of "Ja, dit lost het probleem op!".
Resultaat: Ze hebben nu een perfecte set van vragen en antwoorden, gemaakt door robots, zonder dat er één mens de hele dag hoeft te typen.

3. De Slimme Truc: Alleen de Vragen Leren (Index-Preserving)

Dit is het meest ingenieuze deel. Stel je voor dat je een tolk hebt die de boeken in de bibliotheek kent.

De oude manier: Om de tolk slimmer te maken, leer je hem niet alleen hoe hij vragen moet begrijpen, maar ook hoe hij de boeken moet lezen. Maar als je de manier waarop hij de boeken leest verandert, moet je alle boeken opnieuw scannen en van een nieuwe code voorzien.
De nieuwe manier (Query-Only Adaptation): De auteurs zeggen: "Wacht even. Laten we de boeken (de documenten) gewoon laten zoals ze zijn. Laten we alleen de tolk trainen om de vragen beter te begrijpen."

Het is alsof je de tolk een nieuwe bril geeft zodat hij de vraag van de klant beter ziet, zonder dat je de hele bibliotheek hoeft te verplaatsen. De "index" (de lijst met boeken) blijft staan. Dit bespaart enorme hoeveelheden tijd en geld.

4. De "Kleinschalige" Training (PEFT)

Om de tolk nog sneller te trainen, gebruiken ze een techniek genaamd LoRA.

Vergelijking: Stel je voor dat je een hele nieuwe motor bouwt om je auto sneller te maken (dat is "volledig finetunen"). Dat is duur en zwaar.
LoRA: In plaats van een nieuwe motor, plak je een slimme turbo op de bestaande motor. Je verandert de hele auto niet, maar voegt alleen een klein, efficiënt onderdeel toe dat de prestaties enorm verbetert.
Conclusie: Ze ontdekten dat deze kleine turbo (LoRA) bijna net zo goed werkt als het bouwen van een hele nieuwe motor, maar dan veel goedkoper en sneller.

Samenvatting in één zin

De auteurs hebben een manier gevonden om een zoekmachine voor duizenden klanten te leren van zijn eigen "donkere data" door slimme robots te gebruiken om antwoorden te vinden, en door alleen de vragen te "trainen" zonder de duizenden documenten opnieuw te hoeven ordenen.

Het resultaat? Een zoekmachine die sneller, slimmer en goedkoper is, en die zich direct aanpast aan de specifieke taal van elke klant.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search", vertaald en samengevat in het Nederlands.

Probleemstelling

Het paper adresseert twee fundamentele uitdagingen bij het implementeren van dichte (dense) neurale ophaalsystemen in grote, multi-tenant enterprise-omgevingen:

Het Data-Scarcity Bottleneck: Enterprise-klanten hebben vaak "donkere data" (propriëtaire corpora zoals supporttickets en interne documentatie) waarvoor geen handmatig gegenereerde relevantielabels bestaan. Bestaande benchmarks (zoals BEIR) dekken de heterogene en ruisachtige aard van deze domeinen niet. Het ontbreken van gelabelde data verhindert effectieve domeinaanpassing.
Het Adaptatie-Latentie Bottleneck: In traditionele bi-encoder architecturen vereist het fine-tunen van zowel de query- als de documentencoder het opnieuw genereren van embeddings voor het volledige corpus. In een multi-tenant omgeving met duizenden geïsoleerde indexen is deze "re-indexing tax" (herindexering) computationeel onhaalbaar en te duur.

Methodologie

De auteurs introduceren DevRev-Search, een unificerende aanpak die bestaat uit een volledig geautomatiseerd dataset-pipeline en een efficiënte aanpassingsstrategie.

1. Geautomatiseerde Dataset Constructie

Om het gebrek aan gelabelde data op te lossen, hebben de auteurs een pipeline ontwikkeld die geen menselijke annotatoren vereist:

Query Collectie: Ruwe klantvragen worden gefilterd op lengte, taal (alleen Engels), duplicaten en semantische diversiteit.
Document Segmentatie: Lange enterprise-documenten worden opgesplitst in chunks van maximaal 500 karakters (via recursieve karakter-splitting) om de semantische precisie te maximaliseren binnen de token-limieten van encoders.
Ensemble Retrieval: In plaats van één model te gebruiken, worden kandidaat-documenten verzameld via een unie van zeven diverse retrievers (6 dichte embeddings-modellen en 1 BM25). Dit maximaliseert de recall.
LLM-as-a-Judge Filtering: Een Large Language Model fungeert als rechter om de geaggregeerde kandidaten te filteren. Het model selecteert alleen de chunks die daadwerkelijk relevant zijn voor de query, waarbij het oppervlakkige woord-overlap verwijdert en focust op inhoudelijke relevantie.
Validatie: Een steekproef van 10% is handmatig gevalideerd om de nauwkeurigheid van de geautomatiseerde labels te bevestigen.

2. Index-Behoudende Adaptatie (Query-Only Adaptation)

Om de kosten van herindexering te elimineren, stellen de auteurs een asymmetrische fine-tuning strategie voor:

Vaste Document Encoder: De documentencoder en de bijbehorende index (embeddings) blijven bevroren (frozen).
Adaptatie van Query Encoder: Alleen de query-encoder wordt aangepast aan het specifieke domein.
Parameter-Efficient Fine-Tuning (PEFT): Om de rekenefficiëntie verder te verhogen, worden technieken zoals LoRA (Low-Rank Adaptation), lineaire projecties, feed-forward netwerken (FFN) op embeddings, en het ontdooien van slechts de bovenste transformer-lagen gebruikt. Dit vermindert het aantal trainbare parameters drastisch ten opzichte van volledige fine-tuning.

Belangrijkste Resultaten

De methode is getest op drie datasets: DevRev-Search (enterprise support), SciFact (wetenschappelijk) en FiQA-2018 (financieel).

Query-Only vs. Query-Document: Het fine-tunen van alleen de query-encoder (Q) levert prestaties op die vergelijkbaar zijn met, en in sommige gevallen zelfs marginaal beter zijn dan, het gezamenlijk fine-tunen van beide encoders (QD). Dit bewijst dat het bevriezen van de documentindex geen significante prestatieverlies veroorzaakt.
Effectiviteit van PEFT:
- De beste LoRA-configuratie (met rank $r=32$ of $64$) presteert consistent gelijk aan of beter dan volledige fine-tuning.
- Het aanpassen van alleen de bovenste 8 transformer-lagen presteert slechter dan LoRA, ondanks dat het meer parameters gebruikt, wat de efficiëntie van LoRA benadrukt.
- Voor de DevRev-Search dataset (met hoge dichtheid aan relevante documenten) levert de PEFT-aanpak een uitstekende kwaliteit-efficiëntie trade-off op.
Dataset Kwaliteit: De analyse toont aan dat geen enkele individuele retriever voldoende recall haalt (de beste haalt ~82%). De ensemble-methode met unie-aggregatie is essentieel om de recall naar >93% te tillen, wat de noodzaak van diverse retrievers onderstreept.

Bijdragen en Significantie

De paper levert drie cruciale bijdragen aan het veld van enterprise search:

DevRev-Search Benchmark: Een nieuwe, hoogwaardige benchmark voor enterprise retrieval die is gegenereerd zonder menselijke annotatie, waardoor het mogelijk wordt om modellen te trainen op specifieke, gesloten domeinen.
Schaalbare Data-Generatie: Een bewezen pipeline die LLM's gebruikt voor consistentiefiltering en ensemble-retrieval, waardoor "donkere data" in bruikbare trainingsdata wordt omgezet.
Praktische Schaalbaarheid voor Multi-Tenancy: De "Query-Only Adaptation" strategie lost het probleem van de "re-indexing tax" op. Bedrijven kunnen nu tenant-specifieke modellen implementeren met minimale kosten en zonder het volledige corpus opnieuw te hoeven indexeren.

Conclusie:
Het paper demonstreert dat het mogelijk is om schaalbare, domeinspecifieke ophaalsystemen te bouwen voor duizenden klanten door gebruik te maken van geautomatiseerde data-generatie en asymmetrische, parameter-efficiënte fine-tuning. Dit maakt geavanceerde neurale retrieval haalbaar in omgevingen waar data-labeling schaars is en herindexering onmogelijk is.

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

De Grote Bibliotheek zonder Kaartjes: Hoe je een slimme zoekmachine bouwt zonder alles opnieuw te ordenen

1. Het probleem: "Donkere Data" en de "Hersorteer-Taks"

2. De Oplossing: Een Robot die de Puzzelstukken Legt

3. De Slimme Truc: Alleen de Vragen Leren (Index-Preserving)

4. De "Kleinschalige" Training (PEFT)

Samenvatting in één zin

Probleemstelling

Methodologie

1. Geautomatiseerde Dataset Constructie

2. Index-Behoudende Adaptatie (Query-Only Adaptation)

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study