Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Dit paper introduceert DevRev-Search, een benchmark en een schaalbaar framework voor multi-tenant zoeksystemen dat gebruikmaakt van een volledig geautomatiseerd datasetbouwpipeline en een indexbehoudende aanpassingsstrategie om alleen de query-encoder te finetunen, waardoor effectieve domeinadaptatie mogelijk wordt zonder kostbare herschrijving van documentindices.

Prateek Jain, Shabari S Nair, Ritesh Goru, Prakhar Agarwal, Ajay Yadav, Yoga Sri Varshan Varadharajan, Constantine Caramanis

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Grote Bibliotheek zonder Kaartjes: Hoe je een slimme zoekmachine bouwt zonder alles opnieuw te ordenen

Stel je voor dat je een enorme bibliotheek hebt met miljoenen boeken (de documenten). Maar er is een groot probleem: niemand heeft de kaarten geschreven die vertellen welke boeken bij welke vragen passen. Bovendien heb je duizenden verschillende bibliothecarissen (de klanten), en elke bibliothecaris heeft zijn eigen unieke verzameling boeken die niemand anders kan zien.

Dit is precies het probleem dat bedrijven hebben met hun interne zoekmachines. Ze hebben veel zoekopdrachten, maar geen goede antwoorden om hun software te leren. En als ze de software willen updaten, is het alsof ze alle boeken in de hele bibliotheek opnieuw moeten nummeren en in de schappen moeten zetten – een proces dat te duur en te langzaam is.

De auteurs van dit paper (van DevRev en de Universiteit van Texas) hebben een slimme oplossing bedacht. Ze noemen het "Succesvol op Schaal". Hier is hoe het werkt, stap voor stap:

1. Het probleem: "Donkere Data" en de "Hersorteer-Taks"

  • Donkere Data: Bedrijven hebben enorme hoeveelheden data (zoals klantklachten en handleidingen), maar niemand weet welke stukjes tekst het antwoord zijn op welke vraag. Het is alsof je een berg puzzelstukken hebt, maar geen foto van het eindresultaat.
  • De Hersorteer-Taks: Normaal gesproken moet je, om een zoekmachine slimmer te maken, zowel de vragen als de antwoorden (de boeken) opnieuw leren. In een grote bibliotheek betekent dit dat je alle boeken opnieuw moet scannen en van een nieuwe code moet voorzien. Dit kost te veel tijd en geld, vooral als je duizenden klanten hebt.

2. De Oplossing: Een Robot die de Puzzelstukken Legt

In plaats van mensen te laten zoeken naar de juiste antwoorden (wat duur en traag is), bouwen ze een automatische fabriek om deze data te maken.

  • De "Super-Scanners" (Retrievers): Ze gebruiken zeven verschillende soorten zoekrobots. Sommige zoeken op exacte woorden (zoals een woordenboek), andere zoeken op betekenis (zoals een mens die begrijpt wat je bedoelt).
  • De "Gouden Kooi" (Fusie): Ze nemen alle resultaten van deze zeven robots en gooien ze in één grote mand. Zo missen ze geen enkel relevant stukje tekst.
  • De "Rechter" (LLM-as-a-Judge): Nu hebben ze een grote hoop kandidaten, maar veel zijn onzin. Ze gebruiken een super-slimme AI (een Large Language Model) als een strenge rechter. Deze AI kijkt naar elke vraag en elk antwoord en zegt: "Nee, dit is alleen maar een woord-overeenkomst, het is geen echt antwoord" of "Ja, dit lost het probleem op!".
  • Resultaat: Ze hebben nu een perfecte set van vragen en antwoorden, gemaakt door robots, zonder dat er één mens de hele dag hoeft te typen.

3. De Slimme Truc: Alleen de Vragen Leren (Index-Preserving)

Dit is het meest ingenieuze deel. Stel je voor dat je een tolk hebt die de boeken in de bibliotheek kent.

  • De oude manier: Om de tolk slimmer te maken, leer je hem niet alleen hoe hij vragen moet begrijpen, maar ook hoe hij de boeken moet lezen. Maar als je de manier waarop hij de boeken leest verandert, moet je alle boeken opnieuw scannen en van een nieuwe code voorzien.
  • De nieuwe manier (Query-Only Adaptation): De auteurs zeggen: "Wacht even. Laten we de boeken (de documenten) gewoon laten zoals ze zijn. Laten we alleen de tolk trainen om de vragen beter te begrijpen."

Het is alsof je de tolk een nieuwe bril geeft zodat hij de vraag van de klant beter ziet, zonder dat je de hele bibliotheek hoeft te verplaatsen. De "index" (de lijst met boeken) blijft staan. Dit bespaart enorme hoeveelheden tijd en geld.

4. De "Kleinschalige" Training (PEFT)

Om de tolk nog sneller te trainen, gebruiken ze een techniek genaamd LoRA.

  • Vergelijking: Stel je voor dat je een hele nieuwe motor bouwt om je auto sneller te maken (dat is "volledig finetunen"). Dat is duur en zwaar.
  • LoRA: In plaats van een nieuwe motor, plak je een slimme turbo op de bestaande motor. Je verandert de hele auto niet, maar voegt alleen een klein, efficiënt onderdeel toe dat de prestaties enorm verbetert.
  • Conclusie: Ze ontdekten dat deze kleine turbo (LoRA) bijna net zo goed werkt als het bouwen van een hele nieuwe motor, maar dan veel goedkoper en sneller.

Samenvatting in één zin

De auteurs hebben een manier gevonden om een zoekmachine voor duizenden klanten te leren van zijn eigen "donkere data" door slimme robots te gebruiken om antwoorden te vinden, en door alleen de vragen te "trainen" zonder de duizenden documenten opnieuw te hoeven ordenen.

Het resultaat? Een zoekmachine die sneller, slimmer en goedkoper is, en die zich direct aanpast aan de specifieke taal van elke klant.