ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

Het paper introduceert ScaleDoc, een systeem dat de kosten en het tijdsverlies bij het analyseren van grote documentcollecties met LLM's drastisch verlaagt door een offline fase voor semantische representatie te combineren met een online filterfase die een lichtgewicht proxy-model gebruikt om de meeste documenten te verwerpen en alleen twijfelgevallen naar de LLM te sturen.

Hengrui Zhang, Yulong Hui, Yihao Liu, Huanchen Zhang

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt met miljoenen boeken, maar je hebt geen idee welke boeken erover gaan. Je wilt er één vinden die zegt: "Dit boek beschrijft een nieuwe manier om hoofdpijn te genezen."

In het verleden zou je gewoon zoeken op trefwoorden (zoals "hoofdpijn" of "medicijn"). Maar wat als het boek dat je zoekt dat woord niet eens gebruikt, maar wel precies datgene beschrijft? Dan faalt de oude zoekmachine.

Hier komen Grote Taalmodellen (LLMs) om de hoek kijken. Deze slimme AI's kunnen lezen en begrijpen wat er echt staat, net als een mens. Ze zijn fantastisch, maar ze hebben een groot nadeel: ze zijn extreem traag en duur om te gebruiken. Als je elke keer dat je een vraag stelt, de hele bibliotheek door die AI laat scannen, kost het je een fortuin en duurt het eeuwen.

ScaleDoc is de oplossing die de auteurs van dit paper hebben bedacht. Het is als het bouwen van een slimme, tweestaps-filter voor je bibliotheek.

Hier is hoe het werkt, vertaald naar alledaagse analogieën:

1. De Offline-fase: Het maken van een "Smaakkaart"

Stel je voor dat je eerst een keer (eenmalig) alle boeken in de bibliotheek laat lezen door een slimme expert (de AI). Deze expert schrijft voor elk boek een korte, krachtige samenvatting op een kaartje. Dit kost tijd en geld, maar je doet het maar één keer.

  • Het resultaat: Je hebt nu voor elke duizenden boeken een "smaakkaartje" (een digitale weergave van de inhoud). Je hoeft de dure expert niet meer te bellen om de boeken te lezen; je hebt de samenvattingen al.

2. De Online-fase: De slimme conciërge

Nu komt een bezoeker (jij) en vraagt: "Ik wil een boek over nieuwe hoofdpijn-medicijnen."
In plaats van de dure expert weer te bellen, roep je een slimme conciërge (een klein, snel en goedkoop computerprogramma) op.

  • Stap A: De conciërge kijkt naar je vraag. Hij leest je vraag en vergelijkt die met de duizenden "smaakkaartjes" die je al hebt.
  • Stap B: Het filteren. De conciërge is heel snel. Hij zegt: "Oké, deze 90% van de boeken gaat zeker niet over hoofdpijn. Die gooi ik eruit." En: "Deze 5% gaat er zeker wel over. Die pak ik eruit."
  • Stap C: De twijfelgevallen. Er blijft een klein groepje over (bijvoorbeeld 5%) waar de conciërge niet zeker van is. "Misschien gaat dit boek erover, misschien niet."
  • Stap D: De dure expert. Alleen voor die kleine groep twijfelgevallen belt de conciërge de dure, super-slimme expert (de AI) op. Die expert leest alleen die paar boeken en geeft het definitieve antwoord.

Waarom is dit zo slim? (De twee geheimen)

De schrijvers zeggen dat dit niet zomaar een simpele filter is. Ze hebben twee trucjes gebruikt om het te laten werken:

1. De "Spiegel-truc" (Contrastief Leren)
Een gewone conciërge is vaak onzeker. Hij zegt soms: "Ik weet het niet" voor alles, waardoor je toch de dure expert moet bellen.
ScaleDoc leert de conciërge een speciale manier van denken. Het is alsof je de conciërge traint met een spiegel:

  • Hij ziet een boek dat wel past en een boek dat niet past.
  • Hij leert ze zo ver uit elkaar te duwen in zijn hoofd, dat de "wel"-boeken heel hoog scoren en de "niet"-boeken heel laag.
  • Hierdoor wordt de conciërge heel zelfverzekerd. Hij weet precies wat hij moet doen, en hij hoeft de dure expert veel minder vaak te bellen.

2. De "Slimme Driehoek" (Adaptieve Cascade)
Soms is een vraag makkelijk, soms moeilijk. De truc is om te weten hoeveel boeken je mag filteren zonder dat je fouten maakt.
ScaleDoc gebruikt een slimme rekenmethode. Het pakt een heel klein steekproefje van de boeken, laat de dure expert die controleren, en zegt dan: "Oké, op basis van dit steekproefje weten we dat we veilig 90% van de boeken kunnen negeren." Het past dit elke keer aan, afhankelijk van hoe moeilijk de vraag is.

Het resultaat in het kort

  • Snelheid: Het is meer dan 2 keer sneller dan alles door de dure AI te laten doen.
  • Kosten: Je hoeft de dure AI tot 85% minder vaak te gebruiken. Dat is als het besparen van 85% van je brandstofkosten voor een lange reis.
  • Betrouwbaarheid: Je verliest geen goede boeken; het systeem garandeert dat je antwoord net zo goed is als wanneer je alles door de dure expert had laten controleren.

Kortom: ScaleDoc is een slimme tussenpersoon die de dure, trage AI alleen laat werken voor de moeilijke vragen, terwijl hij zelf de simpele en duidelijke taken afhandelt. Hierdoor wordt het mogelijk om miljoenen documenten te doorzoeken zonder je bankrekening leeg te halen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →