Over-Searching in Search-Augmented Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek in eenvoudig Nederlands, met behulp van een paar creatieve metaforen om het concept "over-zoeken" (over-searching) begrijpelijk te maken.

De Hoofdprobleem: De "Over-Actieve Rechercheur"

Stel je voor dat je een slimme rechercheur hebt (de AI) die je helpt bij het oplossen van mysteries (vragen beantwoorden). Normaal gesproken is deze rechercheur geweldig: als je vraagt wie de winnaar was van de vorige voetbalwedstrijd, kijkt hij even in zijn archief en heeft hij het antwoord.

Maar in dit onderzoek ontdekten de auteurs een vreemd gedrag: de rechercheur wordt soms te enthousiast.

Stel je voor dat je vraagt: "Wie wordt de president van de Verenigde Staten in het jaar 2075?"
Een normale, verstandige rechercheur zou zeggen: "Dat weet niemand, dat is de toekomst. Ik kan dat niet weten."

Maar de AI in dit onderzoek doet iets anders. Hij denkt: "Ik moet dit weten! Ik ga nu even de hele wereld doorzoeken!" Hij belt tien keer de bibliotheek, leest duizenden kranten uit de toekomst (die niet bestaan) en probeert een antwoord te verzinnen. Dit kost veel tijd, geld en energie, en het resultaat is vaak een onzin-antwoord.

Dit noemen de onderzoekers "Over-Searching" (over-zoeken). De AI zoekt iets op dat hij al weet, of iets dat onmogelijk te vinden is, en verliest hierdoor zijn oordeelvermogen.

De Drie Grote Ontdekkingen

De onderzoekers hebben gekeken naar honderden vragen en verschillende soorten AI's. Hier zijn hun belangrijkste bevindingen, vertaald naar alledaagse taal:

1. Meer zoeken betekent niet altijd beter

Voor bekende feiten: Als je vraagt "Wat is de hoofdstad van Frankrijk?", helpt zoeken inderdaad. De AI vindt het antwoord sneller en zekerder.
Voor onmogelijke vragen: Als je vraagt "Hoeveel eieren legt een tijger?" (Tijgers leggen geen eieren!), helpt zoeken juist niet. De AI begint dan te twijfelen aan zijn eigen kennis. Hij ziet misschien een verwarrend artikel over een dier dat op een tijger lijkt, en denkt: "Oh, misschien doen ze het toch?" en geeft hij een fout antwoord.
De les: Zoeken maakt de AI slimmer voor feiten, maar dommer voor het erkennen van onmogelijke vragen.

2. De "Diepe Denker" valt vaker in de valkuil

De onderzoekers keken naar verschillende modellen. De modellen die zijn getraind om heel diep na te denken (zoals "Redenerende AI's" of "Deep Research" systemen) zoeken het vaakst overbodig.

De metafoor: Stel je voor dat een gewone student een vraag krijgt. Als hij het niet weet, zegt hij: "Ik weet het niet." Een "super-intelligente" student die is getraind om altijd te redeneren, denkt: "Nee, ik moet dit oplossen! Ik ga nog eens 50 pagina's lezen!" Uiteindelijk verzint hij iets, terwijl hij had moeten zeggen dat het onmogelijk is. Hoe complexer de AI, hoe makkelijker hij overhaast gaat zoeken.

3. Het "Sneeuwbaleffect" in gesprekken

Als je met de AI een gesprek voert, wordt het probleem erger.

De metafoor: Stel je voor dat je in een gesprek eerst drie vragen stelt die je wel kunt beantwoorden. De AI raakt dan in een ritme: "Ik kan dit, ik kan dat, ik kan alles!" Vervolgens stel je een onmogelijke vraag. De AI blijft in dat ritme hangen en gaat weer zoeken, in plaats van te stoppen.
Als je echter eerst onmogelijke vragen stelt, leert de AI soms om te zeggen: "Ik weet het niet." Maar als je eerst veel antwoorden geeft, gaat hij denken dat hij alles kan vinden.

De Oplossing: De "Kosten-Rekenmachine"

De onderzoekers bedachten een nieuwe manier om dit te meten, genaamd TPC (Tokens Per Correctness).

Wat is het? Het is een soort "prijskaartje" voor elk goed antwoord.
Hoe werkt het? Als de AI 1000 woorden moet schrijven en 5 keer moet zoeken om een simpel antwoord te geven, is de prijs hoog. Als hij direct het juiste antwoord geeft (of eerlijk zegt dat hij het niet weet), is de prijs laag.
Het resultaat: Ze zagen dat AI's die over-zochten, een enorme prijs betaalden voor antwoorden die vaak zelfs nog fout waren.

Wat kun je eraan doen? (De "Rem")

De onderzoekers probeerden een paar dingen om de AI te kalmeren:

De "Stop-En-Denk" Prompt: Ze gaven de AI een instructie: "Denk eerst na of je het antwoord al weet voordat je gaat zoeken." Dit hielp een beetje, maar de AI bleef soms toch zoeken.
Voorbeelden geven: Ze gaven de AI voorbeelden van situaties waarin hij moet zeggen: "Ik weet het niet." Dit werkte goed, maar soms werd de AI dan te voorzichtig en gaf hij ook op voor vragen die hij wel kon beantwoorden.
De Bibliotheek aanpassen: Ze probeerden de bronnen (de boeken in de bibliotheek) te vullen met artikelen die zeggen: "Dit is onmogelijk te vinden." Dit hielp de AI om sneller te stoppen, maar omdat de echte wereld vol zit met informatie, is dit lastig om perfect te regelen.

Conclusie

De boodschap van dit onderzoek is duidelijk: Meer technologie betekent niet altijd betere resultaten.

AI's die verbonden zijn met het internet zijn krachtig, maar ze hebben moeite om te weten wanneer ze moeten stoppen. Ze zijn als een hond die een bal gooit: als je de bal gooit, rent hij erachteraan. Maar als je zegt "Ga niet rennen", rent hij toch, omdat hij denkt dat hij de bal moet vinden.

Om echt slimme AI's te maken, moeten we ze niet alleen leren hoe ze moeten zoeken, maar vooral leren wanneer ze moeten stoppen en eerlijk moeten zeggen: "Dit weet ik niet."

De onderzoekers hebben ook een nieuwe testset (OverSearchQA) gemaakt, zodat andere onderzoekers kunnen oefenen met het oplossen van dit probleem.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Over-Searching in Search-Augmented Large Language Models" in het Nederlands.

Titel: Over-Searching in Search-Augmented Large Language Models

Auteurs: Roy Xie, Deepak Gopinath, David Qiu, et al. (Apple & Duke University)
Datum: Maart 2026

1. Het Probleem: Over-Searching

Zoekversterkte Large Language Models (LLMs) zijn uitstekend in kennisintensieve taken door externe informatie op te halen via zoektools. Echter, deze systemen lijden vaak aan "over-searching" (overzoeken). Dit is het fenomeen waarbij een model onnodig zoekopdrachten uitvoert, zelfs wanneer:

Het antwoord al bekend is binnen het model.
De vraag fundamenteel onbeantwoordbaar is (bijv. toekomstige gebeurtenissen, valse premissen, of onduidelijke context).
Zoeken de kwaliteit van het antwoord niet verbetert.

Gevolgen:

Computational Inefficiency: Onnodige kosten voor tokens en API-oproepen.
Hallucinaties: Het introduceren van irrelevante of verwarrende context ("search-induced confusion") die leidt tot foutieve antwoorden.
Verlies van Retentie: In plaats van te zeggen "Ik weet het niet" (abstention), probeert het model een antwoord te construeren op basis van willekeurige zoekresultaten.

2. Methodologie

A. OverSearchQA Benchmark

De auteurs hebben een nieuwe benchmark ontwikkeld, OverSearchQA, specifiek ontworpen om abstention-gedrag (het vermogen om af te zien van een antwoord) te evalueren.

Opbouw: 1.188 vragen, evenwichtig verdeeld tussen beantwoordbare en onbeantwoordbare vragen.
Categorieën van onbeantwoordbare vragen:
1. Answer Unknown (AU): Toekomstige gebeurtenissen of onopgeloste problemen.
2. False Premise (FP): Vragen gebaseerd op onjuiste aannames (bijv. "Hoeveel eieren leggen tijgers?").
3. Underspecified Context (UC): Vragen met ontbrekende context of ambiguïteit.
Validatie: De dataset is zorgvuldig gefilterd om te zorgen dat beantwoordbare en onbeantwoordbare vragen semantisch en qua lengte vergelijkbaar zijn, zodat verschillen in prestaties echt te wijten zijn aan de aard van de vraag en niet aan dataset-artefacten.

B. Evaluatiemetrics

Naast traditionele nauwkeurigheid introduceert het paper twee cruciale metrics:

Dual Accuracy:
- Answer Accuracy: Percentage correcte antwoorden op beantwoordbare vragen.
- Abstention Accuracy: Percentage correcte "ik weet het niet"-reacties op onbeantwoordbare vragen.
Tokens Per Correctness (TPC): Een nieuwe metric om de trade-off tussen prestatie en kosten te kwantificeren.
- Formule: $TPC = \frac{\sum Cost(q)}{\sum Correct(q)}$
- De kosten ( $Cost$ ) omvatten gegenereerde tokens, input-tokens (context) en zoekoproepen.
- Een lagere TPC is beter; een stijgende TPC duidt op overzoeken (meer kosten voor geen of minder winst in correctheid).

C. Experimenteel Setup

Modellen: Een breed scala aan modellen, waaronder base-modellen, reasoning-modellen (bijv. o4-mini, Qwen3-Think) en "Deep Research" systemen.
Retrieval: Gebruik van verschillende bronnen (Wikipedia, verouderde Wikipedia, noisy corpus C5, en live Web Search) om de impact van ruis te testen.
Situaties: Evaluatie in single-turn en multi-turn conversaties.

3. Belangrijkste Resultaten

A. Zoeken verbetert antwoorden, maar schaadt abstention

Zoekversterking verbetert de nauwkeurigheid op beantwoordbare vragen gemiddeld met 24,0%.
Tegelijkertijd verslechtert het de abstention-accuraatheid op onbeantwoordbare vragen met 12,8%.
Modellen die zonder zoektools een vraag correct als "onbeantwoordbaar" herkennen, beginnen vaak onnodig te zoeken zodra de zoekfunctie wordt ingeschakeld, wat leidt tot foutieve antwoorden.

B. Complexiteit verergert het probleem

Reasoning-modellen: Modellen met geavanceerde redeneercapaciteiten (zoals o4-mini) vertonen meer overzoeken dan base-modellen.
Deep Research: Systemen die zijn ontworpen voor diepgaand onderzoek (zoals o4-mini-deep-research) vertonen de ergste overzoeken. De TPC van deze systemen is tot 221x hoger dan die van base-configuraties, terwijl de abstention-accuraatheid drastisch daalt.
Meer redeneren = meer kosten: Het verhogen van de "reasoning effort" verbetert de antwoordkwaliteit, maar vermindert het vermogen om af te zien van een antwoord, wat leidt tot een monotoon stijgende TPC.

C. De rol van Retrieval-kwaliteit

Ruis leidt tot meer zoeken: Bij gebruik van een ruisachtig corpus (C5) voeren modellen aanzienlijk meer zoekopdrachten uit (TPC is 3,6x hoger) vergeleken met betrouwbare bronnen.
Negatief bewijs is cruciaal: Modellen vertonen bijna perfecte abstention als de zoekresultaten uitsluitend "negatief bewijs" bevatten (bijv. teksten die zeggen "dit is niet bekend"). Echter, in de echte wereld vormen dergelijke documenten slechts 13-22% van de resultaten. De overvloed aan "positief bewijs" (misleidende informatie) dwingt het model om te antwoorden in plaats van af te zien.

D. Multi-turn Conversaties (Snowball-effect)

In meervoudige conversaties versterkt overzoeken zichzelf. Als een conversatie begint met beantwoordbare vragen, neigt het model in latere rondes (zelfs bij onbeantwoordbare vragen) om te blijven zoeken en antwoorden te geven.
Een geschiedenis van onbeantwoordbare vragen helpt het model om abstention te behouden, maar een geschiedenis van antwoorden "smelt" dit vermogen weg.

4. Mitigatie Strategieën

De auteurs testten verschillende aanpakken om overzoeken te verminderen:

Query-level (Prompt Engineering):
- Abstention-aware prompts: Duidelijke instructies om af te zien van een antwoord.
- Few-shot learning: Voorbeelden geven van correct abstention-gedrag.
- Self-evaluation: Het model vraagt eerst of de vraag beantwoordbaar is voordat het zoekt.
- Resultaat: Deze methoden verbeteren de abstention-accuraatheid aanzienlijk (gemiddeld +11,5%), maar kunnen de antwoordnauwkeurigheid iets verlagen en de TPC verhogen door extra redeneringstokens.
Retrieval-level (Corpus Augmentation):
- Het toevoegen van synthetische documenten met negatief bewijs aan de zoekindex.
- Resultaat: Beperkt effect (+3,6% abstention). De synthetische documenten worden vaak slecht gerankt of verdwijnen in de massa van natuurlijk positief bewijs.

Conclusie over mitigatie: Geen enkele huidige strategie lost het fundamentele probleem op dat modellen niet rationeel kunnen beslissen wanneer ze moeten stoppen met zoeken.

5. Significantie en Bijdrage

Nieuw Inzicht: Het paper identificeert en kwantificeert "over-searching" als een kritieke zwakte in moderne zoekversterkte LLMs, vooral in complexe en multi-turn scenario's.
Nieuwe Metric (TPC): De introductie van "Tokens Per Correctness" biedt een gestandaardiseerde manier om de efficiëntie van tool-gebruik te meten, wat essentieel is voor kosteneffectieve implementaties.
Benchmark: De release van OverSearchQA vult een gat in de literatuur door een specifiek testplatform te bieden voor abstention-gedrag, wat eerder vaak werd genegeerd ten gunste van puur antwoordnauwkeurigheid.
Toekomstige Richting: De resultaten suggereren dat toekomstige verbeteringen niet alleen in prompt-engineering liggen, maar waarschijnlijk vereisen op het gebied van post-training alignment en architecturale wijzigingen in de retrieval-systemen om modellen te leren wanneer ze niet moeten zoeken.

Kortom, dit werk waarschuwt dat "meer zoeken" niet altijd "beter" betekent, en dat de huidige generatie AI-agenten vaak te veel vertrouwen op externe tools, wat leidt tot inefficiëntie en hallucinaties.