Over-Searching in Search-Augmented Large Language Models

Dit artikel analyseert het fenomeen van 'over-searching' in zoekversterkte grote taalmodellen, introduceert de metriek Tokens Per Correctness (TPC) om de kosten-batenverhouding te kwantificeren, en biedt mitigatiestrategieën om de efficiëntie te verbeteren en hallucinaties te verminderen.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra

Gepubliceerd 2026-03-12
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek in eenvoudig Nederlands, met behulp van een paar creatieve metaforen om het concept "over-zoeken" (over-searching) begrijpelijk te maken.

De Hoofdprobleem: De "Over-Actieve Rechercheur"

Stel je voor dat je een slimme rechercheur hebt (de AI) die je helpt bij het oplossen van mysteries (vragen beantwoorden). Normaal gesproken is deze rechercheur geweldig: als je vraagt wie de winnaar was van de vorige voetbalwedstrijd, kijkt hij even in zijn archief en heeft hij het antwoord.

Maar in dit onderzoek ontdekten de auteurs een vreemd gedrag: de rechercheur wordt soms te enthousiast.

Stel je voor dat je vraagt: "Wie wordt de president van de Verenigde Staten in het jaar 2075?"
Een normale, verstandige rechercheur zou zeggen: "Dat weet niemand, dat is de toekomst. Ik kan dat niet weten."

Maar de AI in dit onderzoek doet iets anders. Hij denkt: "Ik moet dit weten! Ik ga nu even de hele wereld doorzoeken!" Hij belt tien keer de bibliotheek, leest duizenden kranten uit de toekomst (die niet bestaan) en probeert een antwoord te verzinnen. Dit kost veel tijd, geld en energie, en het resultaat is vaak een onzin-antwoord.

Dit noemen de onderzoekers "Over-Searching" (over-zoeken). De AI zoekt iets op dat hij al weet, of iets dat onmogelijk te vinden is, en verliest hierdoor zijn oordeelvermogen.


De Drie Grote Ontdekkingen

De onderzoekers hebben gekeken naar honderden vragen en verschillende soorten AI's. Hier zijn hun belangrijkste bevindingen, vertaald naar alledaagse taal:

1. Meer zoeken betekent niet altijd beter

  • Voor bekende feiten: Als je vraagt "Wat is de hoofdstad van Frankrijk?", helpt zoeken inderdaad. De AI vindt het antwoord sneller en zekerder.
  • Voor onmogelijke vragen: Als je vraagt "Hoeveel eieren legt een tijger?" (Tijgers leggen geen eieren!), helpt zoeken juist niet. De AI begint dan te twijfelen aan zijn eigen kennis. Hij ziet misschien een verwarrend artikel over een dier dat op een tijger lijkt, en denkt: "Oh, misschien doen ze het toch?" en geeft hij een fout antwoord.
  • De les: Zoeken maakt de AI slimmer voor feiten, maar dommer voor het erkennen van onmogelijke vragen.

2. De "Diepe Denker" valt vaker in de valkuil

De onderzoekers keken naar verschillende modellen. De modellen die zijn getraind om heel diep na te denken (zoals "Redenerende AI's" of "Deep Research" systemen) zoeken het vaakst overbodig.

  • De metafoor: Stel je voor dat een gewone student een vraag krijgt. Als hij het niet weet, zegt hij: "Ik weet het niet." Een "super-intelligente" student die is getraind om altijd te redeneren, denkt: "Nee, ik moet dit oplossen! Ik ga nog eens 50 pagina's lezen!" Uiteindelijk verzint hij iets, terwijl hij had moeten zeggen dat het onmogelijk is. Hoe complexer de AI, hoe makkelijker hij overhaast gaat zoeken.

3. Het "Sneeuwbaleffect" in gesprekken

Als je met de AI een gesprek voert, wordt het probleem erger.

  • De metafoor: Stel je voor dat je in een gesprek eerst drie vragen stelt die je wel kunt beantwoorden. De AI raakt dan in een ritme: "Ik kan dit, ik kan dat, ik kan alles!" Vervolgens stel je een onmogelijke vraag. De AI blijft in dat ritme hangen en gaat weer zoeken, in plaats van te stoppen.
  • Als je echter eerst onmogelijke vragen stelt, leert de AI soms om te zeggen: "Ik weet het niet." Maar als je eerst veel antwoorden geeft, gaat hij denken dat hij alles kan vinden.

De Oplossing: De "Kosten-Rekenmachine"

De onderzoekers bedachten een nieuwe manier om dit te meten, genaamd TPC (Tokens Per Correctness).

  • Wat is het? Het is een soort "prijskaartje" voor elk goed antwoord.
  • Hoe werkt het? Als de AI 1000 woorden moet schrijven en 5 keer moet zoeken om een simpel antwoord te geven, is de prijs hoog. Als hij direct het juiste antwoord geeft (of eerlijk zegt dat hij het niet weet), is de prijs laag.
  • Het resultaat: Ze zagen dat AI's die over-zochten, een enorme prijs betaalden voor antwoorden die vaak zelfs nog fout waren.

Wat kun je eraan doen? (De "Rem")

De onderzoekers probeerden een paar dingen om de AI te kalmeren:

  1. De "Stop-En-Denk" Prompt: Ze gaven de AI een instructie: "Denk eerst na of je het antwoord al weet voordat je gaat zoeken." Dit hielp een beetje, maar de AI bleef soms toch zoeken.
  2. Voorbeelden geven: Ze gaven de AI voorbeelden van situaties waarin hij moet zeggen: "Ik weet het niet." Dit werkte goed, maar soms werd de AI dan te voorzichtig en gaf hij ook op voor vragen die hij wel kon beantwoorden.
  3. De Bibliotheek aanpassen: Ze probeerden de bronnen (de boeken in de bibliotheek) te vullen met artikelen die zeggen: "Dit is onmogelijk te vinden." Dit hielp de AI om sneller te stoppen, maar omdat de echte wereld vol zit met informatie, is dit lastig om perfect te regelen.

Conclusie

De boodschap van dit onderzoek is duidelijk: Meer technologie betekent niet altijd betere resultaten.

AI's die verbonden zijn met het internet zijn krachtig, maar ze hebben moeite om te weten wanneer ze moeten stoppen. Ze zijn als een hond die een bal gooit: als je de bal gooit, rent hij erachteraan. Maar als je zegt "Ga niet rennen", rent hij toch, omdat hij denkt dat hij de bal moet vinden.

Om echt slimme AI's te maken, moeten we ze niet alleen leren hoe ze moeten zoeken, maar vooral leren wanneer ze moeten stoppen en eerlijk moeten zeggen: "Dit weet ik niet."

De onderzoekers hebben ook een nieuwe testset (OverSearchQA) gemaakt, zodat andere onderzoekers kunnen oefenen met het oplossen van dit probleem.