DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

Dit paper introduceert DeepFact, een framework dat co-evoluerende benchmarks en agenten combineert om de feitelijke juistheid van diep onderzoekrapporten te verifiëren via een audit-gebaseerd proces dat de betrouwbaarheid van experts aanzienlijk verbetert.

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Probleemstelling: De "Super-Detective" die niet kan checken

Stel je voor dat we een nieuwe generatie kunstmatige intelligentie (AI) hebben die werkt als een super-rechercheur. Deze AI kan duizenden boeken, artikelen en websites in een paar seconden lezen en er een heel gedetailleerd onderzoeksrapport van maken. Laten we dit een "Deep Research Report" noemen.

Het probleem is: Hoe weten we of deze AI niet liegt?

Als een AI zegt: "De uitvinding van de gloeilamp was in 1879," kun je dat snel checken. Maar als de AI een complex rapport schrijft over klimaatverandering en zegt: "Onderzoek van 2024 toont aan dat X de oorzaak is van Y," is dat veel lastiger. De AI kan bronnen verwarren, oude feiten gebruiken of zelfs feiten uit hun verband rukken.

Tot nu toe hadden we twee problemen:

  1. De oude checkers waren te simpel: Bestaande tools kijken alleen naar korte zinnen of zoekresultaten. Ze zijn als iemand die alleen de titel van een boek leest om te zien of het verhaal klopt. Ze missen de diepte.
  2. De "Gouden Standaard" is gebroken: Om te testen of een AI goed is, hebben we een "antwoordenboekje" nodig gemaakt door experts (mensen met een PhD). Maar het paper laat zien dat zelfs deze experts fouten maken als ze alleen werken. Ze zijn moe, de informatie is te veel, en ze kijken soms door hun eigen bril. Als je een fout antwoordboekje hebt, kun je de AI niet goed beoordelen.

💡 De Oplossing: Een Levend, Groeiend Antwoordenboekje

De auteurs van dit paper (DeepFact) hebben een slimme oplossing bedacht. Ze zeggen: "Waarom proberen we een statisch, dood antwoordboekje te maken? Laten we een levend systeem bouwen dat samen groeit met de AI."

Ze noemen dit Audit-then-Score (AtS).

De Analogie: De "Rechtbank van de Waarheid"

Stel je een rechtbank voor waar de waarheid niet vaststaat, maar wordt beslist door een proces:

  1. De Uitdager (De AI): De AI komt met een bewering en een oordeel (bijv. "Dit is waar, want...").
  2. De Huidige Waarheid (Het Benchmark): Er is een bestaand oordeel in het dossier (bijv. "Dit is onwaar").
  3. Het Conflict: Als de AI het niet eens is met het dossier, zegt ze: "Wacht even, ik heb nieuw bewijs!"
  4. De Rechter (De Auditor): Hier komt de menselijke expert (of een sterke AI) in beeld. Deze Rechter kijkt niet blind naar het oude dossier, maar bekijkt het nieuwe bewijs van de AI.
    • Als de AI echt een beter argument heeft, verandert het dossier. De "waarheid" wordt aangepast.
    • Als de AI ongelijk heeft, blijft het oude dossier staan.
  5. De Score: Pas na dit proces krijgt de AI een score.

Het mooie hieraan: Het "antwoordenboekje" wordt steeds beter. Elke keer als een slimme AI een fout in het oude boekje vindt en het corrigeert, wordt het boekje waardevoller. Het is alsof Wikipedia niet door één persoon wordt geschreven, maar door een team dat continu discussieert en verbeteringen doorvoert.

🧪 Wat hebben ze ontdekt? (De Experimenten)

Ze hebben dit systeem getest met echte experts (PhD-studenten) en verschillende AI-modellen.

  • De "Eenzame Expert" faalt: Toen ze experts vroegen om alleen te werken, maakten ze veel fouten (slechts 60% juist). Ze waren overbelast.
  • De "Rechter" is sterk: Toen ze dezelfde experts vroegen om te oordelen na het zien van de argumenten van een AI, werden ze veel slimmer (90% juist). Ze leerden van de AI!
  • AI kan ook Rechter zijn: Zelfs als je een AI gebruikt om te oordelen over een andere AI, werkt het goed. Ze vullen elkaars blinde vlekken aan.

🛠️ De Twee Nieuwe Dingen (De Artefacten)

Uit dit onderzoek zijn twee concrete dingen gekomen:

  1. DeepFact-Bench: Dit is het nieuwe, levende "antwoordenboekje". Het bevat duizenden claims uit onderzoeksrapporten. Het is niet statisch; het wordt bijgewerkt als er betere bewijzen komen. Het is als een levende encyclopedie die nooit stopt met leren.
  2. DeepFact-Eval: Dit is de nieuwe "Super-Detective" AI. Deze tool is speciaal gebouwd om diepe onderzoeksrapporten te checken. In plaats van alleen te zoeken naar een zinnetje, leest hij hele documenten, zoekt hij naar tegenbewijs en vergelijkt hij alles.
    • Resultaat: Deze nieuwe AI is veel beter dan de oude tools. Hij scoort veel hoger op het nieuwe benchmark.

🚀 Waarom is dit belangrijk?

Vroeger dachten we: "Mensen zijn de koning van de waarheid, AI is maar een machine."
Dit paper zegt: "Nee, mensen zijn moe en maken fouten. Als we AI en mensen samen laten werken in een proces van discussie en controle, krijgen we een waarheid die betrouwbaarder is dan wat we ooit alleen met mensen konden bereiken."

Het is een stap in de richting van een toekomst waar AI wetenschappelijke rapporten schrijft, en een ander AI-systeem (met menselijke toezicht) die rapporten controleert, zodat we er echt op kunnen vertrouwen.

Kortom: Ze hebben een systeem bedacht waar de AI en de mens samen een "levend waarheidsboek" schrijven, waardoor we eindelijk kunnen vertrouwen op de diepe onderzoeken die AI voor ons maakt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →