DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Probleemstelling: De "Super-Detective" die niet kan checken

Stel je voor dat we een nieuwe generatie kunstmatige intelligentie (AI) hebben die werkt als een super-rechercheur. Deze AI kan duizenden boeken, artikelen en websites in een paar seconden lezen en er een heel gedetailleerd onderzoeksrapport van maken. Laten we dit een "Deep Research Report" noemen.

Het probleem is: Hoe weten we of deze AI niet liegt?

Als een AI zegt: "De uitvinding van de gloeilamp was in 1879," kun je dat snel checken. Maar als de AI een complex rapport schrijft over klimaatverandering en zegt: "Onderzoek van 2024 toont aan dat X de oorzaak is van Y," is dat veel lastiger. De AI kan bronnen verwarren, oude feiten gebruiken of zelfs feiten uit hun verband rukken.

Tot nu toe hadden we twee problemen:

De oude checkers waren te simpel: Bestaande tools kijken alleen naar korte zinnen of zoekresultaten. Ze zijn als iemand die alleen de titel van een boek leest om te zien of het verhaal klopt. Ze missen de diepte.
De "Gouden Standaard" is gebroken: Om te testen of een AI goed is, hebben we een "antwoordenboekje" nodig gemaakt door experts (mensen met een PhD). Maar het paper laat zien dat zelfs deze experts fouten maken als ze alleen werken. Ze zijn moe, de informatie is te veel, en ze kijken soms door hun eigen bril. Als je een fout antwoordboekje hebt, kun je de AI niet goed beoordelen.

💡 De Oplossing: Een Levend, Groeiend Antwoordenboekje

De auteurs van dit paper (DeepFact) hebben een slimme oplossing bedacht. Ze zeggen: "Waarom proberen we een statisch, dood antwoordboekje te maken? Laten we een levend systeem bouwen dat samen groeit met de AI."

Ze noemen dit Audit-then-Score (AtS).

De Analogie: De "Rechtbank van de Waarheid"

Stel je een rechtbank voor waar de waarheid niet vaststaat, maar wordt beslist door een proces:

De Uitdager (De AI): De AI komt met een bewering en een oordeel (bijv. "Dit is waar, want...").
De Huidige Waarheid (Het Benchmark): Er is een bestaand oordeel in het dossier (bijv. "Dit is onwaar").
Het Conflict: Als de AI het niet eens is met het dossier, zegt ze: "Wacht even, ik heb nieuw bewijs!"
De Rechter (De Auditor): Hier komt de menselijke expert (of een sterke AI) in beeld. Deze Rechter kijkt niet blind naar het oude dossier, maar bekijkt het nieuwe bewijs van de AI.
- Als de AI echt een beter argument heeft, verandert het dossier. De "waarheid" wordt aangepast.
- Als de AI ongelijk heeft, blijft het oude dossier staan.
De Score: Pas na dit proces krijgt de AI een score.

Het mooie hieraan: Het "antwoordenboekje" wordt steeds beter. Elke keer als een slimme AI een fout in het oude boekje vindt en het corrigeert, wordt het boekje waardevoller. Het is alsof Wikipedia niet door één persoon wordt geschreven, maar door een team dat continu discussieert en verbeteringen doorvoert.

🧪 Wat hebben ze ontdekt? (De Experimenten)

Ze hebben dit systeem getest met echte experts (PhD-studenten) en verschillende AI-modellen.

De "Eenzame Expert" faalt: Toen ze experts vroegen om alleen te werken, maakten ze veel fouten (slechts 60% juist). Ze waren overbelast.
De "Rechter" is sterk: Toen ze dezelfde experts vroegen om te oordelen na het zien van de argumenten van een AI, werden ze veel slimmer (90% juist). Ze leerden van de AI!
AI kan ook Rechter zijn: Zelfs als je een AI gebruikt om te oordelen over een andere AI, werkt het goed. Ze vullen elkaars blinde vlekken aan.

🛠️ De Twee Nieuwe Dingen (De Artefacten)

Uit dit onderzoek zijn twee concrete dingen gekomen:

DeepFact-Bench: Dit is het nieuwe, levende "antwoordenboekje". Het bevat duizenden claims uit onderzoeksrapporten. Het is niet statisch; het wordt bijgewerkt als er betere bewijzen komen. Het is als een levende encyclopedie die nooit stopt met leren.
DeepFact-Eval: Dit is de nieuwe "Super-Detective" AI. Deze tool is speciaal gebouwd om diepe onderzoeksrapporten te checken. In plaats van alleen te zoeken naar een zinnetje, leest hij hele documenten, zoekt hij naar tegenbewijs en vergelijkt hij alles.
- Resultaat: Deze nieuwe AI is veel beter dan de oude tools. Hij scoort veel hoger op het nieuwe benchmark.

🚀 Waarom is dit belangrijk?

Vroeger dachten we: "Mensen zijn de koning van de waarheid, AI is maar een machine."
Dit paper zegt: "Nee, mensen zijn moe en maken fouten. Als we AI en mensen samen laten werken in een proces van discussie en controle, krijgen we een waarheid die betrouwbaarder is dan wat we ooit alleen met mensen konden bereiken."

Het is een stap in de richting van een toekomst waar AI wetenschappelijke rapporten schrijft, en een ander AI-systeem (met menselijke toezicht) die rapporten controleert, zodat we er echt op kunnen vertrouwen.

Kortom: Ze hebben een systeem bedacht waar de AI en de mens samen een "levend waarheidsboek" schrijven, waardoor we eindelijk kunnen vertrouwen op de diepe onderzoeken die AI voor ons maakt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Zoekversterkte LLM-agenten (Large Language Models) zijn nu in staat om diepgaande onderzoeksrapporten (Deep Research Reports, DRR's) te genereren. Deze rapporten zijn complexe synthese van technische literatuur die vaak PhD-niveau vragen beantwoorden. Het grootste probleem is echter het verifiëren van de feitelijke juistheid (factuality) van de claims binnen deze rapporten.

Bestaande oplossingen hebben drie fundamentele tekortkomingen:

Beperkt bereik: Bestaande fact-checkers zijn ontworpen voor algemene, atomische claims (feiten) en niet voor complexe, multi-hop redeneringen over volledige documenten.
Staticiteit van benchmarks: De traditionele aanpak van het maken van een statische "gouden standaard" (gold standard) door menselijke experts is onbetrouwbaar voor DRR's. De auteurs tonen aan dat zelfs PhD-experts, zonder hulp, slechts 60,8% nauwkeurigheid behalen bij het labelen van verifieerbare claims binnen hun eigen specialisme. Dit komt door de enorme cognitieve last, de fragmentatie van expertise en de neiging tot onopgemerkte fouten.
Gebrek aan context: Verificatie gaat vaak voorbij aan claims zonder expliciete citaten of bronnen die verouderd, betwist of geselecteerd zijn (cherry-picked).

Methodologie: Audit-then-Score (AtS)

Om het probleem van onbetrouwbare statische benchmarks op te lossen, stellen de auteurs een nieuw paradigma voor: Co-evoluerende benchmarks. In plaats van een statische dataset, evolueert de "waarheid" samen met de agenten die worden getest.

De kern van deze methode is het Audit-then-Score (AtS) protocol:

Challenger: Een agent (verifier) evalueert claims tegen de huidige versie van de benchmark ( $B_t$ ).
Dispuut: Als de agent het oneens is met de huidige label en onderbouwing (rationale), dient deze een voorstel in met bewijsmateriaal.
Audit: Een auditor (in dit geval een menselijke expert of een vertrouwde agent) beoordeelt het dispuut. Als het argument van de challenger sterker is dan de bestaande rationale, wordt de benchmark bijgewerkt.
Evolutie: De benchmark evolueert naar een nieuwe versie ( $B_{t+1}$ ) met de goedgekeurde updates. Alleen dan wordt de agent gescoord tegen deze verfijnde "ground truth".

Dit proces nabootst hoe wetenschappelijke kennis evolueert: niet als een bevroren momentopname, maar als een voortdurende dialoog waarbij nieuwe inzichten eerdere conclusies kunnen weerleggen.

Belangrijkste Bijdragen

DeepFact-Bench: Een nieuw, versieerbaar benchmark voor de feitelijke juistheid van DRR's. Het bevat 944 claims uit 20 rapporten over zes domeinen. Elk item heeft een verifieerbare claim, de context, een eindverdict en een auditabele rationale die uitdagingen en correcties mogelijk maakt.
DeepFact-Eval: Een geavanceerde multi-stap verificatie-agent. In tegenstelling tot traditionele methoden die zoeken op fragmentniveau (snippets), gebruikt DeepFact-Eval een diepere aanpak:
- Breedte: Het genereert diverse zoekopdrachten om relevante documenten te vinden.
- Diepte: Het stelt gerichte vervolgvragen per document om fijne details te extraheren die in samenvattingen ontbreken.
- Iteratie: Het herhaalt het proces totdat voldoende bewijs is verzameld.
- Er is ook een "Lite"-variant die semantisch gerelateerde claims groepeert om kosten te besparen.
Empirisch Bewijs voor Expert-Fallibility: Een gecontroleerde studie toont aan dat experts zonder hulp slechts 60,8% nauwkeurig zijn. Echter, wanneer experts fungeren als auditors voor agenten (in het AtS-proces), stijgt hun nauwkeurigheid op een verborgen "micro-gold" set naar 90,9% na vier rondes. Dit bewijst dat experts betrouwbaarder zijn als toezichthouders dan als eenmalige labelers.
Agenten als Auditors: Het paper toont aan dat sterkere agenten ook kunnen fungeren als auditors voor zwakkere agenten, wat suggereert dat een volledig autonoom, zelfverbeterend evaluatie-ecosysteem mogelijk is.

Resultaten

Prestaties op DeepFact-Bench: DeepFact-Eval behaalt een nauwkeurigheid van 83,4%, wat aanzienlijk beter is dan bestaande state-of-the-art methoden (bijv. +27,5% ten opzichte van SAFE en +14,3% ten opzichte van GPTResearcher).
Efficiëntie: De "Grouped"-variant van DeepFact-Eval reduceert de kosten aanzienlijk met minimaal verlies aan nauwkeurigheid, waardoor het een kosteneffectieve optie is.
Generalisatie: DeepFact-Eval presteert uitstekend op externe benchmarks (SciFact, ExpertQA, Factcheck-Bench). De analyse van discrepanties toont aan dat veel van de "fouten" van het model eigenlijk te wijten zijn aan annotatie-divergentie of onduidelijkheden in de bestaande benchmarks, en niet aan fouten in het model zelf.
Kosten: Hoewel het opzetten van de seed-benchmark veel menselijke uren kostte (400+ uur), dalen de kosten voor menselijke interventie in latere AtS-rondes drastisch (van 65,5% in ronde 0 naar 5,68% in ronde 3), omdat de agenten de meeste conflicten oplossen.

Betekenis en Conclusie

De paper introduceert een fundamentele verschuiving in hoe we AI-systemen evalueren die expert-niveau kennis genereren. De belangrijkste inzichten zijn:

Menselijke "Gold Standards" zijn niet onfeilbaar: Voor complexe taken zoals diepe research is het vertrouwen op statische menselijke labels een bottleneck.
Co-evolutie is noodzakelijk: Benchmarks en agents moeten samen evolueren. Door agents toe te staan om de benchmark uit te dagen en te verbeteren, creëren we een robuuster en nauwkeuriger evaluatiekader.
Toekomstperspectief: DeepFact biedt een pad naar evaluatie die meegaat met de groeiende capaciteiten van AI, waarbij de "waarheid" een dynamisch, auditabel consensus wordt in plaats van een statisch punt. Dit is cruciaal voor de betrouwbaarheid van AI in wetenschappelijke en hoog-risico domeinen.

DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

🕵️‍♂️ De Probleemstelling: De "Super-Detective" die niet kan checken

💡 De Oplossing: Een Levend, Groeiend Antwoordenboekje

De Analogie: De "Rechtbank van de Waarheid"

🧪 Wat hebben ze ontdekt? (De Experimenten)

🛠️ De Twee Nieuwe Dingen (De Artefacten)

🚀 Waarom is dit belangrijk?

Probleemstelling

Methodologie: Audit-then-Score (AtS)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction