VeriTrail: Closed-Domain Hallucination Detection with Traceability

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige assistent hebt die voor je werkt. Deze assistent leest duizenden pagina's aan documenten (zoals medische rapporten, juridische dossiers of nieuwsartikelen) en schrijft vervolgens een samenvatting of geeft een antwoord op een vraag.

Het probleem? Soms verzonnen deze assistenten feiten die er niet staan. Ze zeggen bijvoorbeeld: "De dokter zei dat dit medicijn veilig is," terwijl in het originele rapport nergens staat dat het veilig is. Dit noemen we hallucineren.

In de wereld van kunstmatige intelligentie (AI) is dit een groot risico, vooral als de assistent niet in één keer een antwoord geeft, maar in meerdere stappen werkt. Denk aan een bouwpakket: als je eerst de muren bouwt, dan het dak, en dan de verf, kan er in elke stap een foutje sluipen. Als je alleen naar het eindresultaat kijkt, zie je misschien niet waar de fout precies is ontstaan.

Hier komt VeriTrail om de hoek kijken. Het is een nieuwe methode ontwikkeld door Microsoft Research om deze fouten op te sporen én te traceren.

De Grote Uitdaging: Het "Wie, Wat en Waar"

Stel je voor dat je een detective bent.

De oude manier: Je kijkt alleen naar het eindverslag van de assistent en vraagt: "Is dit waar?" Als het niet klopt, zeg je "Nee". Maar je weet niet waarom het fout is of waar de assistent zijn verzonnen feiten vandaan heeft gehaald.
De VeriTrail-methode: VeriTrail kijkt niet alleen naar het eindverslag, maar volgt de sporen die de assistent heeft achtergelaten tijdens het bouwen van het verslag. Het is alsof je een detective bent die niet alleen het eindverslag bekijkt, maar ook de notities, de schetsen en de tussenstappen van de assistent doorzoekt.

Hoe werkt VeriTrail? (De Analogie van de Spoorzoeker)

VeriTrail werkt als een slimme spoorzoeker die een pad volgt door een doolhof van informatie:

Het Doel: Je hebt een bewering (bijvoorbeeld: "Bedrijf X heeft twee bedrijven overgenomen").
De Terugwaartse Reis: In plaats van te kijken of het antwoord klopt, kijkt VeriTrail eerst naar het antwoord en vraagt: "Welke stukjes tekst in het originele document ondersteunen dit?"
De Tussenstappen: Als het antwoord niet direct uit het originele document komt, kijkt VeriTrail naar de tussenstappen. "Ah, de assistent heeft eerst een samenvatting gemaakt van hoofdstuk 1, en toen een samenvatting van hoofdstuk 2. Waar haalde hij die info vandaan?"
Het Stoppen: Als VeriTrail merkt dat de assistent een feit verzonnen heeft in een tussenstap (bijvoorbeeld in de samenvatting van hoofdstuk 2), stopt het proces daar. Het zegt dan niet alleen "Dit is fout", maar ook: "De fout zit in de samenvatting van hoofdstuk 2, niet in het originele document."

Dit is cruciaal. Als je weet waar de fout zit, kun je die specifieke stap verbeteren, in plaats van de hele assistent te ontslaan.

Twee Nieuwe Spelregels (De Datasets)

Om te bewijzen dat hun methode werkt, hebben de onderzoekers twee nieuwe "speelvelden" gecreëerd:

FABLES+: Een verzameling van hele dikke boeken die stap voor stap samengevat zijn.
DiverseSumm+: Een verzameling van nieuwsverhalen over complexe onderwerpen (zoals de oorlog in Oekraïne) die door meerdere artikelen heen worden samengevoegd.

Het unieke aan deze datasets is dat ze alle tussenstappen bewaren. Normaal gesproken gooi je die weg, maar VeriTrail heeft ze nodig om de sporen te volgen.

Waarom is dit zo belangrijk?

Stel je voor dat een advocaat een AI gebruikt om een rechtszaak voor te bereiden.

Zonder VeriTrail: De AI schrijft een brief met een foutieve datum. De advocaat ziet de fout, maar weet niet of de AI de datum verkeerd heeft gelezen uit het dossier, of dat de AI hem zelf heeft verzonnen.
Met VeriTrail: De AI zegt: "Ik heb deze datum gevonden in de samenvatting van getuige B." De advocaat kan dan direct naar die samenvatting kijken en zien: "Ah, de samenvatting was fout, het originele dossier was juist!"

Samenvatting in één zin

VeriTrail is als een GPS voor feiten: het vertelt je niet alleen of je op het juiste adres bent (het eindantwoord), maar het toont je ook precies welke afslag je hebt gemist of welke verkeerde weg je bent ingeslagen tijdens de reis.

Dankzij deze methode kunnen we AI-systemen die werken in complexe stappen (zoals het samenvatten van boeken of het analyseren van honderden nieuwsartikelen) veiliger en betrouwbaarder maken, omdat we precies weten waar de fouten ontstaan en hoe we ze kunnen oplossen.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Gesloten Domein Hallucinaties en Meervoudige Generatiestappen

Hoewel taalmodellen (LM's) vaak worden gevraagd om zich te houden aan bronmateriaal, genereren ze toch vaak ongegronde inhoud, een fenomeen dat bekendstaat als "gesloten domein hallucinatie" (closed-domain hallucination). Dit is een kritiek probleem in toepassingen zoals medische advisering, juridische samenvattingen en klantenservice.

Het paper onderscheidt twee soorten processen:

SGS (Single Generative Step): Het model genereert direct een einduitvoer op basis van de bron.
MGS (Multiple Generative Steps): Het model doorloopt een reeks stappen waarbij tussenuitvoer (intermediate outputs) wordt gebruikt als input voor volgende stappen (bijv. hiërarchische samenvattingen of GraphRAG).

De kernuitdaging: MGS-processen zijn complexer en vatbaarder voor hallucinaties omdat fouten zich kunnen voortplanten door de stappen. Bestaande methoden voor "faithfulness evaluation" (het beoordelen of de output trouw is aan de bron) evalueren vaak alleen de einduitvoer tegen de bron. Dit is onvoldoende voor MGS-processen omdat het geen inzicht geeft in:

Provenance (Herkomst): Waaruit is de output precies afgeleid?
Error Localization (Foutlocatie): In welke stap van het proces is de hallucinatie geïntroduceerd?

Zonder deze "traceability" (traceerbaarheid) kunnen gebruikers niet vertrouwen op de output en is het moeilijk om fouten te corrigeren.

2. Methodologie: VeriTrail

VeriTrail is de eerste methode die hallucinatie detectie combineert met traceerbaarheid voor zowel SGS- als MGS-processen. De methode modelleert een generatief proces als een Gerichte Acyclische Graaf (DAG), waarbij knopen tekstsegmenten vertegenwoordigen en randen de input-output relaties tussen stappen.

Het proces verloopt als volgt:

Claim Extractie: De einduitvoer wordt opgesplitst in feitelijke claims ( $C$ ).
Sub-claim Decompositie: Complexe claims worden opgesplitst in kleinere, onafhankelijk verifieerbare sub-claims.
Iteratieve Verificatie (Evidence Selection & Verdict Generation):
- VeriTrail start bij de eindknoop (terminal node) en werkt terug naar de wortelknoopen (bronmateriaal).
- Evidence Selection: Een LM selecteert zinnen uit de huidige knopen die sterk impliceren dat een claim waar of onwaar is.
- Verdict Generation: Op basis van deze bewijslast wordt een oordeel gegeven: "Fully Supported" (Volledig ondersteund), "Not Fully Supported" (Niet volledig ondersteund), of "Inconclusive" (Onbeslist).
Selectieve Traversing en Termination:
- Als een claim "Fully Supported" is, worden alleen de bronknoopen van de geselecteerde bewijszinnen verder gecontroleerd.
- Als een claim "Not Fully Supported" is, worden de bronknoopen van alle eerder gecontroleerde knopen gecontroleerd om te voorkomen dat bewijs over het hoofd wordt gezien (verminderen van false positives).
- Het proces stopt als de wortelknoopen zijn bereikt, er geen nieuwe knopen meer zijn, of als er $q$ keer achter elkaar "Not Fully Supported" is geoordeeld.

Traceability Output:
Voor elke claim levert VeriTrail:

Een definitief oordeel met redenering.
Een evidence trail: een pad door de DAG van de einduitvoer terug naar de bron, inclusief geselecteerde zinnen en samenvattingen.
Error Localization: Als een claim faalt, identificeert het de specifieke "stages" (generatiestappen) waar de hallucinatie waarschijnlijk is geïntroduceerd.

3. Belangrijkste Bijdragen

Conceptueel Kader: Een unificatie van generatieve processen als DAG's voor faithfulness-evaluatie.
VeriTrail Methode: De eerste hallucinatie-detectiemethode die traceerbaarheid biedt voor MGS-processen, met een focus op kosteneffectiviteit en nauwkeurigheid.
Nieuwe Dataset: De auteurs hebben twee nieuwe datasets geconstrueerd die zeldzaam zijn omdat ze alle tussenuitvoer bevatten:
- FABLES+: Gebaseerd op boeksamenvattingen via hiërarchische samenvatting (22 boeken, ~118k tokens gemiddeld).
- DiverseSumm+: Gebaseerd op nieuwsverhalen en GraphRAG (148 verhalen, 1479 artikelen, ~1.19M tokens).
- Beide datasets bevatten menselijke annotaties van de trouwheid van de einduitvoer.

4. Resultaten

De auteurs hebben VeriTrail vergeleken met sterke baselines, waaronder:

Natural Language Inference (NLI) methoden (AlignScore, INFUSE, Llama-3.1-Bespoke-MiniCheck-7B).
Retrieval-Augmented Generation (RAG).
Directe verificatie met lange-context modellen (Gemini 1.5 Pro, GPT-4.1 Mini).

Kernbevindingen:

Superieure Prestaties: VeriTrail presteerde beter dan alle baselines op beide datasets (FABLES+ en DiverseSumm+), gemeten aan de hand van Macro F1 en Balanced Accuracy.
- Op FABLES+ behaalde VeriTrail (q=1) een Macro F1 van 74,0% (tegenover 69,6% voor de beste RAG-baseline).
- Op DiverseSumm+ behaalde VeriTrail (q=1) een Macro F1 van 76,6% (tegenover 75,1% voor RAG).
Kosteneffectiviteit: Ondanks dat VeriTrail veel meer verificatiestappen uitvoert dan baselines (het controleert ook tussenuitvoer), blijft het kosteneffectief. Door vroege terminatie en selectieve verificatie zijn de kosten per claim laag (bijv. $0,09 - $0,14 per claim met goedkopere modellen), wat vergelijkbaar is met of lager is dan menselijke annotatie.
Traceerbaarheid: VeriTrail kan succesvol aangeven in welke generatiestap hallucinaties ontstaan. Bijvoorbeeld, in GraphRAG-processen bleek dat hallucinaties vaak in de "community report" fase (stap 4) of de "map-level answer" fase (stap 5) werden geïntroduceerd.

5. Betekenis en Impact

Dit paper is significant omdat het een gat dicht in het veld van hallucinatie-detectie voor complexe, meervoudige generatiestromen.

Vertrouwen en Transparantie: Door niet alleen te zeggen dat een hallucinatie optreedt, maar ook waar en hoe het is ontstaan, biedt VeriTrail gebruikers de mogelijkheid om outputs te verifiëren en te vertrouwen.
Debugging van MGS-systemen: Het stelt ontwikkelaars in staat om specifieke stappen in hun generatieve pipeline (bijv. een specifieke samenvattingsstap of een community-report generatie) te identificeren en te verbeteren die het meest foutgevoelig zijn.
Toekomstige Richting: De datasets FABLES+ en DiverseSumm+ vormen een nieuwe standaard voor het evalueren van traceerbaarheid en hallucinaties in complexe LM-workflows, wat essentieel is voor de schaalbare inzet van AI in kritieke domeinen.

Samenvattend introduceert VeriTrail een nieuwe standaard voor het evalueren van LM-outputs in complexe systemen, waarbij het de balans vindt tussen hoge nauwkeurigheid, kostenefficiëntie en de noodzakelijke transparantie van de afleidingsketen.

VeriTrail: Closed-Domain Hallucination Detection with Traceability

De Grote Uitdaging: Het "Wie, Wat en Waar"

Hoe werkt VeriTrail? (De Analogie van de Spoorzoeker)

Twee Nieuwe Spelregels (De Datasets)

Waarom is dit zo belangrijk?

Samenvatting in één zin

1. Het Probleem: Gesloten Domein Hallucinaties en Meervoudige Generatiestappen

2. Methodologie: VeriTrail

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics