VeriTrail: Closed-Domain Hallucination Detection with Traceability

Dit paper introduceert VeriTrail, de eerste methode voor het detecteren van hallucinaties in gesloten domeinen met traceerbaarheid, die niet alleen de einduitvoer controleert maar ook identificeert waar hallucinaties in meervoudige generatiestappen zijn ontstaan, en dit ondersteunt met nieuwe datasets en betere prestaties dan bestaande methoden.

Dasha Metropolitansky, Jonathan Larson

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige assistent hebt die voor je werkt. Deze assistent leest duizenden pagina's aan documenten (zoals medische rapporten, juridische dossiers of nieuwsartikelen) en schrijft vervolgens een samenvatting of geeft een antwoord op een vraag.

Het probleem? Soms verzonnen deze assistenten feiten die er niet staan. Ze zeggen bijvoorbeeld: "De dokter zei dat dit medicijn veilig is," terwijl in het originele rapport nergens staat dat het veilig is. Dit noemen we hallucineren.

In de wereld van kunstmatige intelligentie (AI) is dit een groot risico, vooral als de assistent niet in één keer een antwoord geeft, maar in meerdere stappen werkt. Denk aan een bouwpakket: als je eerst de muren bouwt, dan het dak, en dan de verf, kan er in elke stap een foutje sluipen. Als je alleen naar het eindresultaat kijkt, zie je misschien niet waar de fout precies is ontstaan.

Hier komt VeriTrail om de hoek kijken. Het is een nieuwe methode ontwikkeld door Microsoft Research om deze fouten op te sporen én te traceren.

De Grote Uitdaging: Het "Wie, Wat en Waar"

Stel je voor dat je een detective bent.

  • De oude manier: Je kijkt alleen naar het eindverslag van de assistent en vraagt: "Is dit waar?" Als het niet klopt, zeg je "Nee". Maar je weet niet waarom het fout is of waar de assistent zijn verzonnen feiten vandaan heeft gehaald.
  • De VeriTrail-methode: VeriTrail kijkt niet alleen naar het eindverslag, maar volgt de sporen die de assistent heeft achtergelaten tijdens het bouwen van het verslag. Het is alsof je een detective bent die niet alleen het eindverslag bekijkt, maar ook de notities, de schetsen en de tussenstappen van de assistent doorzoekt.

Hoe werkt VeriTrail? (De Analogie van de Spoorzoeker)

VeriTrail werkt als een slimme spoorzoeker die een pad volgt door een doolhof van informatie:

  1. Het Doel: Je hebt een bewering (bijvoorbeeld: "Bedrijf X heeft twee bedrijven overgenomen").
  2. De Terugwaartse Reis: In plaats van te kijken of het antwoord klopt, kijkt VeriTrail eerst naar het antwoord en vraagt: "Welke stukjes tekst in het originele document ondersteunen dit?"
  3. De Tussenstappen: Als het antwoord niet direct uit het originele document komt, kijkt VeriTrail naar de tussenstappen. "Ah, de assistent heeft eerst een samenvatting gemaakt van hoofdstuk 1, en toen een samenvatting van hoofdstuk 2. Waar haalde hij die info vandaan?"
  4. Het Stoppen: Als VeriTrail merkt dat de assistent een feit verzonnen heeft in een tussenstap (bijvoorbeeld in de samenvatting van hoofdstuk 2), stopt het proces daar. Het zegt dan niet alleen "Dit is fout", maar ook: "De fout zit in de samenvatting van hoofdstuk 2, niet in het originele document."

Dit is cruciaal. Als je weet waar de fout zit, kun je die specifieke stap verbeteren, in plaats van de hele assistent te ontslaan.

Twee Nieuwe Spelregels (De Datasets)

Om te bewijzen dat hun methode werkt, hebben de onderzoekers twee nieuwe "speelvelden" gecreëerd:

  • FABLES+: Een verzameling van hele dikke boeken die stap voor stap samengevat zijn.
  • DiverseSumm+: Een verzameling van nieuwsverhalen over complexe onderwerpen (zoals de oorlog in Oekraïne) die door meerdere artikelen heen worden samengevoegd.

Het unieke aan deze datasets is dat ze alle tussenstappen bewaren. Normaal gesproken gooi je die weg, maar VeriTrail heeft ze nodig om de sporen te volgen.

Waarom is dit zo belangrijk?

Stel je voor dat een advocaat een AI gebruikt om een rechtszaak voor te bereiden.

  • Zonder VeriTrail: De AI schrijft een brief met een foutieve datum. De advocaat ziet de fout, maar weet niet of de AI de datum verkeerd heeft gelezen uit het dossier, of dat de AI hem zelf heeft verzonnen.
  • Met VeriTrail: De AI zegt: "Ik heb deze datum gevonden in de samenvatting van getuige B." De advocaat kan dan direct naar die samenvatting kijken en zien: "Ah, de samenvatting was fout, het originele dossier was juist!"

Samenvatting in één zin

VeriTrail is als een GPS voor feiten: het vertelt je niet alleen of je op het juiste adres bent (het eindantwoord), maar het toont je ook precies welke afslag je hebt gemist of welke verkeerde weg je bent ingeslagen tijdens de reis.

Dankzij deze methode kunnen we AI-systemen die werken in complexe stappen (zoals het samenvatten van boeken of het analyseren van honderden nieuwsartikelen) veiliger en betrouwbaarder maken, omdat we precies weten waar de fouten ontstaan en hoe we ze kunnen oplossen.