VeriTrail: Closed-Domain Hallucination Detection with Traceability

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du beauftragst einen sehr talentierten, aber manchmal etwas träumerischen Koch (das ist die Künstliche Intelligenz), ein Gericht nach einem bestimmten Kochbuch (den Quelldokumenten) zu kochen.

Das Problem: Manchmal erfindet der Koch Zutaten, die gar nicht im Buch stehen. Er sagt: „Ich habe hier eine spezielle Zimt-Soße verwendet", obwohl im Buch nur von Sahne die Rede ist. In der KI-Welt nennen wir das Halluzination.

Bisher gab es nur eine Art, das zu überprüfen: Man schaut sich das fertige Gericht an und fragt: „Sieht das nach dem Kochbuch aus?" Das funktioniert okay, wenn der Koch nur einen einzigen Schritt macht. Aber was ist, wenn der Koch ein riesiges Menü kocht, bei dem er erst Suppe macht, dann den Hauptgang, dann den Salat und alles miteinander vermischt? Wenn am Ende etwas schmeckt, wo genau hat er angefangen zu lügen? War es schon in der Suppe? Oder erst beim Salat?

Das ist das Problem, das die Forscher mit VeriTrail lösen wollen.

Hier ist die Erklärung des Papers in einfachen Worten:

1. Das Problem: Der komplexe Kochprozess

Früher haben KIs oft nur einen Schritt gemacht (einen Text direkt zusammenfassen). Heute machen sie oft viele Schritte hintereinander (z. B. erst Teile eines Buches zusammenfassen, dann diese Teile wieder zusammenfassen, dann eine Frage beantworten).

Das Risiko: Bei jedem Schritt kann der KI-Koch etwas erfinden. Wenn er am Ende lügt, ist es schwer zu sagen, wann genau er angefangen hat zu lügen.
Die alte Lösung: Man schaut nur auf das fertige Gericht. Das reicht nicht, weil man nicht weiß, ob der Fehler in der Suppe oder im Salat lag.

2. Die Lösung: VeriTrail (Der „Spurensucher")

VeriTrail ist wie ein super-detaillierter Inspektor, der nicht nur das fertige Gericht prüft, sondern den ganzen Weg des Kochs verfolgt.

Stell dir den Prozess wie eine Fahrradtour vor:

Der Startpunkt: Das Kochbuch (die Originaldokumente).
Die Zwischenstopps: Der Koch macht an verschiedenen Orten Rast und schreibt Notizen (die „Zwischenergebnisse").
Das Ziel: Das fertige Gericht (die Antwort der KI).

VeriTrail fährt nicht nur zum Ziel. Es fährt rückwärts vom Ziel zurück zum Start. Es prüft jeden Zwischenstopp:

„Hast du hier eine Zimt-Soße erwähnt?"
„Wenn ja, hast du das aus dem Kochbuch oder aus deinem Kopf?"
„Wenn es aus dem Kochbuch kommt, wo genau steht es?"

3. Wie funktioniert das genau? (Die drei Schritte)

Schritt 1: Den Satz zerlegen (Die Zutaten trennen)
Der KI-Koch sagt vielleicht: „Ich habe zwei Äpfel und eine Birne verwendet." VeriTrail zerlegt das: „Okay, prüfen wir erst die Äpfel, dann die Birne."
Schritt 2: Die Spur suchen (Die Beweise finden)
VeriTrail schaut sich die Notizen des Kochs an. Es sucht nach Sätzen, die beweisen, dass die Äpfel wirklich im Buch stehen. Es markiert genau die Sätze im Buch, die als Beweis dienen.
Schritt 3: Das Urteil fällen
Wenn die Beweise ausreichen, ist alles gut. Wenn nicht, geht VeriTrail einen Schritt zurück zur vorherigen Notiz und prüft dort.
- Der Clou: Wenn VeriTrail merkt, dass etwas nicht stimmt, hört es nicht sofort auf. Es sucht weiter zurück, bis es den genauen Moment findet, an dem die Erfindung passiert ist.

4. Warum ist das so wichtig? (Die Vorteile)

Stell dir vor, du bist ein Arzt, der eine KI nutzt, um medizinische Berichte zu lesen.

Ohne VeriTrail: Die KI sagt: „Der Patient hat eine Allergie gegen Penicillin." Du weißt nicht, ob das stimmt. Du traust es ihr nicht.
Mit VeriTrail: Die KI sagt: „Der Patient hat eine Allergie gegen Penicillin." Und VeriTrail zeigt dir den Weg: „Siehe Seite 4, Absatz 2 des Originalberichts. Dort steht es schwarz auf weiß."
- Wenn es stimmt: Du hast eine Beweiskette (Provenance). Du kannst dem Ergebnis vertrauen.
- Wenn es falsch ist: VeriTrail sagt dir: „Moment, der Originalbericht sagt nichts davon. Aber in der Zwischennote des Kochs (Schritt 3) hat er das erfinden." Du weißt also genau, wo der Fehler lag, und kannst den Prozess korrigieren.

5. Die neuen Datenbanken (Der neue Kochkurs)

Die Forscher haben auch zwei neue „Kochbücher" erstellt (FABLES+ und DiverseSumm+), in denen sie nicht nur das fertige Gericht, sondern alle Notizen und Zwischenstufen des Kochs gespeichert haben. Das ist wie ein Kochkurs, bei dem man nicht nur das fertige Essen sieht, sondern den ganzen Film des Kochens. Damit haben sie getestet, ob VeriTrail wirklich besser ist als andere Methoden – und es ist es!

Zusammenfassung in einem Satz

VeriTrail ist wie ein Detektiv für KI-Antworten: Es schaut nicht nur an, ob die Antwort stimmt, sondern zeigt dir genau, woher die Information kommt und in welchem Schritt der KI-Prozess eventuell gelogen hat. Das macht KI-Systeme transparenter und vertrauenswürdiger, besonders wenn sie komplexe Aufgaben in vielen Schritten lösen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Sprachmodelle (LLMs) neigen dazu, auch bei Anweisungen, sich strikt an Quellmaterial zu halten, unbegründete Inhalte zu generieren. Dieses Phänomen wird als „Closed-Domain Hallucination" (Halluzination im geschlossenen Bereich) bezeichnet.

Das Problem verschärft sich bei Prozessen mit mehreren generativen Schritten (Multi-Generative-Step, MGS) im Vergleich zu Prozessen mit einem einzigen Schritt (Single-Generative-Step, SGS).

Herausforderung: Bei MGS-Prozessen (z. B. hierarchische Zusammenfassungen oder GraphRAG) werden Zwischenergebnisse als Eingabe für nachfolgende Schritte verwendet. Fehler können sich dabei akkumulieren und fortsetzen.
Limitation bestehender Methoden: Herkömmliche Methoden zur Glaubwürdigkeitsprüfung (Faithfulness Evaluation) prüfen meist nur das Endergebnis gegen die Quelle. Sie bieten keine Traceability (Rückverfolgbarkeit). Das bedeutet, sie können zwar feststellen, dass eine Halluzination vorliegt, aber nicht, wo sie eingeführt wurde (Fehlerlokalisation) oder wie sie durch die Zwischenschritte entstanden ist (Provenienz).
Komplexität: Ein einfacher Ansatz, das Endergebnis mit jedem einzelnen Zwischenergebnis zu vergleichen, ist bei komplexen Prozessen (mit z. B. über 100.000 Zwischenergebnissen) rechnerisch zu teuer und versagt oft, wenn das Endergebnis eine Synthese mehrerer Zwischenschritte ist.

2. Methodik: VeriTrail

Die Autoren stellen VeriTrail vor, die erste Methode zur Erkennung von Closed-Domain-Halluzinationen, die Traceability für sowohl SGS- als auch MGS-Prozesse bietet.

Konzeptueller Rahmen

Der generative Prozess wird als gerichteter azyklischer Graph (DAG) $G = (V, E)$ modelliert:

Knoten ( $V$ ): Repräsentieren Textspannen (Quelldokumente, Zwischenergebnisse oder das Endergebnis).
Kanten ( $E$ ): Zeigen die Eingabe-Ausgabe-Beziehung an (welcher Knoten wurde zur Erzeugung eines anderen verwendet).
Stufen (Stages): Knoten werden Stufen zugeordnet, die ihren Platz im generativen Prozess widerspiegeln (Wurzelknoten = Quelle, Terminalknoten = Endergebnis).

Der VeriTrail-Algorithmus

VeriTrail prüft faktische Behauptungen (Claims), die aus dem Endergebnis extrahiert wurden, iterativ und rückwärts durch den DAG:

Sub-Claim Dekomposition: Komplexe Behauptungen werden in einfachere, überprüfbare Unteraussagen zerlegt.
Evidenz-Auswahl (Evidence Selection):
- Das System identifiziert die Quellknoten des aktuellen zu prüfenden Knotens.
- Ein LLM wird aufgefordert, Sätze aus diesen Quellen auszuwählen, die die Wahrheit oder Falschheit der Behauptung (oder ihrer Unteraussagen) stark implizieren.
- Nur Sätze mit eindeutigen IDs werden verwendet, um sicherzustellen, dass keine neuen Halluzinationen in die Evidenzkette eingeführt werden.
Urteilsbildung (Verdict Generation):
- Basierend auf der ausgewählten Evidenz wird ein Urteil gefällt: „Fully Supported" (Vollständig unterstützt), „Not Fully Supported" (Nicht vollständig unterstützt) oder „Inconclusive" (Unentschieden).
- Um Kontextverlust zu vermeiden, werden bei nicht-wurzel-Knoten Zusammenfassungen der Evidenz verwendet, bei Wurzelknoten der volle Text.
Kandidaten-Knoten-Auswahl & Termination:
- Rückwärtsverfolgung: Wenn ein Urteil „Fully Supported" oder „Inconclusive" lautet, werden die Quellknoten der erfolgreich verifizierten Knoten für die nächste Runde ausgewählt.
- Fehlerlokalisierung: Wenn das Urteil „Not Fully Supported" lautet, werden die Quellknoten aller in dieser Runde verifizierten Knoten (nicht nur derer mit Evidenz) für die nächste Runde ausgewählt, um False Positives zu minimieren.
- Terminierung: Der Prozess stoppt, wenn nur noch bereits geprüfte Wurzelknoten übrig sind, keine Kandidaten mehr existieren, oder eine konfigurierbare Anzahl ( $q$ ) aufeinanderfolgender „Not Fully Supported"-Urteile erreicht wurde.

Traceability-Ausgabe

Für jede Behauptung liefert VeriTrail:

Das endgültige Urteil mit Begründung.
Eine Evidenzkette (Evidence Trail): Eine Pfadverfolgung von den ausgewählten Sätzen durch die Zwischenschritte bis zu den Quelldokumenten (Provenienz).
Fehlerlokalisierung: Bei „Not Fully Supported" wird die spezifische Stufe (Stage) identifiziert, in der die nicht unterstützte Inhalte wahrscheinlich eingeführt wurden.

3. Wichtige Beiträge

VeriTrail: Eine neue Methode, die nicht nur die Glaubwürdigkeit prüft, sondern auch die Herkunft von Informationen und die Lokalisierung von Fehlern in komplexen MGS-Prozessen ermöglicht.
Neue Datensätze (FABLES+ und DiverseSumm+):
- Dies sind die ersten Datensätze, die alle Zwischenergebnisse von MGS-Prozessen enthalten.
- FABLES+: Basierend auf Buchzusammenfassungen (hierarchische Zusammenfassung), enthält 22 Bücher mit durchschnittlich 118k Tokens und 734 annotierten Claims.
- DiverseSumm+: Basierend auf Nachrichtensammlungen (GraphRAG), enthält 1.479 Artikel und 560 annotierte Claims.
- Beide Datensätze enthalten menschliche Annotationen zur Glaubwürdigkeit der Endergebnisse.
Konzeptueller Rahmen: Eine einheitliche Darstellung generativer Prozesse als DAG für die Glaubwürdigkeitsbewertung.

4. Ergebnisse

Die Evaluation erfolgte auf den neuen Datensätzen gegen starke Baselines (NLI-Methoden wie AlignScore, INFUSE, RAG-Ansätze und direkte Verifikation mit Long-Context-Modellen).

Leistung: VeriTrail übertraf alle Baseline-Methoden in den Metriken Macro F1 und Balanced Accuracy auf beiden Datensätzen (FABLES+ und DiverseSumm+).
- Beispiel FABLES+: VeriTrail (q=1) erreichte 74,0% Macro F1 vs. 69,6% bei der besten Baseline (RAG).
- Beispiel DiverseSumm+: VeriTrail (q=1) erreichte 76,6% Macro F1 vs. 75,1% bei RAG.
Kosten-Nutzen: Trotz des höheren Rechenaufwands durch die iterative Verfolgung ist VeriTrail kosteneffizient. Die Kosten pro Claim liegen oft unter denen menschlicher Annotation und sind mit modernen RAG-Ansätzen vergleichbar, bieten aber deutlich mehr Transparenz.
Fehleranalyse: Die Analyse der Fehlerstufen zeigte, dass Halluzinationen in MGS-Prozessen nicht zufällig verteilt sind, sondern bestimmte Stufen (z. B. die Zusammenfassung von Community-Reports in GraphRAG) häufiger betroffen sind.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke im Bereich der LLM-Sicherheit: Die Notwendigkeit, nicht nur ob, sondern wo und wie Halluzinationen in komplexen, mehrstufigen Generierungsprozessen entstehen.

Transparenz: VeriTrail ermöglicht Nutzern (z. B. Ärzten, Anwälten), die Herkunft von Informationen zu verifizieren und Vertrauen in die Ausgabe aufzubauen.
Fehlerbehebung: Durch die Identifikation der Fehlerstufe können Entwickler gezielt die spezifischen Schritte im Workflow optimieren, die anfällig für Halluzinationen sind.
Reproduzierbarkeit: Die Veröffentlichung der Datensätze (FABLES+, DiverseSumm+) und des vollständigen Algorithmus fördert zukünftige Forschung zur Traceability in generativen KI-Systemen.

Zusammenfassend stellt VeriTrail einen Paradigmenwechsel dar: Weg von einer reinen Endpunkt-Validierung hin zu einer prozessbegleitenden, nachvollziehbaren und fehlerlokalisierten Bewertung von KI-Generierungen.