A Geometric Taxonomy of Hallucinations in LLMs

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein großes Sprachmodell (LLM) ist wie ein extrem gut ausgebildeter, aber manchmal etwas verwirrter Bibliothekar. Er kennt alle Bücher der Welt auswendig, kann fließend sprechen und klingt immer sehr selbstbewusst. Aber manchmal erfindet er Dinge, ignoriert das, was Sie ihm gerade gegeben haben, oder verwechselt Details.

Der Wissenschaftler Javier Marín hat in diesem Papier eine neue Art entwickelt, diese Fehler zu verstehen. Statt sie alle einfach nur „Halluzinationen" zu nennen, hat er sie wie einen geometrischen Fingerabdruck analysiert. Er schaut sich nicht den Text an, sondern die „Form" der Antwort im digitalen Raum (eine Art unsichtbare Landkarte, auf der Bedeutungen als Punkte liegen).

Hier ist die einfache Erklärung seiner drei Hauptkategorien und wie man sie erkennt:

1. Die drei Arten von „Fehlern" (Die Taxonomie)

Stellen Sie sich vor, Sie fragen den Bibliothekar: „Was steht in diesem Buch hier?" (Das Buch ist der Kontext).

Typ I: Der „Träge" (Unfaithfulness)
- Was passiert: Der Bibliothekar ignoriert das Buch, das Sie ihm in die Hand gedrückt haben. Er antwortet einfach aus seinem eigenen Gedächtnis, auch wenn das Buch etwas anderes sagt.
- Die geometrische Spur: Seine Antwort bleibt genau dort, wo Ihre Frage war. Er bewegt sich nicht in Richtung des Buches.
- Die Lösung (SGI): Ein neuer Messwert prüft: „Bewegt sich die Antwort näher zum Buch oder bleibt sie stur bei der Frage?" Wenn sie beim Buch ankommt, ist alles gut. Wenn nicht, hat der Bibliothekar gelogen.
Typ II: Der „Erfinder" (Confabulation)
- Was passiert: Der Bibliothekar erfindet komplett neue Dinge, die es gar nicht gibt. Er sagt: „Das Buch erwähnt den Fliegenden Elefanten von Berlin." (Es gibt keine solchen Elefanten).
- Die geometrische Spur: Seine Antwort macht einen Sprung in eine Richtung, in der es auf der Landkarte der „möglichen Antworten" gar keine Pfade gibt. Es ist wie ein Schritt ins Leere.
- Die Lösung (Γ - Gamma): Ein Messwert prüft die Richtung des Sprungs. Wenn der Sprung in eine „verbotene" Richtung führt (weg von der Realität), wird er sofort erkannt. Das funktioniert extrem gut, fast wie ein Detektiv, der merkt, dass jemand eine Geschichte erfindet.
Typ III: Der „Verwechslungs-Künstler" (Factual Error)
- Was passiert: Der Bibliothekar kennt das Thema, aber er hat einen Detailfehler. Er sagt: „Das Buch erwähnt den Fliegenden Elefanten von Berlin, der 1990 geboren wurde." (Der Elefant existiert nicht, aber selbst wenn er es täte, wäre das Datum falsch).
- Das Problem: Hier liegt die Antwort genau im richtigen Bereich der Landkarte. Sie sieht logisch aus, klingt plausibel und bewegt sich in die richtige Richtung.
- Die Erkenntnis: Diese Art von Fehler ist für die Mathematik der KI unsichtbar. Da die KI nur darauf trainiert ist, Wörter zu kombinieren, die oft zusammen vorkommen, kann sie nicht zwischen „wahr" und „falsch" unterscheiden, wenn beides grammatikalisch und logisch klingt.

2. Warum das wichtig ist (Die Analogie vom Kompass)

Stellen Sie sich vor, Sie nutzen einen Kompass, um zu navigieren.

Bei Typ I (Ignorieren) zeigt der Kompass in die falsche Richtung, weil er den Zielort (das Buch) nicht beachtet. Das ist leicht zu merken.
Bei Typ II (Erfinden) läuft der Kompass komplett verrückt und zeigt in eine Richtung, wo gar kein Land ist. Das ist auch leicht zu merken.
Bei Typ III (Falsches Detail) zeigt der Kompass perfekt in die richtige Richtung, aber Sie landen an einem Ort, der gar nicht existiert. Der Kompass kann das nicht merken, weil er nur die Richtung, nicht die Wahrheit anzeigt.

3. Was die Ergebnisse zeigen

Der Autor hat seine Methode an echten Daten getestet:

Super Erfolg bei Erfindungen: Bei menschlich geschriebenen Erfindungen (Typ II) funktionierte sein neuer „Gamma-Kompass" zu 96 % zuverlässig. Er war viel besser als alle bisherigen Methoden, die nur auf Textvergleich basierten.
Das Problem mit den Benchmarks: Viele Tests, die man bisher benutzte, um KI-Fehler zu finden, waren selbst fehlerhaft. Sie haben oft nur „Stil" gemessen (z. B. ob eine Antwort länger oder kürzer war), nicht den Inhalt.
Die harte Wahrheit: Bei Typ III (falsche Details in ansonsten korrekten Sätzen) gibt es derzeit keine mathematische Lösung. Man kann diese Fehler nicht durch reine Geometrie erkennen, weil sie für die KI „unsichtbar" sind.

Fazit für den Alltag

Dieses Papier sagt uns: Wir können KI-Halluzinationen nicht alle auf einmal „fixen".

Wir können gut erkennen, wenn die KI ignoriert, was wir ihr geben.
Wir können gut erkennen, wenn die KI komplett erfindet.
Aber wir können nicht automatisch erkennen, wenn die KI einen kleinen, falschen Fakt in eine ansonsten perfekte Geschichte einbaut. Dafür müssen wir Menschen aufpassen.

Es ist wie bei einem Navigationssystem: Es kann Ihnen sagen, wenn Sie auf einen Sack voller Sand fahren (Erfindung) oder wenn Sie die Abfahrt verpassen (Ignorieren). Aber es kann Ihnen nicht sagen, ob das Schild an der Kreuzung, das es Ihnen zeigt, wirklich wahr ist oder nur ein gefälschtes Schild ist.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „A Geometric Taxonomy of Hallucinations in LLMs" von Javier Marín (Stand März 2026) auf Deutsch.

1. Problemstellung

Der Begriff „Halluzination" bei Large Language Models (LLMs) fasst derzeit verschiedene Fehlermodi zusammen, die jedoch unterschiedliche Ursachen und Konsequenzen haben. Das Paper argumentiert, dass diese Fehler nicht einheitlich behandelt werden können, da sie im Embedding-Raum (dem Vektorraum, in dem Bedeutungen repräsentiert werden) unterschiedliche geometrische Signaturen aufweisen.

Die Hauptprobleme sind:

Verschmelzung unterschiedlicher Fehler: Modelle, die Kontext ignorieren, unterscheiden sich fundamental von denen, die nicht existierende Erfindungen machen, oder solchen, die falsche Details innerhalb korrekter Konzepte liefern.
Limitationen bestehender Benchmarks: Viele Evaluierungsdatensätze basieren auf künstlich generierten Lügen (Prompting zum „Lügen"), die die Geometrie echter faktischer Fehler nicht abbilden.
Fehlende Unterscheidung: Bestehende Methoden (wie NLI-Modelle oder Konsistenzchecks) scheitern oft daran, zwischen diesen Modi zu unterscheiden, insbesondere wenn die Antworten syntaktisch kohärent, aber faktisch falsch sind.

2. Methodik und Taxonomie

Das Paper schlägt eine geometrische Taxonomie vor, die Halluzinationen in drei Typen unterteilt, basierend auf ihrer Position und Bewegung auf der Einheits-Hypersphäre $S^{d-1}$ (dem Raum normalisierter Embeddings).

Die drei Halluzinations-Typen:

Typ I (Unfaithfulness / Treueverlust): Das Modell ignoriert den bereitgestellten Kontext und generiert aus dem parametrischen Gedächtnis. Die Antwort bleibt geometrisch näher an der Query als am Kontext.
Typ II (Confabulation / Erfindung): Das Modell erfindet nicht existierende Entitäten, Mechanismen oder Konzepte. Die Antwort weicht geometrisch von der „Mannigfaltigkeit plausibler Antworten" ab.
Typ III (Factual Error / Faktischer Fehler): Das Modell liefert falsche Details innerhalb eines korrekten konzeptionellen Rahmens. Da Embeddings Ko-Occurrence (Häufigkeit des gemeinsamen Auftretens) und nicht Wahrheitsbedingungen kodieren, ist dieser Fehler geometrisch von korrekten Antworten nicht unterscheidbar.

Entwickelte Detektionsmethoden:

Basierend auf dieser Taxonomie werden zwei neue Indizes eingeführt, die keine Zugriff auf die Modell-Interna (White-Box) oder multiple Generierungen benötigen:

Semantic Grounding Index (SGI) für Typ I:
- Misst das Verhältnis der geodätischen Distanzen zwischen Antwort ( $r$ ), Query ( $q$ ) und Kontext ( $c$ ).
- Formel: $SGI(r; q, c) = \theta(r, q) / \theta(r, c)$ .
- Ein $SGI > 1$ bedeutet, dass die Antwort zum Kontext „wandert" (gegroundet). Ein $SGI \le 1$ deutet auf Ignorieren des Kontexts hin.
Directional Grounding Index ( $\Gamma$ ) für Typ II:
- Misst die Richtung der Verschiebung (Displacement) von der Query zur Antwort im Embedding-Raum.
- Es wird ein Referenzvektor $\hat{\mu}$ (die mittlere Richtung von verifizierten, korrekten Paaren) gelernt.
- Formel: $\Gamma(q, r; R) = \hat{\delta}(q, r)^\top \hat{\mu}$ .
- Hohe Werte zeigen eine Ausrichtung mit der erwarteten „Grounding-Richtung" an. Niedrige oder negative Werte deuten auf eine anomale Verschiebung hin (Typ II).

3. Wichtige Ergebnisse

Detektion von Typ I (Unfaithfulness)

Auf dem HaluEval QA-Datensatz ( $n=10.000$ ) erreicht der SGI konsistente AUROC-Werte zwischen 0,776 und 0,824 über verschiedene Embedding-Architekturen hinweg.
Gegroundete Antworten zeigen einen Mittelwert von SGI > 1, während untreue Antworten bei SGI ≤ 1 liegen. Dies bestätigt, dass das Maß eine Eigenschaft des Textes und nicht nur ein Artefakt des Embeddings ist.

Detektion von Typ II (Confabulation)

Menschlich erstellte Confabulationen: Auf einem Datensatz von 142 menschlich verfassten Erfindungen (Finanzen, Medizin, Recht) erreicht $\Gamma$ eine AUROC von 0,958 ± 0,034.
Vergleich mit Baselines: $\Gamma$ übertrifft ein NLI-CrossEncoder-Modell (DeBERTa) signifikant ( $\Delta = 0,347$ ). Das NLI-Modell scheitert hier, da es nur auf oberflächliche Entailment-Beziehungen achtet, während $\Gamma$ die geometrische Abweichung von der Plausibilitäts-Mannigfaltigkeit erkennt.
Domain-Transfer:
- Bei menschlich erstellten Daten ist die Leistung domänenübergreifend robust (nur 3,8 % Degradation).
- Bei LLM-generierten Benchmarks (z. B. HaluEval) bricht die Leistung im Cross-Domain-Setting zusammen (AUROC $\approx$ 0,50), da die „Grounding-Richtung" zwischen Domänen orthogonal ist.
- Externe Validierung: Auf drei unabhängigen, menschlich annotierten Benchmarks (WikiBio, FELM, ExpertQA) zeigt $\Gamma$ domänenspezifische AUROC-Werte von 0,581 bis 0,695.
- Besonders bemerkenswert: Auf ExpertQA (Expertenwissen) übertrifft $\Gamma$ das NLI-Modell um $\Delta = 0,243$ . Das NLI-Modell liegt hier bei Zufall (0,452), da Expertenfehler oft syntaktisch korrekt, aber inhaltlich falsch sind.

Analyse der Typ III-Grenze (TruthfulQA)

Auf TruthfulQA zeigt ein Logistischer Regressor (LR) auf Roh-Embeddings eine hohe AUROC von 0,731.
Entlarvung des Signals: Eine detaillierte Analyse zeigt, dass dies kein echter Fakt-Check ist. Falsche Antworten sind geometrisch näher an der Query als wahre Antworten (Cosine-Similarity AUROC = 0,365, invertiert zum Erwarteten).
Ursache: Der Signal stammt aus einem Stil-Annotation-Confund. Wahre Antworten sind oft länger und vorsichtiger formuliert, während falsche Antworten kürzer und deklarativer sind. Die Länge erzeugt größere Verschiebungsvektoren, die der LR ausnutzt.
Sobald der Stil entfernt wird (durch $\Gamma$ -Kalibrierung), sinkt die Leistung auf Zufall (AUROC 0,535). Dies bestätigt die theoretische Grenze: Typ III-Fehler sind geometrisch unsichtbar, da Embeddings keine Wahrheit kodieren.

4. Signifikanz und Beiträge

Theoretische Klarheit: Das Paper etabliert, dass „Halluzination" kein einheitliches Phänomen ist. Es definiert klare Grenzen, was geometrisch detektierbar ist (Typ I und II) und was prinzipiell nicht ist (Typ III).
Neue Metriken: Die Einführung von SGI und $\Gamma$ bietet effiziente, black-box-freie Methoden zur Detektion, die nur einen einzigen Embedding-Aufruf benötigen.
Validierung der Grenzen: Die Arbeit zeigt, dass hohe Detektionsraten auf bestimmten Benchmarks (wie TruthfulQA) oft auf Artefakte (Stil, Länge) zurückzuführen sind und nicht auf echte Faktenprüfung.
Praktische Implikationen: Für Hochrisiko-Anwendungen (z. B. Medizin, Recht) zeigt sich, dass geometrische Methoden (insbesondere $\Gamma$ ) effektiver sind als traditionelle NLI-Modelle, solange es um das Erkennen von Erfindungen (Confabulation) geht. Für reine Detailfehler (Typ III) bleiben jedoch fundamentale Grenzen bestehen.

Fazit: Die Studie liefert eine empirisch fundierte, geometrische Taxonomie, die nicht nur neue Detektionswerkzeuge bereitstellt, sondern auch die theoretischen Grenzen dessen aufzeigt, was durch die Geometrie von Embeddings überhaupt erkannt werden kann. Sie warnt davor, Detektionsleistung auf stilistischen Artefakten zu basieren, und fordert eine differenzierte Betrachtung von Halluzinationstypen.