A Geometric Taxonomy of Hallucinations in LLMs

Die Arbeit schlägt eine geometrische Taxonomie von Halluzinationen in LLMs vor, die Unwahrhaftigkeit, Konfabulation und faktische Fehler unterscheidet, und stellt darauf aufbauend neue Detektionsmethoden vor, die insbesondere bei Konfabulationen hohe Genauigkeit erreichen, während sie gleichzeitig methodische Grenzen bei der Erkennung faktischer Fehler aufzeigen.

Javier Marín

Veröffentlicht Tue, 10 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein großes Sprachmodell (LLM) ist wie ein extrem gut ausgebildeter, aber manchmal etwas verwirrter Bibliothekar. Er kennt alle Bücher der Welt auswendig, kann fließend sprechen und klingt immer sehr selbstbewusst. Aber manchmal erfindet er Dinge, ignoriert das, was Sie ihm gerade gegeben haben, oder verwechselt Details.

Der Wissenschaftler Javier Marín hat in diesem Papier eine neue Art entwickelt, diese Fehler zu verstehen. Statt sie alle einfach nur „Halluzinationen" zu nennen, hat er sie wie einen geometrischen Fingerabdruck analysiert. Er schaut sich nicht den Text an, sondern die „Form" der Antwort im digitalen Raum (eine Art unsichtbare Landkarte, auf der Bedeutungen als Punkte liegen).

Hier ist die einfache Erklärung seiner drei Hauptkategorien und wie man sie erkennt:

1. Die drei Arten von „Fehlern" (Die Taxonomie)

Stellen Sie sich vor, Sie fragen den Bibliothekar: „Was steht in diesem Buch hier?" (Das Buch ist der Kontext).

  • Typ I: Der „Träge" (Unfaithfulness)

    • Was passiert: Der Bibliothekar ignoriert das Buch, das Sie ihm in die Hand gedrückt haben. Er antwortet einfach aus seinem eigenen Gedächtnis, auch wenn das Buch etwas anderes sagt.
    • Die geometrische Spur: Seine Antwort bleibt genau dort, wo Ihre Frage war. Er bewegt sich nicht in Richtung des Buches.
    • Die Lösung (SGI): Ein neuer Messwert prüft: „Bewegt sich die Antwort näher zum Buch oder bleibt sie stur bei der Frage?" Wenn sie beim Buch ankommt, ist alles gut. Wenn nicht, hat der Bibliothekar gelogen.
  • Typ II: Der „Erfinder" (Confabulation)

    • Was passiert: Der Bibliothekar erfindet komplett neue Dinge, die es gar nicht gibt. Er sagt: „Das Buch erwähnt den Fliegenden Elefanten von Berlin." (Es gibt keine solchen Elefanten).
    • Die geometrische Spur: Seine Antwort macht einen Sprung in eine Richtung, in der es auf der Landkarte der „möglichen Antworten" gar keine Pfade gibt. Es ist wie ein Schritt ins Leere.
    • Die Lösung (Γ - Gamma): Ein Messwert prüft die Richtung des Sprungs. Wenn der Sprung in eine „verbotene" Richtung führt (weg von der Realität), wird er sofort erkannt. Das funktioniert extrem gut, fast wie ein Detektiv, der merkt, dass jemand eine Geschichte erfindet.
  • Typ III: Der „Verwechslungs-Künstler" (Factual Error)

    • Was passiert: Der Bibliothekar kennt das Thema, aber er hat einen Detailfehler. Er sagt: „Das Buch erwähnt den Fliegenden Elefanten von Berlin, der 1990 geboren wurde." (Der Elefant existiert nicht, aber selbst wenn er es täte, wäre das Datum falsch).
    • Das Problem: Hier liegt die Antwort genau im richtigen Bereich der Landkarte. Sie sieht logisch aus, klingt plausibel und bewegt sich in die richtige Richtung.
    • Die Erkenntnis: Diese Art von Fehler ist für die Mathematik der KI unsichtbar. Da die KI nur darauf trainiert ist, Wörter zu kombinieren, die oft zusammen vorkommen, kann sie nicht zwischen „wahr" und „falsch" unterscheiden, wenn beides grammatikalisch und logisch klingt.

2. Warum das wichtig ist (Die Analogie vom Kompass)

Stellen Sie sich vor, Sie nutzen einen Kompass, um zu navigieren.

  • Bei Typ I (Ignorieren) zeigt der Kompass in die falsche Richtung, weil er den Zielort (das Buch) nicht beachtet. Das ist leicht zu merken.
  • Bei Typ II (Erfinden) läuft der Kompass komplett verrückt und zeigt in eine Richtung, wo gar kein Land ist. Das ist auch leicht zu merken.
  • Bei Typ III (Falsches Detail) zeigt der Kompass perfekt in die richtige Richtung, aber Sie landen an einem Ort, der gar nicht existiert. Der Kompass kann das nicht merken, weil er nur die Richtung, nicht die Wahrheit anzeigt.

3. Was die Ergebnisse zeigen

Der Autor hat seine Methode an echten Daten getestet:

  • Super Erfolg bei Erfindungen: Bei menschlich geschriebenen Erfindungen (Typ II) funktionierte sein neuer „Gamma-Kompass" zu 96 % zuverlässig. Er war viel besser als alle bisherigen Methoden, die nur auf Textvergleich basierten.
  • Das Problem mit den Benchmarks: Viele Tests, die man bisher benutzte, um KI-Fehler zu finden, waren selbst fehlerhaft. Sie haben oft nur „Stil" gemessen (z. B. ob eine Antwort länger oder kürzer war), nicht den Inhalt.
  • Die harte Wahrheit: Bei Typ III (falsche Details in ansonsten korrekten Sätzen) gibt es derzeit keine mathematische Lösung. Man kann diese Fehler nicht durch reine Geometrie erkennen, weil sie für die KI „unsichtbar" sind.

Fazit für den Alltag

Dieses Papier sagt uns: Wir können KI-Halluzinationen nicht alle auf einmal „fixen".

  1. Wir können gut erkennen, wenn die KI ignoriert, was wir ihr geben.
  2. Wir können gut erkennen, wenn die KI komplett erfindet.
  3. Aber wir können nicht automatisch erkennen, wenn die KI einen kleinen, falschen Fakt in eine ansonsten perfekte Geschichte einbaut. Dafür müssen wir Menschen aufpassen.

Es ist wie bei einem Navigationssystem: Es kann Ihnen sagen, wenn Sie auf einen Sack voller Sand fahren (Erfindung) oder wenn Sie die Abfahrt verpassen (Ignorieren). Aber es kann Ihnen nicht sagen, ob das Schild an der Kreuzung, das es Ihnen zeigt, wirklich wahr ist oder nur ein gefälschtes Schild ist.