Between the Layers Lies the Truth: Uncertainty Estimation in LLMs Using Intra-Layer Local Information Scores

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der selbstsichere Lügner

Stell dir vor, du hast einen extrem intelligenten, aber manchmal etwas verwirrten Freund (das ist unser KI-Modell). Wenn du ihn nach etwas Fragst, antwortet er sofort, fließend und mit absoluter Überzeugung. Aber manchmal lügt er einfach nur, weil er sich nicht sicher ist, aber trotzdem klingen will, als wüsste er es.

Das ist das Problem: Die KI ist oft falsch, aber sehr zuversichtlich. In der echten Welt (z. B. bei medizinischen Ratschlägen oder juristischen Fragen) ist das gefährlich. Wir brauchen einen Weg, um zu erkennen: "Moment mal, dieser Freund ist sich gerade nicht sicher, auch wenn er so tut."

Bisherige Methoden waren wie zwei extreme Optionen:

Die oberflächliche Methode: Man schaut nur auf die Antwort. "Klingt das sicher?" Das ist schnell, aber trügerisch. Die KI kann auch eine Lüge sehr sicher klingen lassen.
Die Tiefen-Methode: Man öffnet den Kopf der KI, schaut sich Tausende von neuronalen Verbindungen an und versucht, Muster zu finden. Das ist sehr genau, aber extrem schwer zu verstehen und funktioniert oft nicht, wenn man die KI auf ein neues Thema anwendet.

Die Lösung: Der "Zwischen-Etagen"-Check

Die Forscher aus diesem Papier haben eine clevere, neue Idee: Sie schauen nicht auf die Antwort und nicht auf jedes einzelne Neuron, sondern auf das Gespräch zwischen den Etagen des Gebäudes.

Stell dir das KI-Modell wie ein Hochhaus mit vielen Etagen vor.

Jede Etage verarbeitet die Information ein bisschen weiter.
Wenn die KI eine Frage beantwortet, wandert die Information von der 1. Etage bis zur obersten Etage.

Die neue Methode (die "Signaturen"):
Die Forscher fragen sich: "Wie sehr stimmen die Etagen miteinander überein?"

Wenn die KI die Antwort wirklich weiß: Dann ist das Gespräch zwischen den Etagen harmonisch. Die 5. Etage sagt der 6. Etage etwas, und die 6. Etage ist sich völlig einig. Es gibt einen klaren, konsistenten "Fluss" der Information.
Wenn die KI lügt (halluziniert): Dann wird es chaotisch. Die unteren Etagen haben eine Idee, aber die oberen Etagen sind verwirrt oder widersprechen sich. Es gibt "Reibung" oder "Diskrepanzen" zwischen den Etagen.

Die Forscher berechnen genau diese Reibung (mathematisch gesehen eine "Divergenz") zwischen jeder Etage. Das Ergebnis ist eine Art Landkarte (eine Matrix), die zeigt, wie gut die Etagen zusammenarbeiten.

Warum ist das genial?

Es ist ein kleiner Rucksack, kein ganzer LKW:
Früher musste man riesige Datenmengen aus dem Inneren der KI speichern, um zu prüfen, ob sie lügt. Diese neue Methode komprimiert das ganze Gespräch zwischen den Etagen auf eine winzige, übersichtliche Landkarte. Das ist wie der Unterschied zwischen einem ganzen Archiv und einer einzigen, klaren Zusammenfassung.
Es funktioniert überall (Transferfähigkeit):
Das ist der wichtigste Teil. Wenn man einen Detektiv trainiert, um Lügen in Polizeifällen zu erkennen, funktioniert er oft schlecht bei Liebesromanen.
Aber diese neue "Etagen-Landkarte" erkennt das Muster der Unsicherheit. Es ist wie ein Metall-Detektor: Ob du Gold in der Wüste oder in einem Wald suchst, der Detektor piept immer, wenn es Metall gibt. Die Methode funktioniert also auch dann gut, wenn man sie auf eine völlig neue Aufgabe anwendet, für die sie nicht speziell trainiert wurde.
Es ist robust:
Selbst wenn man die KI "zusammenpresst" (was man macht, um sie auf schwächeren Computern laufen zu lassen), bleibt diese Methode stabil. Die Landkarte der Etagen-Interaktion bleibt auch dann noch lesbar.

Das Ergebnis

Die Forscher haben gezeigt, dass ihre Methode fast so gut ist wie die komplizierten, tiefen Analysen, wenn man sie auf bekannte Aufgaben anwendet. Aber sobald man die KI auf neue, unbekannte Aufgaben wirft, siegt diese neue Methode deutlich. Sie erkennt die Unsicherheit der KI besser, ist schneller zu berechnen und braucht weniger Speicherplatz.

Zusammengefasst:
Statt sich die ganze KI im Detail anzuschauen, schauen die Forscher nur darauf, wie gut die verschiedenen Teile der KI miteinander "im Einklang" sind. Wenn die Teile durcheinanderreden, wissen wir: Die KI ist sich nicht sicher, auch wenn sie es nicht zugibt. Das ist ein einfacher, aber sehr mächtiger Trick, um KI-Modelle sicherer zu machen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) neigen dazu, bei falschen Antworten oft ein hohes Vertrauen zu zeigen („Halluzinationen"). Dies untergräbt ihre Zuverlässigkeit in sicherheitskritischen oder wissensintensiven Anwendungen.

Bestehende Ansätze:
- Output-basierte Heuristiken (z. B. Entropie, Margin): Sind schnell, aber anfällig für Störungen durch Distribution Shifts und oberflächliche sprachliche Muster.
- Bayessche Methoden (z. B. MC Dropout, Ensembles): Sind ausdrucksstark, aber rechnerisch zu teuer für den Einsatz in großen Modellen.
- Probing (Untersuchung interner Repräsentationen): Zeigt, dass interne Signale mit der Korrektheit korrelieren. Allerdings sind die versteckten Zustände (Hidden States) hochdimensional, schwer zu interpretieren und oft schlecht auf neue Aufgaben oder Datensätze übertragbar.

Das Ziel ist eine kompakte, pro-Instanz-Methodik zur Unsicherheitsschätzung (Uncertainty Estimation, UE), die effizient ist, robust gegenüber Distribution Shifts agiert und interne Signale strukturiert nutzt, ohne die Modellarchitektur zu ändern.

2. Methodik

Der vorgeschlagene Ansatz extrahiert Unsicherheitssignale aus den statistischen Beziehungen zwischen den Schichten (Layers) des Transformers während eines einzigen Vorwärtsdurchlaufs (Single Forward Pass).

Schritte der Pipeline:

Transformation in Wahrscheinlichkeitsverteilungen:
Die Aktivierungen nach dem MLP-Block jeder Schicht $h^{(t)}_\ell$ werden mittels eines temperatur-skalierten Softmax über die Hidden-Dimension in Wahrscheinlichkeitsverteilungen $p^{(t)}_\ell$ umgewandelt. Dies macht die Vektoren für probabilistische Distanzmaße nutzbar.
Erstellung von Signaturkarten (Signature Maps):
Für relevante Token (z. B. Antwort-Token bei QA) wird eine $L \times L$ $L \times L$ -Matrix $S^{(t)}$ $S^{(t)}$ berechnet, wobei $L$ $L$ die Anzahl der Schichten ist.
- Der Eintrag $S^{(t)}_{ij}$ ist die gerichtete Kullback-Leibler-Divergenz (KL-Divergenz) zwischen den Verteilungen der Schicht $i$ und Schicht $j$ : $D_{KL}(p^{(t)}_i \parallel p^{(t)}_j)$ .
- Diese Matrix bildet ein „Fingerabdruck" (Signature) der Einigungs- oder Dissens-Muster zwischen allen Schichten.
- Optional wird eine Kontrast-Transformation angewendet, um den Dynamikbereich zu verbessern, bevor die Matrix zu einem Feature-Vektor $z$ geflatten wird.
Vorhersage der Unsicherheit:
Ein leichter Gradient-Boosted Decision Tree (LightGBM) wird auf diesen Signaturen trainiert, um die Wahrscheinlichkeit zu schätzen, dass die Antwort korrekt ist ( $q(x)$ ). Die Unsicherheit wird als $u(x) = 1 - q(x)$ definiert.

Theoretische Einordnung:
Der Ansatz liegt zwischen klassischem Probing und dem Information Bottleneck (IB)-Konzept. Im Gegensatz zu IB, das globale gegenseitige Information über viele Stichproben schätzt (was online unmöglich ist), nutzt dieser Ansatz lokale, schichtenübergreifende Strukturen, die informationstheoretisch fundiert, aber pro Instanz berechenbar sind.

3. Hauptbeiträge

Schichtenweise, informationstheoretische Signaturen: Einführung von gerichteten KL-Divergenz-Karten zwischen Schichten als strukturierte Repräsentation neuronaler Aktivierungen.
Kompakter Schätzer: Ein leichter Klassifikator (GBDT), der auf diesen Karten trainiert wird. Dies erfordert keine Architekturänderungen, keine zusätzlichen Vorwärtsdurchläufe und ist deutlich effizienter als Methoden, die auf rohen Hidden States basieren.
Umfassende Evaluierung: Tests an drei verschiedenen Modellen (Llama-3.1-8B, Qwen3-14B-Instruct, Mistral-7B-Instruct-v0.3) über ein breites Spektrum von Datensätzen (u. a. MMLU, TriviaQA, HotpotQA, IMDB).

4. Ergebnisse

Die Evaluation vergleicht die Methode („Signatures") mit dem etablierten Probing-Ansatz (basierend auf linearen Klassifikatoren auf Hidden States).

In-Distribution-Leistung (gleicher Trainings- und Testdatensatz):
- Die Methode erreicht eine nahezu gleichwertige Leistung wie Probing beim Erkennen von Fehlern (AUPRC), mit minimalen Unterschieden (max. -1,8 Prozentpunkte).
- Wichtig: Die Methode liefert besser kalibrierte Wahrscheinlichkeiten (höherer Brier-Score, bis zu +4,9 Punkte besser), was bedeutet, dass die geschätzte Unsicherheit die tatsächliche Fehlerwahrscheinlichkeit genauer widerspiegelt.
Cross-Dataset-Transfer (Generalisierung):
- Hier zeigt die Methode ihre Stärke. Sie übertrifft Probing konsistent, wenn auf einem Datensatz trainiert und auf einem anderen getestet wird.
- Die Verbesserungen liegen bei bis zu +2,86 AUPRC und +21,02 Brier-Punkten. Dies deutet darauf hin, dass die Schichten-Signaturen taskspezifische Überanpassungen vermeiden und allgemeinere Muster der „Korrektheit" erfassen.
Robustheit gegenüber Quantisierung (4-bit):
- Auch bei 4-Bit-Gewichtsquantisierung bleibt die Methode robust und übertrifft Probing im Durchschnitt um +1,94 AUPRC und +5,33 Brier-Punkte. Die strukturierten Signale sind also weniger anfällig für Rauschen durch Quantisierung als rohe Aktivierungen.
Komplexität:
- Die Darstellung der Signatur ist extrem kompakt ( $L^2$ Werte), während Probing oft auf hochdimensionalen Vektoren ( $L \times d_{hidden} \times T$ ) operiert. Dies ermöglicht eine effiziente Verarbeitung.

5. Bedeutung und Ausblick

Praktische Anwendbarkeit: Die Methode bietet einen leichten, effizienten Weg, um Unsicherheit in LLMs zu quantifizieren, was für Anwendungen wie Abstention (das Modell kann sich weigern zu antworten), Triage (Priorisierung von Antworten) und Calibration essenziell ist.
Interpretierbarkeit: Da die Features direkte Divergenzen zwischen Schichtpaaren sind, ermöglichen sie neue Einblicke in die Mechanik von LLMs. Die Analyse zeigt, dass verschiedene Modelle (z. B. Mistral vs. Qwen) unterschiedliche Muster der Informationsverarbeitung über die Schichttiefe hinweg aufweisen (z. B. lokale vs. globale Abhängigkeiten).
Zukunft: Die Autoren sehen Potenzial in der Kombination mit kausalen Interventionen, um von rein korrelativen Analysen zu einem mechanistischen Verständnis von Halluzinationen zu gelangen.

Fazit: Das Paper demonstriert, dass die Analyse der Interaktionen zwischen den Schichten eines LLMs eine überlegene Alternative zu reinen Output-Heuristiken oder rohem Probing darstellt. Es bietet eine robuste, skalierbare und interpretierbare Methode zur Unsicherheitsschätzung, die besonders bei Aufgabenwechseln und in ressourcenbeschränkten Umgebungen (Quantisierung) glänzt.

Between the Layers Lies the Truth: Uncertainty Estimation in LLMs Using Intra-Layer Local Information Scores

Das Problem: Der selbstsichere Lügner

Die Lösung: Der "Zwischen-Etagen"-Check

Warum ist das genial?

Das Ergebnis

1. Problemstellung

2. Methodik

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Beyond Hard Constraints: Budget-Conditioned Reachability For Safe Offline Reinforcement Learning

Efficient Embedding-based Synthetic Data Generation for Complex Reasoning Tasks

Scaling Attention via Feature Sparsity

Latent Semantic Manifolds in Large Language Models

Research on Individual Trait Clustering and Development Pathway Adaptation Based on the K-means Algorithm