LLMs Uncertainty Quantification via Adaptive… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Hamed Karimi, Vaishali Meyappan, Reza Samavi

Veröffentlicht 2026-05-07

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Hamed Karimi, Vaishali Meyappan, Reza Samavi

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie fragen eine sehr selbstbewusste, gut informierte Bibliothekarin (die KI) eine Frage. Die Bibliothekarin könnte mit absoluter Gewissheit antworten, selbst wenn sie völlig im Unrecht ist. Dies ist das „Übervertrauens"-Problem, das die Arbeit adressiert: Große Sprachmodelle (LLMs) halluzinieren oft (erfinden Dinge), während sie zu 100 % sicher klingen.

Die Arbeit stellt ein neues Sicherheitssystem namens ACSE (Adaptive Conformal Semantic Entropy) vor. Betrachten Sie ACSE als einen „Realitätscheck"-Mechanismus, der nicht nur hört, was die Bibliothekarin sagt, sondern prüft, ob die Bibliothekarin tatsächlich sicher bezüglich der Bedeutung ihrer Antwort ist.

So funktioniert es, aufgeschlüsselt in einfache Schritte:

1. Das Problem: Die „Synonym-Falle"

Aktuelle Sicherheitsprüfungen betrachten oft die spezifischen Wörter, die die KI wählt. Wenn die KI 70 % der Zeit sagt „Die Hauptstadt ist Sydney" und 30 % der Zeit „Die Hauptstadt ist Canberra", könnte ein einfacher Wortzähler denken: „Oh, sie ist ziemlich sicher, dass es Sydney ist!" und grünes Licht geben.

Aber hier liegt der Haken: Die KI könnte bei der falschen Antwort (Sydney) selbstbewusst sein, während sie bei der richtigen Antwort (Canberra) unsicher ist. Oder sie könnte fünf verschiedene Antworten geben, die alle dasselbe bedeuten (z. B. „Sydney", „Syd", „Die große Hafenstadt"). Ein einfacher Wortzähler wird durch diese Variationen verwirrt und denkt, die KI sei unsicher, obwohl sie eigentlich nur gesprächig ist.

2. Die Lösung: Die „Gruppenumarmung"-Methode (Semantisches Clustering)

ACSE verändert das Spiel, indem es die KI auffordert, dieselbe Frage zehn Mal zu beantworten.

Schritt A: Es nimmt diese zehn Antworten und übersetzt sie in „Bedeutungskarten" (Embeddings).
Schritt B: Es gruppiert diese Antworten zu „Nachbarschaften" basierend auf ihrer Bedeutung, nicht auf ihrer Rechtschreibung.
- Beispiel: Wenn 9 Antworten „Sydney" sagen und 1 „Canberra", bilden sie zwei distincte Nachbarschaften.
- Beispiel: Wenn 5 Antworten „Sydney" sagen und 5 „Die Hauptstadt ist Sydney", werden sie alle in dieselbe Nachbarschaft „umarmt", weil sie dasselbe bedeuten.

3. Der „Sprödigkeits"-Detektor (Adaptive Aufblähung)

Dies ist das Geheimnis der Arbeit. Nur weil die KI bei einer Antwort (wie „Sydney") übereinstimmt, bedeutet das nicht, dass diese Antwort sicher ist.

Die Analogie: Stellen Sie sich eine Gruppe von Menschen vor, die sich auf eine Richtung einigen. Wenn sie alle in einem engen, festen Kreis stehen, ist das ein starker Konsens. Aber wenn sie sich auf eine Richtung einigen, während sie auf einem wackeligen, zitternden Boden stehen, ist das ein spröder Konsens.
ACSE sucht nach diesem „Wackeln". Es prüft, ob die Gruppe, die sich auf „Sydney" einigt, tatsächlich wackelig ist (vielleicht sind die Antworten leicht unterschiedlich oder die Gruppe ist sehr klein).
Wenn die Gruppe „spröde" ist, bläht ACSE den Unsicherheitswert auf. Es sagt im Wesentlichen: „Obwohl ihr alle übereinstimmt, ist eure Übereinstimmung wackelig, also werde ich dies als Hochrisikosituation behandeln."

4. Das „Sicherheitsnetz" (Konforme Kalibrierung)

Schließlich muss das System genau wissen, wann es „Ich weiß es nicht" sagen (abstain) soll und wann es eine Antwort geben muss.

Die Autoren verwenden ein statistisches „Sicherheitsnetz" namens Konforme Vorhersage.
Sie testen das System zunächst an einem Satz von Übungsfragen. Sie ermitteln eine „Abbruchgrenze".
Die Regel: Wenn der „Wackelwert" (Unsicherheit) unter der Linie liegt, antwortet die KI. Liegt er darüber, bleibt die KI still.
Die Garantie: Dies ist keine Vermutung. Die Mathematik garantiert, dass, wenn Sie das Sicherheitsnetz so einstellen, dass es 90 % der Fehler fängt, es mindestens 90 % der Fehler fängt, egal was die KI tut. Es verspricht, dass die Fehler, die Sie tatsächlich sehen, selten sein werden.

Die Ergebnisse: Warum es wichtig ist

Die Arbeit testete dies an verschiedenen KI-Modellen und Datensätzen (wie Quizfragen).

Der Wettbewerb: Alte Methoden (wie das Zählen von Wortwahrscheinlichkeiten) waren wie ein wackeliger Kompass. Sie gaben oft falschen Antworten ein hohes Vertrauen.
Der Gewinner: ACSE agierte wie ein intelligenter Navigator. Bei einem Quiztest identifizierte es falsche Antworten zu 88 % korrekt (AUROC 0,88), während die nächstbeste Methode nur 80 % erreichte.
Die Sicherheit: Es verhinderte erfolgreich, dass die KI in hochriskanten Situationen falsche Antworten gab, und zwar viel häufiger als frühere Methoden, ohne so vorsichtig zu sein, dass sie gar keine Antworten mehr gab.

In Kürze

ACSE ist ein System, das eine KI auffordert, eine Frage mehrfach zu beantworten, die Antworten nach Bedeutung und nicht nach Wörtern gruppiert, prüft, ob die Gruppe auf festem oder wackeligem Boden steht, und ein mathematisch bewährtes Sicherheitsnetz verwendet, um zu entscheiden, wann es sich zu Wort meldet und wann es still bleibt. Es stellt sicher, dass die KI, wenn sie spricht, nicht nur selbstbewusst, sondern tatsächlich zuverlässig ist.

Each language version is independently generated for its own context, not a direct translation.

Technischer Zusammenfassung: Adaptive Konforme Semantische Entropie (ACSE)

Problemstellung
Large Language Models (LLMs) zeigen häufig eine übermäßige Selbstsicherheit, insbesondere bei der Generierung von Halluzinationen, was erhebliche Risiken für den Einsatz in sicherheitskritischen Bereichen wie Gesundheitswesen, Recht und wissenschaftlicher Forschung mit sich bringt. Bestehende Methoden zur Unsicherheitsquantifizierung (UQ) stützen sich primär auf Token-Ebene-Signale, wie die Entropie des nächsten Tokens oder die Log-Likelihood von Sequenzen. Diese Ansätze erfassen keine semantische Varianz; sie weisen oft hohen Outputs eine hohe Konfidenz zu, die lexikalisch vielfältig, aber semantisch inkonsistent oder falsch sind. Darüber hinaus basieren neuere Methoden auf Semantikebene, wie die Semantische Entropie (SE), auf einer harten Clusterbildung, die durch das Ignorieren überlappender semantischer Regionen zu instabilen Schätzungen führen kann. Andere konforme Ansätze bieten zwar statistische Garantien, behandeln Unsicherheit jedoch oft als skalares Signal, was sie anfällig für „falsche-Konsens"-Fallstricke macht, bei denen lexikalisch konsistente, aber faktisch falsche Cluster Konfidenzschwellen erfüllen.

Methodik
Die Arbeit schlägt die Adaptive Konforme Semantische Entropie (ACSE) vor, ein modellunabhängiges Framework zur Schätzung der Unsicherheit auf Promp-Ebene durch Messung der semantischen Dispersion in LLM-Ausgaben. Die Methodik läuft in drei Hauptphasen ab:

Semantische Einbettung und weiche Clusterbildung:
Für einen gegebenen Prompt generiert das Modell $n$ diverse Antworten unter Verwendung von Nucleus-Sampling. Diese Antworten werden mithilfe eines Satzkodierers in einen kontinuierlichen semantischen Vektorraum eingebettet. Anstelle einer harten Clusterbildung setzt ACSE auf Hierarchische Agglomerative Clusterbildung (HAC) mit kosinusbasiertem Abstand zur Bildung semantischer Gruppen, gefolgt von weichen Clusterzuordnungen. Dies ermöglicht es Antworten, probabilistisch mehreren Clustern anzugehören und Signale semantischer Mehrdeutigkeit zu bewahren. Ein Basisunsicherheitswert, $u(x)$ , wird aus der normalisierten Entropie der resultierenden Clusterverteilung abgeleitet.
Adaptive Unsicherheitsaufblähung:
Um strukturelle Brüchigkeit in Clustern zu adressieren (z. B. schwache Unterstützung dominanter Cluster oder hohe interne Diversität), führt ACSE einen angepassten Unsicherheitswert, $\hat{u}(x)$ , ein. Dieser Wert bläht die Basis-Semantische Entropie basierend auf fünf Robustheitsmerkmalen auf Promp-Ebene auf:
- Semantische Entropie: Misst Multimodalität.
- Schwerpunktabstand: Bewertet die geometrische Unterstützung der dominanten Antwort.
- Dispersion des dominanten Clusters: Quantifiziert die interne Kohärenz.
- Größe des dominanten Clusters: Bestraft einen fragilen Konsens, der von wenigen Stützproben getragen wird.
- Abstand zum Schwellenwert: Unterdrückt ungerechtfertigte Konfidenz in Regimen niedriger Unsicherheit.
  Diese Merkmale werden zu einem „Brüchigkeitsmaß" $B(x)$ aggregiert, das einen Aufblähungsfaktor $\lambda(x)$ skaliert. Der endgültige Wert $\hat{u}(x)$ ist eine beschränkte, monotone Transformation, die die Unsicherheit erhöht, wenn Clusterstrukturen auf Risiken hinweisen.
Konforme Kalibrierung:
Die angepassten Werte werden unter Verwendung von Konformer Vorhersage (CP) auf einem zurückgehaltenen Satz von Prompts kalibriert. Dies etabliert eine Entscheidungsregel mit endlichen Stichproben-garantierten, verteilungsfreien Garantien. Das System erfüllt zwei Funktionen:
- Entscheidung auf Promp-Ebene: Bestimmt, ob eine Antwort akzeptiert oder verworfen wird, basierend auf einem Schwellenwert, und stellt sicher, dass die Fehlerrate unter den akzeptierten Antworten unterhalb einer vom Benutzer spezifizierten Toleranz $\alpha$ bleibt.
- Vorhersagemengen auf Antwortebene: Konstruiert eine Menge von Stichprobenantworten, die konforme Abdeckung erfüllen, und unterstützt die Entscheidungsfindung des Benutzers durch die Identifizierung semantisch repräsentativer und konformer Ausgaben.

Hauptbeiträge

ACSE-Framework: Eine neuartige Methode zur Schätzung entropiebasierter Unsicherheit auf semantischer Ebene, die über Token-Ebene-Signale hinausgeht, um Dispersion in der Bedeutung zu erfassen.
Adaptiver Aufblähungsmechanismus: Ein angepasster Unsicherheitswert, der Merkmale der Clusterrobustheit nutzt, um die semantische Unsicherheit adaptiv aufzublähen, semantisch mehrdeutige Antwortsemantik explizit bestraft und Halluzinationen mindert.
Konforme Garantien: Eine nachträgliche Kalibrierungsphase, die Schwellenwerte sowohl für die Verweigerung auf Promp-Ebene als auch für Vorhersagemengen auf Antwortebene lernt und formale Garantien für Fehlerraten bietet.
Empirische Validierung: Umfassende Experimente, die eine überlegene Diskriminierung und Kalibrierung im Vergleich zu State-of-the-Art-Baselines nachweisen.

Experimentelle Ergebnisse
Die Autoren bewerteten ACSE über fünf Benchmarks (TriviaQA, CoQA, Natural Questions, TruthfulQA und MMLU) unter Verwendung verschiedener LLM-Architekturen (Mistral-7B, LLaMA-2, Falcon, Qwen).

Halluzinationserkennung: ACSE schnitt in Diskriminierungsmetriken konsistent besser ab als die Baselines. Auf dem TriviaQA-Datensatz erreichte ACSE eine AUROC von 0,88 und übertraf damit deutlich die Token-Entropie-Baseline (0,65) und die Konforme Verweigerungspolitik (CAP) (0,80).
Sicherheitsmetriken: ACSE zeigte bei hohen Recall-Schwellenwerten niedrigere False-Positive-Raten (FPR). Beispielsweise reduzierte ACSE bei Falcon-7B den FPR@95 von 0,48 (CAP) auf 0,31, was einer relativen Abnahme der akzeptierten Halluzinationen um 35,4 % entspricht.
Konforme Garantien: ACSE hielt sich strikt an die vom Benutzer spezifizierten Abdeckungsniveaus ( $\alpha$ ), während sie gleichzeitig höhere Akzeptanzraten als konkurrierende Methoden beibehielt. Bei $\alpha=0,10$ erreichte ACSE eine Akzeptanzrate von 75,8 % im Vergleich zu 65,4 % für CAP, mit kleineren durchschnittlichen Vorhersagemengengrößen (1,07 vs. 1,32) und überlegener Kalibrierungsstabilität (SSCV).
Unsicherheitsquantifizierung: Die visuelle Analyse bestätigte, dass ACSE korrekte Antworten effektiv von Halluzinationen trennt und Halluzinationen eine hohe Unsicherheit zuweist, selbst wenn Baseline-Methoden (wie SE oder Token-Entropie) eine hohe Konfidenz zeigten.

Bedeutung
Die Arbeit behauptet, dass ACSE eine robuste Lösung für den zuverlässigen Einsatz von LLMs in sicherheitskritischen Bereichen bietet, indem sie die spezifischen Fehlermodi bestehender UQ-Methoden adressiert: die Unfähigkeit, oberflächliche lexikalische Variation von echter semantischer Mehrdeutigkeit zu unterscheiden, und die Anfälligkeit für falsche-Konsens-Fallstricke. Durch die Kombination von semantischer Dispersionanalyse mit adaptiver Aufblähung und konformen Garantien bietet ACSE einen statistisch rigorosen Mechanismus zur Erkennung von Halluzinationen und zur Kontrolle von Fehlerraten, ohne ein erneutes Training des Modells zu erfordern. Die Autoren gehen davon aus, dass die durch Sampling und Nachverarbeitung entstehenden Rechenkosten in hochriskanten Anwendungen, in denen die Zuverlässigkeit des Modells von höchster Bedeutung ist, gerechtfertigt sind.

LLMs Uncertainty Quantification via Adaptive Conformal Semantic Entropy