From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

Each language version is independently generated for its own context, not a direct translation.

🧠 Wenn KI lernt, ihre Unsicherheit zu spüren

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas selbstbewussten Freund. Er kann fast alles beantworten, von der Hauptstadt von Peru bis zur besten Pizza-Rezeptur. Aber das Tückische an ihm ist: Er sagt immer „Ich bin mir zu 100 % sicher", auch wenn er gerade völlig danebenliegt.

In der Welt der Künstlichen Intelligenz (KI) nennen wir das „Halluzinieren". Das ist ein großes Problem, besonders wenn es um wichtige Dinge geht – wie bei einem Arzt, der eine Diagnose stellt, oder einem Anwalt, der einen Fall prüft. Wenn die KI sich falsch ist, aber fest behauptet, sie hat recht, kann das katastrophal sein.

Die Forscher aus diesem Papier haben eine Lösung gefunden, um dieser KI beizubringen, ehrlich zu sein. Sie haben ihr beigebracht, nicht nur zu antworten, sondern auch zu sagen: „Hey, bei dieser Antwort bin ich mir nur zu 60 % sicher."

🛠️ Wie haben sie das gemacht? (Die drei Schritte)

Die Forscher haben einen dreistufigen Plan entwickelt, den man sich wie eine Schulung für einen Sportler vorstellen kann:

1. Der „Chaos-Messung" (Die Entropie)

Zuerst haben sie die KI gebeten, zu einer Frage viele verschiedene Antworten zu generieren.

Die Analogie: Stell dir vor, du fragst die KI: „Wie viele Beine hat eine Spinne?"
- Antwort A: „Acht."
- Antwort B: „Acht."
- Antwort C: „Acht."
- Ergebnis: Alle Antworten sind gleich. Die KI ist sich sicher. Das ist wie ein Orchester, das alle denselben Ton spielt.
- Aber: Wenn die KI fragt: „Wer hat den Mond zuerst betreten?" und sie bekommt 100 verschiedene, wirre Antworten (manche sagen „Neil Armstrong", andere „ein Alien", wieder andere „niemand"), dann ist das ein Chaos.
Die Forscher haben ein mathematisches Werkzeug (nennen wir es den „Chaos-Messer") benutzt, um zu sehen, wie sehr sich die Antworten voneinander unterscheiden. Viel Unterschied = Hohe Unsicherheit. Wenig Unterschied = Hohe Sicherheit.

2. Der „Übersetzer" (Die Kalibrierung)

Das Problem beim „Chaos-Messer" war: Er gab Zahlen aus, die niemand wirklich verstand (z. B. „Der Chaos-Wert ist 4,5"). Das ist wie ein Thermometer, das in „Grad Chaos" misst. Niemand weiß, ob 4,5 heiß oder kalt ist.

Die Lösung: Sie haben einen „Übersetzer" (Platt-Scaling) benutzt. Dieser hat die chaotischen Zahlen in echte Wahrscheinlichkeiten umgewandelt.
Aus dem „Chaos-Wert 4,5" wurde plötzlich: „Ich bin zu 80 % unsicher." Jetzt kann die KI und der Mensch das verstehen.

3. Der „Trainer" (Belohnungssystem)

Jetzt kommt der spannendste Teil. Die KI hat diese neuen, ehrlichen Unsicherheits-Werte noch nicht gelernt. Also haben die Forscher sie mit einem Belohnungssystem trainiert (Reinforcement Learning).

Die Analogie: Stell dir vor, du trainierst einen Hund.
- Wenn die KI eine Antwort gibt und sagt: „Ich bin mir zu 90 % sicher", und sie hat recht, bekommt sie einen Leckerbissen.
- Wenn sie sagt: „Ich bin mir zu 90 % sicher", aber sie hat falsch, bekommt sie eine „Schelte" (keinen Leckerbissen).
- Wenn sie sagt: „Ich bin mir nur zu 40 % sicher" und hat falsch, bekommt sie auch einen Leckerbissen! Denn sie war ehrlich über ihre Unsicherheit.
Durch dieses Training hat die KI gelernt: „Aha! Wenn ich mir nicht sicher bin, muss ich das auch sagen, sonst kriege ich keine Belohnung."

🚀 Warum ist das so toll?

Bisherige Methoden hatten zwei große Nachteile:

Sie waren zu langsam: Um die Unsicherheit zu berechnen, musste die KI die Frage 50-mal stellen und alle Antworten vergleichen. Das kostet viel Zeit und Rechenleistung.
Sie waren ungenau: Oft sagten sie zwar, was „wahrscheinlich" ist, aber die Zahlen passten nicht zur Realität.

Die neue Methode ist anders:

Schnell: Die KI muss die Frage nur einmal stellen. Sie hat das „Ehrlich-Sein" direkt in ihrem Gehirn verankert.
Präzise: Die Unsicherheitsangaben stimmen wirklich mit der Realität überein. Wenn die KI sagt „Ich bin zu 70 % unsicher", dann liegt sie in 70 % der Fälle falsch. Das nennt man kalibriert.

🌍 Was bedeutet das für uns?

Stell dir vor, du nutzt eine KI, um medizinische Ratschläge zu bekommen.

Ohne diese Methode: Die KI sagt: „Du hast eine Grippe." (Und ist sich zu 100 % sicher). Du gehst zum Arzt, aber es ist eigentlich etwas Ernstes.
Mit dieser Methode: Die KI sagt: „Es könnte eine Grippe sein, aber ich bin mir nur zu 40 % sicher. Bitte geh zum Arzt, um es abzuklären."

Das ist der Unterschied zwischen einem selbstbewussten Lügner und einem ehrlichen Assistenten. Die Forscher haben gezeigt, dass ihre Methode funktioniert, selbst bei Fragen, die sie in der Schulung noch nie gesehen haben. Die KI hat also nicht nur auswendig gelernt, sondern wirklich verstanden, wie man über Unsicherheit nachdenkt.

Kurz gesagt: Sie haben der KI beigebracht, nicht nur zu antworten, sondern auch zu wissen, wann sie besser die Klappe hält und sagt: „Ich weiß es nicht genau."

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) sind in Hochrisikobereichen wie Gesundheitswesen, Finanzen und Recht zunehmend im Einsatz. Ein zentrales Problem ist jedoch, dass LLMs oft selbstbewusste, aber falsche Antworten generieren („Halluzinationen"), ohne ihre Unsicherheit korrekt einzuschätzen.

Bisherige Ansätze zur Unsicherheitsquantifizierung leiden unter folgenden Mängeln:

Post-hoc Methoden: Viele Verfahren basieren auf Sampling (Erzeugung mehrerer Antworten) und statistischen Metriken wie der semantischen Entropie. Diese sind rechenintensiv und liefern oft nicht kalibrierte Werte (d.h. die angegebene Wahrscheinlichkeit entspricht nicht der tatsächlichen Trefferquote).
Verbalisierte Unsicherheit: Methoden, bei denen das Modell eine Konfidenz direkt ausspricht, sind effizienter, aber oft schlecht kalibriert, insbesondere bei kleineren Modellen.
Reinforcement Learning (RL): Neuere RL-Ansätze nutzen Belohnungsfunktionen, nutzen aber oft grobe Supervisionssignale oder sind rechnerisch zu aufwendig.

Das Ziel der Autoren ist es, ein Verfahren zu entwickeln, das LLMs trainiert, interpretierbare und kalibrierte Unsicherheitswerte direkt und effizient während der Inferenz zu liefern, ohne aufwändiges Sampling zur Laufzeit.

2. Methodik: Ein Drei-Phasen-Pipeline

Die Autoren schlagen einen dreistufigen Prozess vor, um ein Basis-LLM (Qwen2.5-7B-Instruct) nachträglich zu trainieren:

Phase 1: Berechnung feinkörniger Entropie-basierter Unsicherheit

Für jede Eingabe werden $K$ stochastische Antworten des Basismodells generiert.
Diese Antworten werden in Embedding-Vektoren transformiert.
Eine Kernel-Matrix wird über diese Embeddings erstellt, um die paarweise Ähnlichkeit der Antworten zu erfassen.
Aus den Eigenwerten dieser Matrix wird die von-Neumann-Entropie ( $H_{VN}$ ) berechnet.
Dieser Wert dient als kontinuierliches, feinkörniges Maß für die Unsicherheit, das die Verteilungsvariabilität im semantischen Raum erfasst (über einfache Token-Entropie hinaus).

Phase 2: Kalibrierung via Platt Scaling

Die rohen Entropiewerte sind nicht direkt als Wahrscheinlichkeiten interpretierbar.
Um dies zu beheben, wird Platt Scaling angewendet. Dabei wird eine logistische Funktion ( $p = \sigma(As+B)$ ) auf einem Validierungsdatensatz mit binären Korrektheitslabels (richtig/falsch) gelernt.
Dies transformiert die Entropiewerte in kalibrierte Wahrscheinlichkeitsziele ( $u_{cal}$ ), die die empirische Fehlerwahrscheinlichkeit $P(\text{falsch} | x)$ schätzen.

Phase 3: Reinforcement Learning (RL) zur Ausrichtung

Das Zielmodell wird mittels Group Relative Policy Optimization (GRPO) trainiert.
Effizienz: Es wird LoRA (Low-Rank Adaptation) verwendet, um den Speicherbedarf zu senken und katastrophales Vergessen zu vermeiden.
Entkopplung: Die Antwortgenerierung und die Unsicherheitsschätzung werden entkoppelt. Das Modell erhält eine Frage und eine bereits generierte Antwort, soll dann aber einen „Chain-of-Thought" (CoT) zur Unsicherheit generieren und einen skalaren Unsicherheitswert $u_\theta$ vorhersagen.
Belohnungsfunktion: Die neue Reward-Funktion $R_{entropy}$ belohnt die Übereinstimmung zwischen der vorhergesagten Unsicherheit $u_\theta$ und dem kalibrierten Ziel $u_{cal}$ :
$R_{entropy} = 1 - \max(0.05, |u_\theta - u_{cal}|)$
Dies zwingt das Modell, nicht nur die Rangfolge der Unsicherheit zu lernen, sondern auch die absoluten Wahrscheinlichkeitswerte zu kalibrieren.

3. Hauptbeiträge

Neuer Kalibrierungs-Reward: Einführung eines Reward-Signals, das die verbalisierte Unsicherheit des Modells mit einem state-of-the-art Sampling-Maß (Entropie) ausrichtet und explizit auf kalibrierte Wahrscheinlichkeitsausgaben abzielt.
Hohe Effizienz und Leistung: Die Methode erzielt eine hohe Rangkorrelation mit dem Sampling-Maß (beibehaltene Stärken bei Ranking-Metriken) und erreicht gleichzeitig einen State-of-the-Art in der Kalibrierung bei geringer Inferenzkosten (kein Sampling nötig).
Vergleich mit Brier-Score: Die Autoren vergleichen ihren Ansatz mit einem auf dem Brier-Score basierenden Reward (häufig in der Literatur verwendet) und zeigen überlegene Leistung sowohl innerhalb der Trainingsverteilung (In-Distribution) als auch außerhalb (Out-of-Distribution).

4. Ergebnisse

Die Experimente wurden auf den Datensätzen TriviaQA und Natural Questions (In-Distribution) sowie GSM8K (Out-of-Distribution) durchgeführt.

Kalibrierung (ECE - Expected Calibration Error):
- Das Basis-Modell hatte einen ECE von ~42 %.
- Das mit dem Brier-Score trainierte Modell erreichte ~15,7 %.
- Der Entropie-basierte Ansatz (Autoren) erreichte einen ECE von 7,2 % (In-Distribution) und 3,15 % (Out-of-Distribution). Dies ist eine signifikante Verbesserung gegenüber allen Baselines.
Ranking-Qualität (AUROC & Spearman):
- Der Entropie-Ansatz erreichte eine AUROC von ~81,5 % und eine Spearman-Korrelation von 0,67, was deutlich über den Baselines liegt und zeigt, dass das Modell die Unsicherheit sowohl gut sortieren als auch korrekt skalieren lernt.
Generalisierung: Das Modell generalisiert robust auf Out-of-Distribution-Daten (GSM8K), was darauf hindeutet, dass es ein robustes Unsicherheits-Verstehensverhalten erlernt hat, statt nur Daten auswendig zu lernen.

5. Bedeutung und Fazit

Diese Arbeit stellt einen wichtigen Schritt hin zu zuverlässigen LLMs in kritischen Anwendungen dar.

Praktische Relevanz: Im Gegensatz zu Sampling-basierten Methoden ist der Ansatz zur Laufzeit extrem effizient, da er keine wiederholten Generierungen benötigt.
Vertrauenswürdigkeit: Durch die Kalibrierung können Nutzer darauf vertrauen, dass eine angegebene Unsicherheit von z.B. 10 % auch tatsächlich einer 10 %igen Fehlerwahrscheinlichkeit entspricht.
Skalierbarkeit: Die Kombination aus GRPO und LoRA macht das Training ressourcenschonend und für den Einsatz auf weniger leistungsfähiger Hardware oder in datenschutzsensitiven Umgebungen (On-Device) attraktiver.

Zusammenfassend demonstriert das Paper, dass es möglich ist, LLMs durch eine gezielte Kombination aus feinkörniger Entropie-Messung, statistischer Kalibrierung und effizientem Reinforcement Learning zu trainieren, um sowohl präzise als auch verlässliche Unsicherheitsschätzungen zu liefern.

From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

🧠 Wenn KI lernt, ihre Unsicherheit zu spüren

🛠️ Wie haben sie das gemacht? (Die drei Schritte)

1. Der „Chaos-Messung" (Die Entropie)

2. Der „Übersetzer" (Die Kalibrierung)

3. Der „Trainer" (Belohnungssystem)

🚀 Warum ist das so toll?

🌍 Was bedeutet das für uns?

1. Problemstellung

2. Methodik: Ein Drei-Phasen-Pipeline

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach