Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – ohne Fachchinesisch, aber mit ein paar guten Bildern.

Das große Problem: Wenn KI lügt (oder sich nur unsicher ist)

Stell dir vor, du fragst eine sehr intelligente KI: „Wer hat die Cricket-WM 2019 ausgetragen?"
Die KI antwortet: „Ich bin zu 80 % sicher, dass es England war."

Das klingt gut, oder? Aber was ist, wenn die Frage eigentlich mehrdeutig ist? England und Wales waren Co-Gastgeber. Die KI könnte also auch zu 80 % sicher sein, dass es Wales war. Oder sie ist sich gar nicht sicher, ob die Frage überhaupt eine einzige richtige Antwort hat.

Bisherige Methoden zwingen die KI, eine einzige Zahl (wie 80 %) zu nennen. Das ist wie ein Schulfreund, der dir bei einer schwierigen Matheaufgabe sagt: „Ich bin mir zu 80 % sicher, dass die Antwort 42 ist." Aber er sagt nicht, warum er unsicher ist. Ist die Aufgabe schlecht gestellt? Oder weiß er einfach nicht genug?

Das ist das Problem: Die KI vermischt zwei Arten von Unsicherheit in einem Topf, und das führt zu Fehlern.

Die Lösung: Unsicherheit in zwei Schichten trennen

Die Autoren dieses Papers schlagen vor, die KI nicht nach einer einzigen Zahl zu fragen, sondern nach einem Bereich (einem Intervall). Sie nutzen ein mathematisches Werkzeug namens „Unpräzise Wahrscheinlichkeiten" (Imprecise Probabilities).

Stell dir das wie zwei verschiedene Arten von Unsicherheit vor:

Die erste Schicht (Die Frage selbst):
- Das Bild: Du fragst: „Wie viele Beine hat ein Tier?"
- Das Problem: Die Frage ist schlecht gestellt. Ein Hund hat 4, ein Vogel 2, ein Krake 8. Es gibt keine eine richtige Antwort, weil die Frage mehrdeutig ist.
- Die KI-Reaktion: Hier sollte die KI sagen: „Ich kann dir keine genaue Zahl nennen, weil die Frage unscharf ist." Das ist erste Ordnung Unsicherheit. Sie ist fest und kann nicht durch mehr Nachdenken gelöst werden.
Die zweite Schicht (Das Wissen der KI):
- Das Bild: Du fragst: „Wer hat die Cricket-WM 2019 ausgetragen?" und gibst der KI 50 Beispiele aus dem Jahr 2019 als Hilfe.
- Das Problem: Am Anfang weiß die KI vielleicht gar nicht, wo sie anfangen soll. Aber je mehr Beispiele sie sieht, desto sicherer wird sie.
- Die KI-Reaktion: Hier ist die Unsicherheit, weil ihr Wissen fehlt. Wenn du ihr mehr Beispiele gibst, wird sie sicherer. Das ist zweite Ordnung Unsicherheit (Unsicherheit über die Unsicherheit).

Wie funktioniert die neue Methode?

Statt zu fragen: „Wie sicher bist du?", fragen die Autoren die KI auf eine neue Art:

Statt einer Zahl: „Gib mir einen kleinstmöglichen und einen größtmöglichen Wert, bei dem du dir noch sicher bist, dass die Antwort richtig ist."
- Beispiel: „Ich bin zu mindestens 20 % sicher, aber maximal zu 90 % sicher."
Das Ergebnis:
- Wenn die Frage mehrdeutig ist (wie beim Cricket), bleibt der Bereich breit (z. B. 20 % bis 90 %). Die KI sagt damit: „Ich weiß nicht genau, weil die Frage verwirrend ist."
- Wenn die KI wenig Wissen hat (z. B. am Anfang des Lernens), ist der Bereich auch breit.
- Wenn die KI viel Wissen hat (viele Beispiele gesehen), wird der Bereich schmal (z. B. 85 % bis 90 %).

Warum ist das besser? (Die Analogie vom Wetter)

Stell dir vor, du planst ein Picknick.

Die alte Methode (Vanilla): Der Wetterbericht sagt: „Ich bin zu 80 % sicher, dass es regnet."
- Problem: Ist es 80 %, weil der Himmel grau ist (Wissen fehlt)? Oder weil das Wetter in dieser Jahreszeit einfach chaotisch und unvorhersehbar ist (die Frage ist mehrdeutig)? Du weißt es nicht.
Die neue Methode (Unpräzise Wahrscheinlichkeiten): Der Wetterbericht sagt: „Ich bin zu mindestens 20 % und maximal 90 % sicher, dass es regnet."
- Interpretation: „Der Bereich ist so breit, weil das Wetter in dieser Region einfach chaotisch ist (mehrdeutig). Ich kann dir keine genaue Vorhersage geben, egal wie viel ich nachdenke."
- Oder: „Der Bereich ist breit, weil ich gerade keine Daten habe. Aber wenn ich mehr Daten bekomme, wird der Bereich schmaler."

Was bringt das in der Praxis?

Die Autoren haben gezeigt, dass ihre Methode in drei wichtigen Situationen besser funktioniert als alles, was es vorher gab:

Bei verworrenen Fragen: Die KI erkennt sofort, wenn eine Frage keine klare Antwort hat, statt eine falsche Sicherheit zu simulieren.
Beim Lernen (In-Context Learning): Wenn man der KI Beispiele gibt, zeigt sie genau an, wie viel sie dazu gelernt hat (der Bereich wird schmaler).
Bei Selbstreflexion: Wenn die KI über ihre eigene Antwort nachdenkt, passt ihre Unsicherheits-Angabe besser zu dem, was sie tatsächlich getan hat.

Fazit

Die Forscher sagen im Grunde: „Lasst die KI nicht lügen, indem sie eine einzelne Zahl nennt. Lasst sie ehrlich sein und uns einen Spielraum geben."

Ein breiter Spielraum bedeutet: „Pass auf, hier ist etwas nicht klar oder ich weiß zu wenig."
Ein schmaler Spielraum bedeutet: „Ich bin mir ziemlich sicher."

Das hilft uns Menschen, besser zu entscheiden, wann wir der KI trauen können und wann wir selbst nachhaken müssen. Es ist wie ein ehrlicherer Kompass, der nicht nur die Richtung anzeigt, sondern auch sagt: „Hier ist der Nebel sehr dicht, sei vorsichtig!"

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities" auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) werden zunehmend für Aufgaben eingesetzt, bei denen eine zuverlässige Unsicherheitsquantifizierung (Uncertainty Quantification, UQ) entscheidend ist, z. B. zur Halluzinationserkennung oder zur Entscheidungsfindung. Bisherige Ansätze basieren meist auf dem klassischen probabilistischen Rahmenwerk, bei dem das Modell eine präzise Wahrscheinlichkeit (einen einzelnen Zahlenwert) für seine Antwort angibt (z. B. „Ich bin zu 80 % sicher").

Das Paper identifiziert drei wesentliche Versagensmodi dieser „Vanilla"-Ansätze:

Mehrdeutige Fragen (Ambiguity): Bei Fragen mit mehreren korrekten Interpretationen (z. B. „Welches Land war 2019 Gastgeber des Cricket World Cups?" – England und Wales) scheitern präzise Scores daran, die inhärente Mehrdeutigkeit korrekt abzubilden. Sie unterscheiden oft nicht zwischen einer klaren und einer mehrdeutigen Frageverteilung.
In-Context Learning (ICL): Wenn dem Modell mehr Kontextbeispiele gegeben werden, sollte die epistemische Unsicherheit (Wissensmangel) sinken und die Vorhersagegenauigkeit steigen. Herkömmliche Scores bleiben jedoch oft hoch und flach, obwohl der Fehler sinkt.
Selbstreflexion: Wenn LLMs aufgefordert werden, ihre eigene Antwort zu reflektieren, stimmen die abgeleiteten Nutzenwerte oft nicht mit den tatsächlichen Entscheidungen des Modells überein, was auf eine Verletzung der bayesschen Rationalität hindeutet.

Das Kernproblem liegt in der Annahme, dass Unsicherheit vollständig durch einen einzigen präzisen Wert erfasst werden kann. Dies ignoriert höherordentliche Unsicherheit (Unsicherheit über die Unsicherheit selbst), die entsteht, wenn das Modell unsicher ist, welches Wahrscheinlichkeitsmodell das richtige ist.

2. Methodik

Die Autoren schlagen einen Rahmenwerk vor, das auf Unschärfe-Wahrscheinlichkeiten (Imprecise Probabilities, IP) basiert. Statt eines einzelnen Punktwerts wird Unsicherheit durch Intervalle oder Mengen von Wahrscheinlichkeiten dargestellt.

Theoretische Grundlagen

Erste Ordnung (First-Order Uncertainty): Erfasst die intrinsische Zufälligkeit der Antwortmöglichkeiten (aleatorische Unsicherheit). Bei IP wird dies durch die Wahrscheinlichkeitsverteilung über die Antworten modelliert.
Zweite Ordnung (Second-Order Uncertainty): Erfasst die Unschärfe oder Indeterminiertheit des zugrunde liegenden Modells selbst (epistemische Unsicherheit). In IP wird dies durch die Breite des Intervalls zwischen einer unteren ( $\underline{p}$ ) und einer oberen Wahrscheinlichkeit ( $\overline{p}$ ) quantifiziert.

Elicitation-Strategien (Prompting)

Das Paper stellt spezifische Prompting-Techniken und Nachverarbeitungsprozeduren vor, um diese Werte direkt aus dem LLM zu extrahieren:

DeFinetti (für erste Ordnung):
- Basierend auf Bruno de Finettis Interpretation von Wahrscheinlichkeit als fairem Wettangebot.
- Das Modell wird aufgefordert, „Kaufpreise" (zwischen 0 und 1) für jede Antwort zu setzen, die den erwarteten Gewinn maximieren und die Wahrscheinlichkeitsaxiome (Summe = 1) erfüllen.
- Ein Verifizierer stellt sicher, dass die Ausgaben kohärent sind.
ProbInt (für zweite Ordnung – Wahrscheinlichkeitsintervalle):
- Das Modell wird direkt nach einem Intervall $[\underline{p}(y), \overline{p}(y)]$ für jede Antwort gefragt.
- $\underline{p}(y)$ : Die kleinste Wahrscheinlichkeit, die als plausibel gilt.
- $\overline{p}(y)$ : Die größte Wahrscheinlichkeit, die als vertretbar gilt.
- Die Summe der unteren Wahrscheinlichkeiten darf 1,0 nicht überschreiten.
Credal Sets & Possibility Functions:
- Credal: Nutzung eines Ensembles von Modellen (oder mehrerer Runs), wobei die Diskrepanz zwischen den Modellen die Unschärfe definiert.
- Possibility: Bewertung der Plausibilität von Alternativen (inkl. „keine der oben genannten") mittels Possibility-Funktionen, die nicht-additiv sind.

Metrik: Maximum Mean Imprecision (MMI)

Um die zweite Ordnung als skalaren Wert zu quantifizieren, verwenden die Autoren die MMI-Metrik.

Für ein einzelnes Intervall ist dies einfach die Breite: $\overline{p}(y) - \underline{p}(y)$ .
Für mehrere Kandidaten wird eine obere Schranke verwendet: $1 - \sum \underline{p}(y)$.
Dies dient als Maß für die epistemische Unsicherheit (Wissensmangel).

3. Wichtige Beiträge

Erste konkrete Implementierung von IP für LLMs: Das Paper bietet die ersten praktischen Prompting-Strategien, um höherordentliche Unsicherheit verbal zu ermitteln, ohne Zugriff auf interne Modellparameter zu benötigen.
Entkopplung der Unsicherheitsquellen: Die Methode trennt erfolgreich zwischen erster Ordnung (inhärente Mehrdeutigkeit der Frage) und zweiter Ordnung (Mangel an Wissen/Kontext).
Kosteneffizienz: Im Vergleich zu sampling-basierten Methoden (die viele Inferenzen erfordern) sind die IP-basierten Prompting-Methoden deutlich günstiger in den API-Kosten, da sie oft nur eine einzige Interaktion benötigen.
Verbesserte Entscheidungsfindung: Durch die Anwendung von Entscheidungsregeln unter Unschärfe (z. B. Maximin-Regel) wird die Kohärenz zwischen der gewählten Antwort und der Unsicherheitsaussage des Modells verbessert.

4. Ergebnisse

Die Evaluation erfolgte auf synthetischen Daten (Sequenztransformation) und realen QA-Datensätzen (MAQA, AmbigQA, MMLU-Pro).

Synthetische Experimente:
- Entkopplung: Während „Vanilla"-Methoden bei steigender Mehrdeutigkeit (Noise) und steigender Kontextanzahl (ICL) versagen, bleiben die IP-basierten Scores (insbesondere ProbInt) stabil in der ersten Ordnung und zeigen eine korrekte Abnahme der zweiten Ordnung, wenn mehr Kontext gegeben wird.
- Ensemble-Performance: Bei der Gruppenschatzung (Credal Sets) übertrifft der Ansatz herkömmliche Aggregationsmethoden (wie Majority Voting) deutlich in der AUROC (Area Under the Receiver Operating Characteristic Curve).
Reale QA-Aufgaben:
- Mehrdeutigkeitserkennung: Das DeFinetti-Verfahren erreicht die höchste AUROC bei der Unterscheidung zwischen mehrdeutigen und klaren Fragen.
- Korrektheitsdetektion: Die IP-Methoden (insbesondere ProbInt) zeigen eine stärkere Korrelation mit dem KL-Divergenz-Metrik (als Proxy für die wahre Unsicherheit) als alle Baselines.
- Selbstkonsistenz: Die LLMs treffen Entscheidungen, die besser mit den durch IP abgeleiteten rationalen Kriterien (Maximin) übereinstimmen als mit klassischen bayesschen Annahmen.
Kosten: Die IP-Methoden sind in der Regel kosteneffizienter als sampling-basierte Ansätze und vergleichbar mit einfachen verbalen Methoden, bieten aber deutlich mehr Information.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Beschränkung auf präzise Wahrscheinlichkeiten eine fundamentale Ursache für die mangelnde Zuverlässigkeit von Unsicherheitsaussagen in LLMs ist. Durch die Einführung von Imprecise Probabilities erhalten wir ein reichhaltigeres, kohärenteres und realistischeres Bild der Modellunsicherheit.

Dies ermöglicht:

Faithful Reporting: LLMs können ehrlicher über ihre Wissensgrenzen und die Mehrdeutigkeit von Fragen berichten.
Bessere Downstream-Entscheidungen: Systeme können basierend auf der zweiten Ordnung entscheiden, wann sie eine Antwort verweigern sollten (Abstinenz) oder wann zusätzliche Informationen (Kontext) benötigt werden.
Rationalität: Der Ansatz stellt eine Brücke zwischen den beobachteten Entscheidungen von LLMs und theoretischen Rationalitätskriterien her, die über das klassische Bayes-Modell hinausgehen.

Zusammenfassend bietet das Paper einen prinzipiellen und praktisch anwendbaren Rahmen, um die „Black Box" der LLM-Entscheidungsfindung durch die explizite Modellierung von Unsicherheit über die Unsicherheit selbst zu öffnen.