Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

Each language version is independently generated for its own context, not a direct translation.

🎯 Das Problem: Der falsche Lineal-Effekt

Stellen Sie sich vor, Sie fragen einen sehr klugen, aber etwas verwirrten Roboter: „Wie sicher bist du bei deiner Antwort?"

Normalerweise sagen wir zu solchen Robotern (den sogenannten KI-Sprachmodellen): „Gib mir eine Zahl zwischen 0 und 100."

0 bedeutet: „Ich weiß gar nichts."
100 bedeutet: „Ich bin zu 100 % sicher."

Die Forscher haben herausgefunden, dass die KI diesen Befehl missversteht. Sie benutzt das Lineal von 0 bis 100 nicht wie ein echter Mensch, der feinjustiert antwortet. Stattdessen ist die KI wie ein Faulemaler, der nur drei Farben aus der Palette nimmt:

Fast immer sagt sie 90, 95 oder 100.
Von den 101 möglichen Zahlen (0 bis 100) nutzt sie oft nur 15 bis 20.
Es ist, als würde jemand, der nach seiner Stimmung fragt, immer nur „Glücklich", „Sehr glücklich" oder „Extrem glücklich" sagen, egal ob er sich nur ein bisschen gut fühlt oder wirklich euphorisch ist.

Das ist ein Problem, weil wir dann nicht wissen, ob die KI wirklich sicher ist oder nur eine Zahl „herausgeschmissen" hat, die ihr im Gedächtnis besonders gut gefällt.

🔍 Die Untersuchung: Wir ändern das Lineal

Die Forscher haben sich gedacht: „Vielleicht liegt es gar nicht an der KI, sondern an dem Lineal, das wir ihr geben." Sie haben verschiedene Experimente gemacht, um zu sehen, wie das Lineal die Antwort beeinflusst.

1. Das kurze Lineal (Granularität)

Statt 0 bis 100 haben sie der KI gesagt: „Sag mir eine Zahl zwischen 0 und 20."

Die Analogie: Stellen Sie sich vor, Sie müssen die Temperatur eines Tees schätzen.
- Mit dem großen Lineal (0–100) sagen Sie: „Es ist 98,5 Grad." (Aber Sie meinen eigentlich nur „Heiß").
- Mit dem kleinen Lineal (0–20) müssen Sie sich entscheiden: „Ist es eine 15 oder eine 18?"
Das Ergebnis: Überraschenderweise war die KI mit dem kleinen Lineal (0–20) besser im Einschätzen ihrer eigenen Sicherheit. Sie konnte besser unterscheiden, ob sie eine richtige oder falsche Antwort gab. Das große Lineal (0–100) verwirrte sie nur, weil sie zu viele „runde Zahlen" (wie 90, 95, 100) als Ankerpunkte nutzte.

2. Das verschobene Lineal (Grenzen)

Was passiert, wenn wir das Lineal verschieben? Statt 0–100 sagen wir: „Nur zwischen 60 und 100." (Die untere Grenze ist also schon hoch).

Die Analogie: Es ist, als würde man einem Schüler sagen: „Deine Note liegt zwischen 60 und 100." Der Schüler denkt dann vielleicht: „Oh, ich muss mindestens 60 sein!" und gibt trotzdem nur 90 oder 100 ab, weil er nicht versteht, dass 60 hier „keine Ahnung" bedeutet.
Das Ergebnis: Die KI wurde schlechter. Sie drängte sich an die obere Grenze (100) und nutzte den neuen Raum (60–100) gar nicht richtig. Sie hat die Zahlen nicht als Bedeutung verstanden, sondern nur als Wörter, die sie oft hört.

3. Das krumme Lineal (Unregelmäßige Zahlen)

Die Forscher gaben der KI seltsame Bereiche, wie 0 bis 73 oder 3 bis 38.

Die Analogie: Man fragt jemanden: „Wie voll ist dein Glas? Von 0 bis 73."
Das Ergebnis: Die KI suchte trotzdem weiter nach den runden Zahlen (wie 35 oder 70), die sie aus ihrer Schulzeit kennt. Sie hat sich nicht wirklich an die neuen Regeln angepasst. Das zeigt: Die KI „denkt" nicht wirklich über Zahlen nach, sie wählt Wörter aus, die in ihrem Trainingsmaterial häufig vorkommen.

💡 Was bedeutet das für uns?

Die Studie sagt uns drei wichtige Dinge:

Das Lineal ist nicht neutral: Wenn wir eine KI nach ihrer Sicherheit fragen, hängt die Antwort stark davon ab, wie wir die Frage formulieren (0–100 oder 0–20). Ein 0–100-System ist oft zu ungenau und verwirrend für die KI.
Kürzer ist besser: Ein kleineres Lineal (0–20) zwingt die KI, klarer zu denken. Sie gibt dann ehrlichere und nützlichere Signale ab.
Vorsicht bei Vertrauen: Wenn eine KI sagt „Ich bin zu 95 % sicher", heißt das nicht unbedingt, dass sie wirklich 95 % sicher ist. Es könnte einfach bedeuten, dass „95" eine ihrer Lieblingszahlen ist.

🛠️ Der Rat der Forscher

Wenn Sie KI-Modelle in der echten Welt einsetzen (z. B. für medizinische Diagnosen oder Finanzberatung), sollten Sie:

Statt des riesigen 0–100-Systems lieber ein kleineres System (z. B. 0–20) verwenden.
Nicht blind auf die Kalibrierung (die genaue Übereinstimmung von Prozent und Wahrheit) vertrauen, wenn die KI nur runde Zahlen spuckt.
Sich bewusst machen, dass die Art und Weise, wie wir die KI fragen, ihre Antworten verändert – genau wie bei einem Menschen, der auf einer Skala von 1 bis 10 oder 1 bis 100 unterschiedlich antworten würde.

Kurz gesagt: Die KI ist wie ein Schüler, der auf einem zu großen Lineal nur die großen Striche sieht. Geben Sie ihm ein kleineres, übersichtlicheres Lineal, und es wird Ihnen ehrlichere Antworten geben.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Rescaling Confidence: What Scale Design Reveals About LLM Metacognition" auf Deutsch:

Titel: Rescaling Confidence: Was das Design von Skalen über die Metakognition von LLMs aussagt

Autoren: Yuyang Dai (INSAIT)
Veröffentlicht: arXiv:2603.09309v1 (März 2026)

1. Problemstellung

Mit der zunehmenden Integration von Large Language Models (LLMs) in Entscheidungsprozesse ist die zuverlässige Schätzung ihrer Unsicherheit zu einer kritischen Herausforderung geworden. In „Black-Box"-Szenarien hat sich die verbalisierte Konfidenz (Verbalized Confidence) als vorherrschende Methode etabliert, bei der Modelle durch Prompting eine numerische Sicherheitsskala (typischerweise 0–100) angeben.

Das zentrale Problem dieses Papers ist, dass das Design dieser Skala selbst (insbesondere die Wahl des Bereichs 0–100) bisher als neutrales Instrument behandelt wurde, obwohl psychometrische Forschung zeigt, dass Skalengranularität und Ankerpunkte die Qualität von Selbsteinschätzungen bei Menschen erheblich beeinflussen.
Die Autoren identifizieren ein Phänomen, das sie „Confidence Discretization" (Diskretisierung des Vertrauens) nennen: LLMs nutzen den 0–100-Bereich nicht als kontinuierliches Spektrum, sondern konzentrieren ihre Ausgaben stark auf eine kleine Anzahl von „runden" Zahlen (z. B. 90, 95, 100). Dies verzerrt Kalibrierungsmetriken wie den Expected Calibration Error (ECE) und wirft die Frage auf, ob das Design der Skala die Qualität des Unsicherheitssignals beeinflusst.

2. Methodik

Die Studie führt die erste systematische empirische Untersuchung des Designs von Konfidenzskalen für LLMs durch.

Modelle und Datensätze:
- Modelle: Sechs verschiedene LLMs, darunter geschlossene APIs (GPT-5.2, Gemini 3.1 Pro) und Open-Weight-Modelle (LLaMA-4-Varianten, Qwen3-Varianten).
- Datensätze: MMLU (Wissensfragen), GSM8K (mathematisches Reasoning) und TruthfulQA (Fehlinformationen).
Experimentelles Design:
Die Autoren manipulierten die Skala $S = [l, u]$ $S = [l, u]$ entlang drei orthogonalen Dimensionen:
1. Granularität (G): Variation der Anzahl diskreter Antwortkategorien ( $[0,5], [0,10], [0,20], [0,50], [0,100]$ ).
2. Verschiebung der Grenzen (B): Fixierung der Obergrenze bei 100, aber Erhöhung der Untergrenze ( $[0,100], [20,100], [40,100], [60,100]$ ), um Anker-Effekte zu testen.
3. Nicht-Standard-Bereiche (N): Verwendung unregelmäßiger Bereiche ohne Vielfache von 5 oder 10 (z. B. $[0,73], [14,86], [3,38]$ ), um zu prüfen, ob Modelle semantisch auf die Skala reagieren oder nur auf Token-Häufigkeiten.
Evaluationsmetriken:
- Expected Calibration Error (ECE): Zur Messung der Kalibrierung (mit der Einschränkung, dass dieser bei starker Diskretisierung instabil ist).
- AUROC: Zur Messung der Fähigkeit, korrekte von falschen Antworten zu unterscheiden.
- Metakognitive Sensitivität (meta-d′): Der Hauptfokus liegt auf diesem Metrik aus der Signal Detection Theory (SDT). meta-d′ quantifiziert, wie gut die Konfidenzratings korrekte von falschen Antworten trennen, unabhängig von der allgemeinen Antwortverzerrung (Bias).
- Metakognitive Effizienz ( $M_{ratio}$ ): Das Verhältnis von meta-d′ zur Aufgabenleistung ( $d'$ ), normalisiert für Schwierigkeitsgrade.

3. Wichtige Beiträge

Nachweis der Diskretisierung: Die Autoren etablieren „Confidence Discretization" als robustes Phänomen. Über alle Modelle hinweg entfallen mehr als 78 % der Antworten auf nur drei runde Zahlenwerte. Modelle nutzen oft nur 15–28 der 101 möglichen Werte.
Optimierung der Granularität: Es wird gezeigt, dass die Skalengranularität die metakognitive Qualität signifikant moduliert. Ein Bereich von 0–20 erweist sich als „Sweet Spot", der die metakognitive Effizienz ( $M_{ratio}$ ) konsistent übertrifft, verglichen mit dem Standard 0–100.
Semantische Grenzen: Durch Experimente mit nicht-standardisierten Bereichen wird demonstriert, dass LLMs ein begrenztes semantisches Verständnis numerischer Bereiche haben. Sie neigen weiterhin dazu, runde Zahlen (Vielfache von 5) zu bevorzugen, selbst wenn diese nicht im Bereich liegen, was auf Token-basierte Verzerrungen statt auf echte Selbstbewertung hindeutet.

4. Ergebnisse

Diskretisierung unter Standard-Skalen: Unter der Standard-Skala [0, 100] konzentrieren sich Modelle massiv auf Werte wie 90, 95 oder 100. Beispielsweise gibt Gemini 3.1 Pro in 68,4 % der Fälle exakt 100 aus. Dies führt zu einer sehr niedrigen Entropie der Verteilung.
Einfluss der Granularität:
- Die metakognitive Effizienz ( $M_{ratio}$ ) ist bei der Skala [0, 20] für alle getesteten Modelle am höchsten.
- Feinere Skalen (0–100) führen zu einer Verschlechterung der metakognitiven Sensitivität, wahrscheinlich weil sie mehr Möglichkeiten bieten, auf Token-Voreingenommenheiten (runde Zahlen) zurückzugreifen.
- Sehr grobe Skalen (0–5) sind zu ungenau, um nützliche Unsicherheitsvariationen abzubilden.
Einfluss der Grenzverschiebung:
- Moderate Verschiebungen (z. B. [20, 100]) haben wenig Einfluss.
- Aggressive Kompression (z. B. [60, 100]) führt zu einem drastischen Leistungsabfall. Modelle verteilen ihr Vertrauen nicht neu, sondern clustern weiterhin an der Obergrenze (100), was die metakognitive Effizienz um bis zu 30–40 % senkt.
Robustheit gegenüber Anomalien: Selbst bei unregelmäßigen Skalen (z. B. [0, 73]) bleibt die Präferenz für runde Zahlen (wie 70) bestehen. Bei sehr engen Skalen (z. B. [3, 38]) steigen die Fehlerquoten (Verletzungen des gültigen Bereichs) stark an, was zeigt, dass Modelle Schwierigkeiten haben, sich an neue semantische Grenzen anzupassen.

5. Bedeutung und Schlussfolgerungen

Die Studie widerlegt die Annahme, dass die Konfidenzskala ein neutrales Werkzeug sei. Stattdessen ist das Design der Skala ein First-Class-Experimentalvariable, die die Qualität des Unsicherheitssignals direkt bestimmt.

Praktische Empfehlungen:
1. Skalenwahl: Für die Extraktion verbalisierter Konfidenz sollte statt des Standard-0–100-Bereichs ein 0–20-Bereich verwendet werden, da dieser eine höhere metakognitive Effizienz liefert.
2. Metriken: Da ECE bei stark diskretisierten Verteilungen unzuverlässig wird, sollte meta-d′ als ergänzende Metrik zur Bewertung der Metakognition herangezogen werden.
3. Interpretation: Konfidenzwerte sollten nicht isoliert betrachtet werden; die empirische Verteilung muss vor der Interpretation von Kalibrierungsmetriken überprüft werden.
Theoretische Implikation: Die Ergebnisse deuten darauf hin, dass verbalisierte Konfidenz bei LLMs weniger durch eine kontinuierliche interne Unsicherheitsschätzung entsteht, sondern durch die tokenbasierte Auswahl von Wörtern, die in den Trainingsdaten häufig vorkommen (z. B. „95", „100"). Die Skala wirkt als Filter, der diese Token-Präferenzen entweder verstärkt oder abschwächt.

Zusammenfassend fordert das Paper die Community auf, das Design von Konfidenzskalen systematisch zu optimieren, um verlässlichere Unsicherheitssignale für den Einsatz von LLMs in kritischen Anwendungen zu erhalten.