No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Weiß der KI-Computer, ob er lügt?

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas verwirrten Freund. Er erzählt dir eine Geschichte. Die Frage ist: Weiß er im Inneren schon, bevor er den Mund aufmacht, ob das, was er gleich sagt, wahr ist oder ob er gerade etwas erfunden hat?

Bisher dachten viele, man müsse erst hören, was er sagt, um zu merken, ob er Unsinn redet. Diese Forscher haben aber etwas Neues entdeckt: Der Computer "weiß" es schon, bevor er ein einziges Wort tippt.

Die Idee: Der "Wahrheits-Kompass" im Gehirn

Die Forscher haben sich das "Gehirn" (die inneren Schichten) von großen Sprachmodellen (wie Chatbots) angesehen. Sie haben nicht gewartet, bis die Antwort fertig war. Stattdessen haben sie einen Moment eingefroren, genau dann, als die Frage gelesen wurde, aber bevor die Antwort begann.

Stell dir das Gehirn des Computers wie ein riesiges, dunkles Lagerhaus vor. In diesem Lagerhaus gibt es einen ganz speziellen Gang.

Wenn der Computer eine Frage stellt, die er richtig beantworten kann, laufen die elektrischen Signale in diesem Gang in eine Richtung (sagen wir: nach Nord).
Wenn er eine Frage stellt, bei der er falsch liegen wird, laufen die Signale in die entgegengesetzte Richtung (nach Süd).

Die Forscher haben einen einfachen "Kompass" (eine mathematische Linie) gebaut, der genau diesen Gang misst. Sie haben festgestellt: Man muss nicht den ganzen Text lesen, um zu wissen, ob der Computer unsinnig redet. Man muss nur schauen, in welche Richtung die Signale im "Lagerhaus" zeigen.

Was haben sie herausgefunden? (Die 5 wichtigsten Punkte)

Es ist ein gerader Weg (Linearität):
Das ist das Tolle: Man braucht keinen komplizierten, krummen Weg, um das zu finden. Es ist wie eine gerade Straße. Wenn man auf dieser Straße steht, sieht man sofort: "Ah, hier geht es nach Norden (Richtig)" oder "Hier geht es nach Süden (Falsch)". Das ist überraschend einfach, aber es funktioniert!
Der Kompass funktioniert überall (außer bei Mathe):
Der Kompass funktioniert super bei Faktenwissen. Wenn man fragt: "Wann wurde Einstein geboren?" oder "In welchem Land liegt Paris?", zeigt der Kompass genau an, ob der Computer es weiß.
ABER: Bei Matheaufgaben (wie "Wie viel ist 12 mal 17?") funktioniert der Kompass nicht. Das ist, als ob der Computer für Faktenwissen ein GPS hat, aber für Mathe plötzlich eine Landkarte ohne Kompass benutzt. Die beiden Fähigkeiten scheinen in verschiedenen "Etagen" des Gehirns zu wohnen.
Je größer der Computer, desto besser der Kompass:
Bei den kleineren Modellen (wie einem kleinen Laptop) ist der Kompass manchmal etwas wackelig. Bei den riesigen Modellen (wie dem 70-Milliarden-Parameter-Modell) ist der Kompass extrem scharf und zuverlässig. Je "klüfer" der Computer ist, desto besser weiß er, wann er unsicher ist.
Das "Ich weiß es nicht"-Signal:
Wenn ein Computer sagt "Ich weiß es nicht", passiert etwas Interessantes: Die Signale im Gehirn zeigen dann ganz stark in die Richtung "Falsch/Unsicherheit". Das bedeutet: Der Kompass misst nicht nur, ob die Antwort richtig ist, sondern auch, wie sicher sich der Computer fühlt. Wenn er unsicher ist, zeigt der Kompass rot.
Es ist schneller als alles andere:
Bisher musste man oft warten, bis der Computer eine Antwort schrieb, und dann prüfen, ob sie stimmt. Oder man hat ihn gefragt: "Bist du dir sicher?" (was er oft falsch beantwortet).
Mit diesem neuen Kompass kann man sofort, noch bevor der Computer einen Buchstaben tippt, sagen: "Pass auf, hier wird er wahrscheinlich einen Fehler machen." Das ist wie ein Frühwarnsystem.

Warum ist das wichtig?

Stell dir vor, du nutzt einen KI-Assistenten für wichtige Dinge, wie medizinische Ratschläge oder juristische Fragen.

Sicherheitsgurt: Dieser "Wahrheits-Kompass" könnte wie ein Sicherheitsgurt funktionieren. Bevor der Computer eine gefährliche Antwort ausspuckt, sagt das System: "Stopp! Der Kompass zeigt nach Süden. Der Computer ist sich nicht sicher oder wird lügen."
Zeitersparnis: Man muss nicht warten, bis der Computer 100 Wörter schreibt, um zu merken, dass er Unsinn redet. Man kann ihn sofort stoppen.

Zusammenfassung in einem Satz

Die Forscher haben entdeckt, dass große Sprachmodelle in ihrem Inneren einen einfachen, geraden "Wahrheits-Kompass" haben, der ihnen verrät, ob sie eine Frage richtig beantworten können – bevor sie überhaupt anfangen zu antworten. Das ist ein riesiger Schritt, um KI sicherer und vertrauenswürdiger zu machen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Arbeit untersucht die Frage, ob Large Language Models (LLMs) intern wissen, ob sie eine Frage korrekt beantworten werden, noch bevor sie überhaupt ein einziges Token generieren. Bisherige Methoden zur Unsicherheitsquantifizierung (z. B. Verbalisierung von Konfidenz, Analyse von Logits während der Generierung oder semantische Ähnlichkeit mehrerer Generationen) sind oft rechenintensiv, fehleranfällig oder funktionieren nur eingeschränkt bei offenen Antworten.

Das zentrale Ziel ist es, zu prüfen, ob die Lineare Repräsentations-Hypothese (Linear Representation Hypothesis) auch für die Eigeneinschätzung der Korrektheit (Self-Correctness) gilt. Das heißt: Gibt es eine Richtung im Aktivierungsraum des Modells, die linear zwischen Fragen trennt, die das Modell korrekt beantwortet, und solchen, bei denen es scheitert?

2. Methodik

Die Autoren entwickeln einen Ansatz, der ausschließlich die Aktivierungen des Modells vor der Generierung der Antwort nutzt.

Datenerfassung: Für jede Eingabe (Frage) werden die Residual-Stream-Aktivierungen ( $h^{(l)}$ ) am letzten Token der Frage extrahiert, bevor das Modell beginnt, Antworten zu generieren.
Lineare Sonde (Linear Probe): Anstatt komplexer nicht-linearer Klassifikatoren wird eine einfache lineare Sonde verwendet, basierend auf der Differenz der Mittelwerte (Difference-of-Means).
- Es werden zwei Klassen gebildet: Korrekte Antworten ( $\mu_{true}$ ) und inkorrekte Antworten ( $\mu_{false}$ ).
- Die „Korrektheitsrichtung" ( $w$ ) wird als Differenz der Zentren berechnet: $w = \mu_{true} - \mu_{false}$ .
- Der Score für eine neue Aktivierung $h$ wird durch Projektion auf diese normalisierte Richtung berechnet: $\text{score}(h) = (h - \mu)^\top \frac{w}{\|w\|}$ .
Evaluation: Die Trennschärfe wird mittels der ROC-AUC (Area Under the Receiver Operating Characteristic Curve) gemessen, was eine Bewertung über alle möglichen Schwellenwerte hinweg ermöglicht.
Experimentelles Setup:
- Modelle: Sechs Open-Source-Modelle (Llama 3.1/3.3, Qwen 2.5, DeepSeek R1, Mistral) mit Größen von 7 bis 70 Milliarden Parametern.
- Datensätze: Eine Mischung aus öffentlichen Datensätzen (TriviaQA, GSM8K) und synthetisch generierten Datensätzen zu spezifischen Fakten (Städte, Prominente, Olympische Medaillen) sowie mathematischen Operationen.
- Baseline-Vergleich: Der Ansatz wird mit verbalisierter Konfidenz („Wie sicher bist du?") und „Assessors" (Schwarze-Box-Klassifikatoren, die auf Embeddings der Eingabefrage basieren) verglichen.

3. Wichtige Ergebnisse

Die Studie liefert mehrere signifikante Erkenntnisse:

Lineare Trennbarkeit: Es wurde bestätigt, dass ein Korrektheitssignal im Aktivierungsraum linear trennbar ist. Eine einfache lineare Sonde, die auf TriviaQA trainiert wurde, generalisiert erfolgreich auf andere Fakten-Domänen (Städte, Personen, Medaillen) und übertrifft dabei nicht-lineare Baselines (wie XGBoost auf externen Embeddings). Dies deutet darauf hin, dass das Modell interne, lineare Signale seiner eigenen Kompetenz besitzt, die in der reinen Semantik der Eingabe nicht enthalten sind.
Schichtweise Emergenz: Die Trennbarkeit ist in frühen Schichten gering und erreicht in den mittleren bis späten Transformer-Schichten ein Plateau. Dies legt nahe, dass die interne Einschätzung der eigenen Fähigkeiten während der Berechnung „kristallisiert".
Fakten vs. Mathematik (Generalisierungslimit): Während der „Korrektheitsvektor" über verschiedene Fakten-Domänen hinweg generalisiert, versagt er bei mathematischem Reasoning (GSM8K). Die AUROC-Werte liegen hier nahe dem Zufallsniveau. Dies deutet darauf hin, dass „Fakten-Korrektheit" und „Arithmetische Korrektheit" in unterschiedlichen, möglicherweise orthogonalen oder strukturell misaligned Vektoren im Modell kodiert sind.
Korrelation mit „Ich weiß es nicht" (Abstention): Bei Modellen, die spontan „Ich weiß es nicht" (IDK) antworten, korreliert diese Antwort stark mit negativen Werten auf der Korrektheitsrichtung. Dies bestätigt, dass derselbe Vektor auch eine latente Konfidenzachse erfasst.
Skalierungseffekte: Das Signal ist beim größten getesteten Modell (Llama 3.3 70B) am stärksten und konsistentesten, was darauf hindeutet, dass größere Modelle ihre eigene Korrektheit besser internalisieren.
Daten-Effizienz: Die Sonde benötigt sehr wenig Trainingsdaten (bereits 160–2.560 Beispiele reichen für robuste Leistung), was die Linearität des Signals weiter untermauert.

4. Hauptbeiträge

Nachweis einer latenten Korrektheitsrichtung: Die Arbeit liefert Evidenz dafür, dass LLMs einen linearen Vektor im Residual-Stream besitzen, der die zukünftige Antwortgenauigkeit vorhersagt, noch bevor die Antwort generiert wird.
Überlegenheit interner Signale: Es wird gezeigt, dass interne lineare Proben besser generalisieren als externe, nicht-lineare Assessors, die nur auf dem Eingabetext basieren.
Strukturelle Unterscheidung von Fähigkeiten: Die Arbeit identifiziert eine klare Diskrepanz zwischen der Vorhersagbarkeit von Faktenwissen und mathematischem Reasoning, was auf unterschiedliche interne Verifikationsmechanismen hindeutet.
Verbindung zu Konfidenz: Der Nachweis, dass der gleiche Vektor auch das „Ich weiß es nicht"-Verhalten erfasst, verbindet die Konzepte von Korrektheit und Konfidenz auf mechanistischer Ebene.

5. Bedeutung und Implikationen

Die Ergebnisse haben weitreichende Konsequenzen für die KI-Sicherheit und den praktischen Einsatz von LLMs:

Früherkennung von Fehlern: Da das Signal vor der Generierung verfügbar ist, könnte es für kostengünstige Early-Stopping-Mechanismen genutzt werden. Wenn die Projektion auf die Korrektheitsrichtung einen niedrigen Wert anzeigt, kann das System die Antwort verwerfen, eine menschliche Überprüfung anfordern oder auf einen sichereren Modus umschalten, ohne Ressourcen für eine fehlerhafte Generierung zu verschwenden.
Robustere Systeme: Die Kombination dieses internen Signals mit anderen Black-Box-Methoden könnte zu robusteren Systemen führen, die in hochriskanten Umgebungen (z. B. Medizin, Recht) zuverlässiger agieren.
Verständnis der Modellarchitektur: Die Arbeit trägt wesentlich zum mechanistischen Verständnis bei, wie LLMs ihre eigenen Grenzen und Fähigkeiten repräsentieren, und widerlegt die Annahme, dass solche Informationen nur durch komplexe nicht-lineare Muster oder nach der Generierung zugänglich seien.

Zusammenfassend zeigt das Paper, dass LLMs über einen zugänglichen, linearen „Wahrheits- oder Konfidenzkompass" verfügen, der jedoch spezifisch für Faktenwissen ist und bei komplexem Reasoning an seine Grenzen stößt.

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

Das große Rätsel: Weiß der KI-Computer, ob er lügt?

Die Idee: Der "Wahrheits-Kompass" im Gehirn

Was haben sie herausgefunden? (Die 5 wichtigsten Punkte)

Warum ist das wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Implikationen

Mehr davon

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis