No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (zoals een geavanceerde chatbot) een groot raadsel oplost. Meestal denken we dat de AI pas "weet" of het antwoord goed is als hij het antwoord heeft uitgesproken. Maar deze nieuwe studie uit 2026 stelt een fascinerende vraag: weet de AI al eerder dat het antwoord goed of fout gaat zijn, nog voordat hij ook maar één woord heeft getypt?

Het antwoord is: Ja. En ze hebben ontdekt hoe ze dat kunnen zien.

Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. De "Zenuwstelsel"-Scan

Stel je de AI voor als een gigantisch, ingewikkeld brein. Wanneer je een vraag stelt (bijvoorbeeld: "In welk jaar is George Orwell geboren?"), stroomt er informatie door dit brein. De onderzoekers hebben gekeken naar de elektrische signalen in dit brein op het exacte moment dat de vraag is verwerkt, maar voordat het antwoord wordt gegenereerd.

Ze hebben een soort "röntgenfoto" gemaakt van de gedachten van de AI. Ze zochten naar een specifiek patroon in die signalen dat vertelt: "Dit antwoord gaat goed komen" of "Dit gaat mis".

2. De "Compasnaald" (De Lineaire Proef)

Hoe hebben ze dit gevonden? Ze gebruikten een heel simpel trucje, dat ze een "lineaire proef" noemen.

De Analogie: Stel je voor dat je een kompas hebt. Alle vragen die de AI goed beantwoordt, duwen de naald van het kompas naar het Noorden. Alle vragen die hij fout beantwoordt, duwen de naald naar het Zuiden.
De onderzoekers hebben een "richting" gevonden in de gedachten van de AI die precies werkt als die kompasnaald. Als de AI een vraag krijgt, kunnen ze kijken naar die naald. Staat hij ver naar het noorden? Dan is de kans groot dat het antwoord klopt. Staat hij naar het zuiden? Dan gaat het waarschijnlijk mis.

Het mooie is: dit werkt niet alleen voor de vragen waarvoor ze het kompas hebben getest, maar ook voor heel andere soorten vragen. Het is alsof je een kompas hebt dat werkt in heel Europa, niet alleen in je eigen tuin.

3. Waar zit dit "weten"? (De verdiepingen)

Het brein van een AI bestaat uit vele lagen (verdiepingen), net als een wolkenkrabber.

De beginkelder: In de onderste verdiepingen is de naald nog wazig. De AI weet nog niet echt of hij het weet.
De middenverdiepingen: Halverwege het gebouw wordt de naald scherp. Hier "crystalliseert" het inzicht. De AI heeft de vraag al verwerkt en heeft een interne inschatting gemaakt of hij het antwoord kent.
De top: In de bovenste verdiepingen blijft dit signaal sterk.

4. De "Ik weet het niet"-Knop

Een van de coolste ontdekkingen is wat er gebeurt als de AI zegt: "Ik weet het niet."
De onderzoekers zagen dat wanneer de AI dit zegt, de kompasnaald extreem ver naar het Zuiden wijst. Dit betekent dat de AI intern al weet dat hij het niet weet, nog voordat hij die zin uitkiest. Het is alsof de AI een intern alarm heeft dat af gaat als hij twijfelt, en dat alarm is precies wat ze hebben gemeten.

5. De Zwakke Plek: Wiskunde

Er is echter één ding waar dit kompas niet werkt: wiskundige redenering.

De Vergelijking: Stel je voor dat de AI een expert is in geschiedenis en feiten (zoals een wandelgids die elke stad kent). Zijn kompas werkt perfect daarvoor. Maar als je hem een complexe wiskundepuzzel geeft (zoals een wiskundeleraar die moet rekenen), dan werkt het kompas niet meer. De naald draait wild rond.
Dit suggereert dat het "weten" van feiten en het "rekenen" van wiskunde twee heel verschillende processen zijn in het brein van de AI. Het ene is een herinnering (feiten), het andere is een berekening (wiskunde), en de AI heeft voor het rekenen nog geen goed intern alarm.

Waarom is dit belangrijk?

Voor nu is dit vooral wetenschappelijk nieuws: we begrijpen beter hoe AI's in hun hoofd werken. Maar voor de toekomst is dit cruciaal voor veiligheid.

Stel je voor dat je deze AI gebruikt in een ziekenhuis of bij een bank. Als de AI een fout antwoord gaat geven, kunnen we nu een "stopknop" installeren die kijkt naar die interne kompasnaald. Als de naald naar het zuiden wijst (hulpeloosheid), kunnen we de AI stoppen voordat hij het foutieve antwoord aan de patiënt of de klant geeft.

Kortom: De onderzoekers hebben ontdekt dat AI's een intern "geweten" hebben dat al weet of ze het goed doen, nog voordat ze spreken. Ze hebben een manier gevonden om dat geweten te "lezen" met een simpele meetlat, wat een enorme stap is voor het maken van betrouwbaardere en veiligere AI-systemen.

Each language version is independently generated for its own context, not a direct translation.

Titel: No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

Doelstelling:
Het paper onderzoekt of Large Language Models (LLMs) intern kunnen anticiperen op het moment dat ze een vraag correct zullen beantwoorden, voordat er ook maar één token wordt gegenereerd. De auteurs testen de hypothese dat er een lineaire richting in de residu-stroomactivaties bestaat die onderscheid maakt tussen vragen die het model correct zal beantwoorden en vragen waarop het zal falen.

1. Probleemstelling

Bestaande methoden voor het schatten van de betrouwbaarheid van LLM-antwoorden (zoals het verwoorden van onzekerheid, het analyseren van token-logits, of het genereren van meerdere antwoorden voor semantische consistentie) zijn vaak kostbaar, afhankelijk van de generatie, of onbetrouwbaar.
De kernvraag is: Bevat de interne staat van een LLM, direct na het verwerken van de vraag maar voor de generatie, een lineair signaal dat de toekomstige juistheid van het antwoord voorspelt?

2. Methodologie

De auteurs hanteren een "question-only" benadering, waarbij ze de modelactivaties analyseren voordat het model begint met antwoorden.

Data-extractie: Voor een reeks open-source modellen (variërend van 7B tot 70B parameters) worden de residu-stroomactivaties ( $h^{(l)}$ ) geëxtraheerd bij het laatste token van de vraag, voor elke laag $l$ .
Labeling: Vervolgens wordt het model gevraagd de vraag te beantwoorden (met temperatuur 0). Het antwoord wordt vergeleken met de grondwaarheid (ground truth) om een binair label (Correct/Incorrect) te bepalen.
Lineaire Probe (Difference-of-Means):
- In plaats van complexe niet-lineaire netwerken, gebruiken de auteurs een eenvoudige lineaire classifier.
- Ze berekenen het gemiddelde activatievector voor correcte antwoorden ( $\mu_{true}$ ) en voor incorrecte antwoorden ( $\mu_{false}$ ).
- De "correctheidsrichting" ( $w$ ) wordt gedefinieerd als het verschil tussen deze centroiden: $w = \mu_{true} - \mu_{false}$ .
- De score voor een nieuwe vraag wordt berekend door de projectie van de activatievector op deze genormaliseerde richting: $score(h) = (h - \mu)^\top \frac{w}{\|w\|}$ .
Evaluatiemetaiek: De prestaties worden gemeten met de Area Under the Receiver Operating Characteristic Curve (AUROC). Dit is onafhankelijk van een specifieke drempelwaarde en meet hoe goed de richting correcte van incorrecte antwoorden kan scheiden.
Datasets: Er zijn diverse datasets gebruikt, waaronder TriviaQA (algemene kennis), specifieke datasets voor steden, beroemdheden en olympische medailles, en wiskundige datasets (Math Operations en GSM8K).

3. Belangrijkste Resultaten

De experimenten werden uitgevoerd op zes modellen (o.a. Llama 3.1/3.3, Qwen 2.5, Mistral, DeepSeek) over drie families.

Lineaire Scheidbaarheid: Er is een sterk bewijs gevonden dat een "correctheidsrichting" lineair scheidbaar is in de activatieruimte. Een probe getraind op TriviaQA generaliseert uitstekend naar andere feitelijke domeinen (steden, personen, medailles), zelfs zonder dat het model deze specifieke domeinen heeft gezien tijdens het trainen van de probe.
Superioriteit t.o.v. Baselines: De lineaire probe op interne activaties presteert significant beter dan zwarte-kas baselines (zoals XGBoost getraind op externe tekst-embeddings) en methoden waarbij het model zijn eigen onzekerheid verbaal moet uitdrukken. Dit suggereert dat het signaal intrinsiek is aan het model en niet alleen in de oppervlakkige semantiek van de vraag zit.
Laag-afhankelijkheid: Het signaal is zwak in de vroege lagen en bereikt een verzadiging in de intermediate tot late lagen van de transformer. Dit suggereert dat het model zijn eigen beoordeling van de vraag "kristalliseert" halverwege de berekening.
Fout in Wiskundig Redeneren: Hoewel het signaal goed generaliseert over feitelijke kennis, faalt het volledig bij wiskundig redeneren (GSM8K). De AUROC-scores voor wiskunde blijven dicht bij willekeur (0.5). Dit wijst erop dat "feitelijke juistheid" en "wiskundige juistheid" mogelijk orthogonale of structureel verschillende vectoren zijn binnen het model.
Correlatie met "Ik weet het niet" (Abstention): Voor vragen waarop het model antwoordt met "Ik weet het niet" (IDK), bevinden de activaties zich consistent aan het negatieve uiteinde van de correctheidsrichting. Dit impliceert dat dezelfde richting ook een latent vertrouwen (confidence) signaal vastlegt.
Schalingswetten: Het signaal is het sterkst en meest consistent bij het grootste geteste model (Llama 3.3 70B), wat suggereert dat grotere modellen beter in staat zijn hun eigen prestaties intern te voorspellen.
Data-efficiëntie: De probe vereist zeer weinig trainingsdata; robuuste prestaties worden al bereikt met slechts 160 voorbeelden.

4. Bijdragen en Significance

Fundamenteel Inzicht: Het paper levert bewijs voor de Linear Representation Hypothesis voor zelf-correctheid. Het toont aan dat LLMs een coherent, lineair toegankelijk signaal van hun eigen competentie coderen in hun residu-stroom.
Veiligheid en Toepassing: De bevindingen hebben grote implicaties voor AI-veiligheid. Omdat dit signaal beschikbaar is voordat het model een antwoord genereert, kan het worden gebruikt voor:
- Early Stopping: Het onderbreken van generatie bij een laag vertrouwenssignaal.
- Fallback-mechanismen: Het doorsturen van twijfelachtige vragen naar menselijke operators of veiligere systemen.
- Robuustheid: Het biedt een goedkope, witte-kas methode om hallucinaties of fouten te detecteren zonder extra generatiekosten.
Onderscheidende Vermogens: Het paper benadrukt een belangrijke nuance: de interne mechanismen voor feitelijke kennisoverdracht lijken fundamenteel verschillend van die voor complexe redenering (wiskunde). Dit is een cruciale beperking voor huidige LLM-architecturen.

Conclusie

De auteurs hebben aangetoond dat LLMs een "in-advance" signaal van correctheid bezitten dat lineair uit hun interne activaties kan worden gehaald. Hoewel dit signaal zeer effectief is voor feitelijke kennis en vertrouwensschatting, blijkt het niet te generaliseren naar wiskundig redeneren. Deze bevindingen openen nieuwe wegen voor het bouwen van betrouwbaardere AI-systemen die hun eigen onzekerheid kunnen detecteren voordat ze fouten maken.

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

1. De "Zenuwstelsel"-Scan

2. De "Compasnaald" (De Lineaire Proef)

3. Waar zit dit "weten"? (De verdiepingen)

4. De "Ik weet het niet"-Knop

5. De Zwakke Plek: Wiskunde

Waarom is dit belangrijk?

Titel: No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

1. Probleemstelling

2. Methodologie

3. Belangrijkste Resultaten

4. Bijdragen en Significance

Conclusie

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis