I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom LLM's Menselijke Concepten Begrijpen (Zelfs Zonder Dat We Ze Leren)

Stel je voor dat je een gigantische bibliotheek hebt met miljarden boeken. Je bouwt een robot die deze boeken leest, één woord per keer, en probeert te raden welk woord er als volgende komt. Dit is precies wat grote taalmodellen (LLMs) doen. Maar hier is het mysterie: hoewel deze robot alleen maar "woord-predictie" doet, blijkt hij op de lange termijn een soort intern geheugen te ontwikkelen dat menselijke concepten bevat, zoals "sfeer", "stijl" of "waarheid".

De vraag die deze paper beantwoordt is: Hoe kan een robot die alleen maar naar de volgende letterkijkt, eigenlijk begrijpen wat een "concept" is?

Hier is de uitleg, vertaald naar alledaagse taal met een paar creatieve vergelijkingen.

1. Het Grote Geheim: De Onzichtbare Regisseur

Stel je voor dat elke zin die we schrijven, niet zomaar uit het niets komt. Achter de schermen zit een onzichtbare regisseur (de auteurs noemen dit latente variabelen). Deze regisseur bepaalt de "stem" van de tekst.

Is het een grappig verhaal? (Regisseur: "Gebruik de 'humor'-knop").
Is het een nieuwsbericht? (Regisseur: "Gebruik de 'formeel'-knop").

De tekst die we zien (de woorden), is het resultaat van wat deze regisseur doet. Het probleem is: we zien alleen de woorden, niet de regisseur zelf.

2. De Magie van de Robot

De onderzoekers hebben ontdekt dat deze robots, terwijl ze oefenen om de volgende woorden te voorspellen, eigenlijk een spiegel van die onzichtbare regisseur bouwen in hun hoofd.

Zelfs als de regisseur een beetje verwarrend is (bijvoorbeeld: verschillende regisseurs kunnen soms dezelfde zin produceren, of één regisseur kan veel verschillende zinnen maken), lukt het de robot toch om de regisseur te "ontmaskeren".

De Analogie van de Muziek:
Stel je voor dat je een orkest hoort spelen. Je ziet de muzikanten niet, je hoort alleen het geluid.

De robot is iemand die alleen naar het geluid luistert en probeert te raden welk instrument als volgende speelt.
Na duizenden uren luisteren, begint de robot niet alleen het geluid te voorspellen, maar begrijpt hij ook welke muzikant (het concept) er eigenlijk achter zit. Hij kan zeggen: "Ah, dit klinkt alsof de 'cello' (een concept) nu speelt."

3. De Wiskundige "Magie" (Maar dan Eenvoudig)

De paper bewijst wiskundig dat de manier waarop de robot een zin "voelt" (zijn interne representatie), eigenlijk een lineaire vertaling is van de kans dat een bepaald concept aanwezig is.

Vroeger dachten we: "De robot heeft een ingewikkeld, ondoorzichtig brein."
Nu weten we: "Het brein van de robot is eigenlijk een simpele lijn. Als je de 'waarschijnlijkheid van humor' in de zin verhoogt, beweegt de robot's interne gedachte in een rechte lijn in de richting van 'grappig'."

Dit betekent dat als je de robot wilt "sturen" om grappiger te zijn, je niet hoeft te knutselen aan duizenden knoppen. Je hoeft alleen maar een beetje in de richting van "grappig" te duwen. Dit verklaart waarom onderzoekers al lang hebben gezien dat je LLM's kunt manipuleren met simpele pijlen (vector offsets).

4. Waarom is dit belangrijk? (De Praktijk)

Deze ontdekking is als het vinden van de gebruiksaanwijzing voor een supergeavanceerde machine die we niet zelf hebben ontworpen.

Betere Controle: Omdat we nu weten dat concepten lineair zijn, kunnen we de robot makkelijker sturen. We kunnen hem dwingen om eerlijk te zijn of om een bepaald schrijfstijl aan te nemen, zonder dat we hem opnieuw hoeven te trainen.
De "Schaal" Test (SAEs): Er zijn tools (zoals Sparse Autoencoders) die proberen om de "geheime concepten" uit het brein van de robot te halen, alsof je een radio uit elkaar haalt om de luidsprekers te vinden.
- De paper zegt: "Hoe weten we of die tool goed werkt?"
- Het Nieuwe Testje: We kunnen nu testen of de tool de concepten echt heeft gevonden door te kijken of de gevonden concepten lijken op de "lineaire lijnen" die de theorie voorspelt.
- Het Resultaat: De onderzoekers hebben een nieuwe, betere versie van deze tool gebouwd (de Structured SAE) die beter werkt omdat hij rekening houdt met hoe concepten met elkaar verbonden zijn (net zoals in het echte leven "grappig" en "niet serieus" vaak samen voorkomen).

Samenvatting in één zin

Deze paper bewijst dat grote taalmodellen, door simpelweg de volgende woorden te voorspellen, onbewust een lineaire kaart van menselijke concepten leren bouwen, waardoor we deze modellen eindelijk kunnen begrijpen, sturen en testen alsof we een goed georganiseerd kantoor hebben in plaats van een rommelige schuur.

Kortom: De robot denkt niet in ingewikkelde mysteries, maar in simpele lijnen die we eindelijk kunnen lezen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) presteren uitstekend op diverse taken, maar hun interne representaties (activaties) blijven grotendeels een "black box". Er is wel empirisch bewijs dat deze representaties menselijk interpreteerbare concepten (zoals sentiment, schrijfstijl of gender) coderen, vaak in een lineaire vorm (de "Linear Representation Hypothesis"). Echter, de theoretische mechanismen die verklaren waarom en hoe deze concepten ontstaan door middel van de trainingsdoelstelling "next-token prediction" (het voorspellen van het volgende woord), zijn onvoldoende onderzocht. Bestaande theorieën gebruiken vaak vereenvoudigende aannames, zoals continue variabelen of vereiste inverteerbaarheid van de generatieve mapping, die niet volledig overeenkomen met de discrete en complexe aard van taaldata.

Methodologie

De auteurs introduceren een nieuw latent variabelenmodel om het generatieproces van tekst te modelleren en analyseren de identificeerbaarheid van deze latenten binnen het next-token prediction raamwerk.

Discreet Latent Variabelenmodel:
- Menselijk interpreteerbare concepten ( $c$ ) worden gemodelleerd als discrete latent variabelen (in tegenstelling tot continue variabelen in eerdere werken).
- Deze latenten genereren geobserveerde tekstdata ( $x$ als context, $y$ als het volgende token) via een generatieve mapping $g$ .
- Cruciale innovatie: Het model vereist geen inverteerbaarheid van de mapping $g$ van latent naar geobserveerde ruimte. Dit is realistischer voor taal, waar verschillende conceptcombinaties tot hetzelfde woord kunnen leiden (veel-op-één relatie) en waar impliciete concepten (zoals intentie) niet direct zichtbaar zijn in de tekst.
Identificeerbaarheidsanalyse:
- De auteurs analyseren de relatie tussen de LLM-representaties $f_x(x)$ (de logits/activaties) en de posteriorverdeling van de latenten $p(c|x)$ .
- Ze stellen drie voorwaarden op:
  - Diversiteitsvoorwaarde: Er moet een voldoende diverse set van tokens bestaan zodat de verschilvectoren van de modelgewichten lineair onafhankelijk zijn.
  - TV-voorwaarde (Total Variation): De posterior $p(c|y)$ mag niet te sterk fluctueren tussen verschillende tokens.
  - Coverage-voorwaarde: De conditionele posteriors moeten goed gedrag vertonen (geen extreme log-factoren).
- Onder deze "milde" voorwaarden bewijzen ze een identificeerbaarheidsresultaat: de LLM-representaties zijn lineair gerelateerd aan de log-posterior van de latenten.
Theoretische Afleiding:
- De kernformule luidt: $f_x(x) \approx A [\log p(c_i | x)]_i + b$ , waarbij $A$ een lineaire transformatie is en $b$ een constante.
- Dit betekent dat de interne representaties van een LLM in feite de log-kansen van onderliggende concepten weergeven, tot op een lineaire transformatie na.
Empirische Validatie:
- Simulatie: Gebruik van synthetische data met willekeurige DAG-structuren (Directed Acyclic Graphs) om de theorie te testen onder gecontroleerde omstandigheden.
- Real-world LLMs: Experimenten uitgevoerd op modellen uit de Pythia, Llama (2 en 3) en DeepSeek-R1 families.
- Evaluatie van Sparse Autoencoders (SAEs): Toepassing van de theorie om een nieuwe evaluatiemethode voor SAE's te ontwikkelen, die concepten proberen te ontrafelen.

Belangrijkste Bijdragen

Theoretisch Bewijs voor Lineariteit:
Het paper biedt een rigoureuze theoretische onderbouwing voor de "Linear Representation Hypothesis". Het toont aan dat next-token prediction, zelfs zonder expliciete supervisie op concepten, leidt tot representaties die lineair gecodeerde informatie bevatten over de onderliggende discrete latenten.
Unificatie van Bestaande Fenomenen:
De afgeleide lineaire matrix $A$ biedt een unificerend perspectief op diverse empirische observaties:
- Concepten als Richtingen: Het verklaart waarom vectordifferenties (bijv. "man" - "vrouw") consistent zijn over verschillende contexten.
- Concept Manipulatie: Het verklaart waarom het toevoegen van een "steering vector" de output van het model op een voorspelbare manier verandert.
- Linear Probing: Het onderbouwt waarom lineaire klassificatoren effectief kunnen worden gebruikt om concepten uit LLM-activaties te extraheren.
Nieuwe Evaluatiemethode voor SAE's:
De auteurs stellen een theoretisch gefundeerde methode voor om Sparse Autoencoders te evalueren. In plaats van alleen reconstructiefouten te meten, wordt de lineaire correlatie tussen de SAE-features en de geschatte posterior $p(c|x)$ (verkregen via lineaire probes op contrafactuele paren) gemeten.
Structuur-gebaseerde SAE's:
Geïnspireerd door de onderlinge afhankelijkheid van latenten in hun model, introduceren ze Structured SAE's. Deze gebruiken naast sparsiteit ook een lage-rang regularisatie (nuclear norm) om de onderlinge relaties tussen concepten te modelleren, wat leidt tot betere prestaties.

Resultaten

Theoretische Validatie: De simulaties tonen aan dat de classificatie-accuraatheid van latenten toeneemt naarmate de mapping van latent naar geobserveerde ruimte meer inverteerbaar wordt, wat de theorie bevestigt.
LLM Experimenten:
- De product $A_s W_s$ (waarbij $A_s$ de richting van concepten is en $W_s$ de gewichten van een lineaire probe) benadert de eenheidsmatrix ( $I$ ) over verschillende modelarchitecturen (Pythia, Llama, DeepSeek). Dit bevestigt Corollary 4.3: de richting van concepten en de probe-gewichten zijn consistent.
- De resultaten zijn robuust over verschillende seeds en modelgroottes.
SAE Experimenten:
- De voorgestelde evaluatiemethode (Pearson-correlatie met log-posteriors) onderscheidt effectief tussen verschillende SAE-varianten.
- De Structured SAE (met lage-rang regularisatie) presteert consequent beter dan standaard SAE's (zoals top-k of p-annealing) op zowel de nieuwe evaluatiemeta-riek als op traditionele reconstructiefouten (MSE). Dit suggereert dat het modelleren van afhankelijkheden tussen concepten essentieel is voor het ontrafelen van menselijk interpreteerbare features.

Significantie

Dit werk vormt een brug tussen causale representatieleren en de interpretatie van Large Language Models.

Fundamenteel Inzicht: Het bevestigt dat LLMs, door simpelweg het volgende woord te voorspellen, een interne wereldmodel opbouwen dat lineair correspondeert met menselijke concepten. Dit ondersteunt het idee dat LLMs de "menselijke wereld" nabootsen in plaats van de fysieke realiteit direct.
Praktische Impact: De voorgestelde evaluatiemethode voor SAE's biedt een objectieve, theoretisch onderbouwde manier om te bepalen of een model daadwerkelijk monosemantische (menselijk interpreteerbare) concepten leert, wat cruciaal is voor mechanistische interpretatie en veiligheidscontroles.
Toekomstige Richting: Het paper opent de weg voor het "lineair ontwarren" (linear unmixing) van LLM-representaties om directe toegang te krijgen tot de kansen van individuele concepten, wat een stap kan zijn naar het inbedden van causale redenering in AI-systemen.

Kortom, het paper bewijst dat "voorspellen" (next-token prediction) voldoende is om complexe, menselijke concepten te leren, en biedt de wiskundige tools om dit proces te analyseren en te optimaliseren.

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

1. Het Grote Geheim: De Onzichtbare Regisseur

2. De Magie van de Robot

3. De Wiskundige "Magie" (Maar dan Eenvoudig)

4. Waarom is dit belangrijk? (De Praktijk)

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics