Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

Each language version is independently generated for its own context, not a direct translation.

De waarheid als een reis: Wat het denken van AI ons leert

Stel je voor dat je een grote, slimme robot hebt die vragen beantwoordt. Soms geeft hij het juiste antwoord, soms een fout antwoord. De oude manier om te kijken of deze robot slim is, was als een foto maken. Je keek naar één momentopname van zijn gedachten (de "activaties" in een bepaald laagje van zijn brein) en probeerde daar te zien of het antwoord goed was.

De onderzoekers van dit papier zeggen echter: "Wacht even, een foto vertelt niet het hele verhaal."

Hier is wat ze hebben ontdekt, vertaald naar alledaags taal:

1. Het probleem: De foto is te statisch

Stel je voor dat je iemand ziet die een zware koffer draagt. Als je alleen naar de foto kijkt, zie je alleen de koffer. Je weet niet of hij de koffer net heeft opgetild, of dat hij hem al urenlang draagt, of dat hij hem juist weer laat zakken.

Bij AI-modellen is het hetzelfde. Ze bevatten heel veel informatie tegelijk (woorden, zinsbouw, feiten). Als je alleen naar één moment kijkt, leert de computer vaak alleen maar oppervlakkige trucjes. Bijvoorbeeld: "Als het woord 'giftig' in de zin staat, is het antwoord fout." Maar dat is niet echt begrijpen; dat is gissen op basis van oppervlakkige patronen.

2. De oplossing: Kijk naar de dans, niet naar de danser

De auteurs noemen hun nieuwe methode "Truth as a Trajectory" (Waarheid als een Traject). In plaats van een foto, kijken ze naar een video van hoe de AI denkt.

Stel je voor dat de AI een wandeling maakt door een groot park (het "activatieruimte").

Het juiste antwoord: De wandeling is soepel. De AI loopt een logisch pad, maakt kleine, gestage passen en komt rustig aan bij de bestemming. Het is als een wandeling door een goed uitgestippeld parkpad.
Het foute antwoord: De wandeling is chaotisch. De AI loopt heen en weer, maakt scherpe bochten, stopt plotseling en rent in de verkeerde richting. Het is alsof iemand in het park verdwaalt en paniek krijgt.

Deze methode kijkt niet naar waar de AI staat, maar naar hoe hij daar komt. Ze meten de veranderingen tussen elke stap die de AI zet.

3. Waarom werkt dit beter?

De onderzoekers hebben ontdekt dat als je kijkt naar de beweging (de verandering tussen de lagen van het brein), je de echte "denkstructuur" ziet.

Voorbeeld met een auto:
- Een foto (oude methode) laat je zien dat de auto op snelweg 100 km/u rijdt. Is dat goed of slecht? Je weet het niet.
- Een video (nieuwe methode) laat je zien dat de auto eerst remt, dan scherp naar links slaait en daarna weer versnelt. Dat gedrag (de beweging) vertelt je of de bestuurder gevaarlijk rijdt, zelfs als je niet weet waar hij naartoe gaat.

Dit werkt zelfs als de AI heel verschillende taken doet (van logische raadsels tot het detecteren van haatzaaiende taal). De "dans" van een correcte redenering ziet er altijd op een bepaalde manier uit, ongeacht het onderwerp.

4. Wat hebben ze bewezen?

Ze hebben hun methode getest op verschillende modellen en taken:

Beter dan de AI zelf: Soms kan de AI zelf niet goed zeggen of zijn eigen antwoord klopt. Maar als je naar de "dans" kijkt, ziet hun systeem het fout antwoord vaak sneller en beter dan de AI zelf.
Veiligheid: Bij het detecteren van giftige taal (haatzaaiende taal) werkt het heel goed. Soms gebruikt een AI een giftig woord in een grapje of een citaat. De oude methoden denken dan direct: "Giftig!". Maar de nieuwe methode kijkt naar de beweging: "Ah, de AI gebruikt dit woord als een citaat, de beweging is soepel en logisch. Het is geen echte haat."

Conclusie

Deze paper zegt eigenlijk: Stop met kijken naar statische foto's van het brein van AI. Kijk naar de film.

Door te kijken naar hoe de gedachten van de AI zich bewegen en ontwikkelen van het begin tot het einde, kunnen we veel beter begrijpen of de AI echt redeneert of dat hij gewoon gissen doet. Het is een nieuwe manier om te vertrouwen op slimme machines, niet door te kijken wat ze zeggen, maar door te kijken hoe ze erbij komen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Truth as a Trajectory (TaT): Wat interne representaties onthullen over redenering in Large Language Models

1. Het Probleem

Bestaande methoden voor het verklaren van Large Language Models (LLMs) behandelen interne toestanden (hidden states) vaak als statische punten in de activatieruimte. De aanname is dat correcte en incorrecte inferenties kunnen worden gescheiden door representaties uit een enkele, specifieke laag te analyseren.

Beperkingen: Deze statische benadering faalt omdat activaties verzadigd zijn met polysemantische kenmerken (woorden die meerdere betekenissen hebben). Lineaire probes (lineaire classificatoren) leren hierdoor vaak oppervlakkige lexicale patronen in plaats van onderliggende redeneerstructuren.
Generalisatieprobleem: Methoden die gebaseerd zijn op statische probes presteren slecht bij het generaliseren naar nieuwe taken of domeinen (Out-of-Distribution), omdat ze afhankelijk zijn van specifieke dataset-kenmerken en niet van de fundamentele geometrie van redeneren.
Doel: Er is een behoefte aan een methode die het interne denkproces van een LLM kan verifiëren, niet alleen de waarschijnlijkheid van de uiteindelijke output, om veiligheidskritieke toepassingen betrouwbaarder te maken.

2. Methodologie: Truth as a Trajectory (TaT)

De auteurs introduceren Truth as a Trajectory (TaT), een raamwerk dat LLM-inferentie niet als een verzameling statische momentopnamen, maar als een dynamisch proces modelleert.

Van Statiek naar Dynamiek: In plaats van de absolute activatiewaarden ( $h_{\ell}$ $h_{ℓ}$ ) in een bepaalde laag te analyseren, analyseert TaT de verplaatsing (displacement) tussen opeenvolgende lagen.
- De verplaatsingsvector wordt gedefinieerd als: $\Delta h_{\ell} = h_{\ell+1} - h_{\ell}$ .
- Dit proces "ontvouwt" de inferentie over alle tokens en lagen tot een continue traject in de representatieruimte.
Waarom verplaatsing? Door het verschil tussen lagen te nemen, wordt de statische achtergrond (zoals token-identiteit en prompt-specifieke inhoud) geattenuerd. Hierdoor isoleert de methode de actieve updates die het model maakt tijdens het redeneren, los van de semantische inhoud.
Architectuur:
- De verplaatsingsvectoren worden gestapeld tot een sequentie $S_i$ .
- Een lichtgewicht LSTM (Long Short-Term Memory) netwerk wordt gebruikt om deze sequentie te verwerken. De LSTM is gekozen om de niet-lineaire structurele invarianten en de sequentiële afhankelijkheid van de geometrische updates te modelleren.
- De LSTM voorspelt de validiteit van de redenering op basis van het geometrische traject, zonder toegang tot de oorspronkelijke activatiewaarden zelf, maar alleen hun veranderingen.

3. Belangrijkste Bijdragen

Trajecto-gebaseerde verklaring: Een nieuw perspectief dat LLM-inferentie modelleert als een dynamisch proces dat zich ontvouwt over lagen en tokens, in plaats van te focussen op individuele lagen.
Cross-taken Geometrische Invarianten: Door te focussen op verplaatsingsvectoren in plaats van absolute activaties, reduceert TaT de afhankelijkheid van statische lexicale features. Dit blootlegt structurele patronen die onzichtbaar zijn voor lineaire probes en die generaliseren over verschillende taken.
Betrouwbare gedragsdetectie: De methode is succesvol toegepast op complexe gedragskenmerken zoals toxiciteitsdetectie, waarbij het beter onderscheid maakt tussen giftige intentie en neutraal gebruik van giftige woorden (bijv. in citaten) dan traditionele methoden.

4. Resultaten en Evaluatie

De auteurs evalueren TaT op diverse benchmarks (commonsense redenering, vragen beantwoorden, feitelijke juistheid, toxiciteit) voor zowel dense als Mixture-of-Experts (MoE) architecturen (o.a. Llama-3.1-8B, Qwen2.5).

Generalisatie (OOD): TaT toont opmerkelijke generalisatie. Een classifier getraind op één dataset (bijv. ARC-Challenge) presteert sterk op andere, ongezette datasets zonder fijnafstemming. Dit staat in schril contrast met lineaire probes, die vaak sterk presteren op de trainingsdomeinen maar drastisch dalen bij Out-of-Distribution (OOD) data.
Vergelijking met Baselines:
- TaT overtreft zowel lineaire probes als de "zero-shot" en "few-shot" prestaties van het basismodel zelf.
- In vergelijking met Low-Rank Adaptation (LoRA) toont TaT een robuustere generalisatie, wat suggereert dat TaT een fundamentele geometrische invariant leert in plaats van te overfitten op de semantische verdeling van de trainingsdata.
Toxiciteitsdetectie: Op de ToxiGen-benchmark (die ontworpen is om moeilijk te zijn voor keyword-gebaseerde classifiers) presteert TaT significant beter dan lineaire probes en modellen die op ruwe activaties werken. Dit bevestigt dat TaT de manier van genereren (geometrie) analyseert in plaats van de inhoud (woorden).
Ablatie Studies:
- Het gebruik van verplaatsing (displacement) is cruciaal; modellen die op ruwe activaties werken, overfitten sneller op lexicale patronen.
- Het modelleren van het volledige traject (zowel diepte als tokens) is noodzakelijk; het beperken tot één laag of één token leidt tot een sterke daling in generalisatie.
- De volgorde van de sequentie is essentieel; een volgorde-onafhankelijke baseline (Set MLP) presteert slechter dan de LSTM, wat aantoont dat de dynamiek van de updates belangrijk is.

5. Betekenis en Conclusie

Dit onderzoek biedt een fundamentele verschuiving in hoe we LLM-interne processen interpreteren.

Theoretisch: Het ondermijnt het idee dat "waarheid" of "redeneren" als een statisch punt in een enkele laag bestaat. In plaats daarvan is het een geometrische eigenschap van het traject dat het model doorloopt.
Praktisch: TaT biedt een robuustere manier om de veiligheid en betrouwbaarheid van LLM's te monitoren, zelfs in real-world scenario's met complexe prompts. Het kan spurious reasoning (schijnredenering) detecteren die oppervlakkig correct lijkt maar intern inconsistent is.
Kosten: Hoewel het extraheren van volledige trajecten meer rekenkracht kost dan het monitoren van één laag, is de overhead van de LSTM-classifier verwaarloosbaar in vergelijking met de basisinference, wat een gunstige afweging biedt voor toepassingen waar betrouwbaarheid cruciaal is.

Kortom, Truth as a Trajectory bewijst dat de geometrie van de inferentie een taak-onafhankelijke, invariant signatuur biedt voor de geldigheid van redenering, wat een nieuwe weg opent voor betrouwbaardere interpretatie en monitoring van AI-systemen.

Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

1. Het probleem: De foto is te statisch

2. De oplossing: Kijk naar de dans, niet naar de danser

3. Waarom werkt dit beter?

4. Wat hebben ze bewezen?

Conclusie

Titel: Truth as a Trajectory (TaT): Wat interne representaties onthullen over redenering in Large Language Models

1. Het Probleem

2. Methodologie: Truth as a Trajectory (TaT)

3. Belangrijkste Bijdragen

4. Resultaten en Evaluatie

5. Betekenis en Conclusie

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá