Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

Dit paper introduceert Truth as a Trajectory (TaT), een methode die de redenering van grote taalmodellen analyseert door layer-over-layer geometrische verplaatsingen in plaats van statische activaties, waardoor het betrouwbaarder onderscheid maakt tussen geldige redenering en oppervlakkige patronen.

Hamed Damirchi, Ignacio Meza De la Jara, Ehsan Abbasnejad, Afshar Shamsi, Zhen Zhang, Javen Shi

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De waarheid als een reis: Wat het denken van AI ons leert

Stel je voor dat je een grote, slimme robot hebt die vragen beantwoordt. Soms geeft hij het juiste antwoord, soms een fout antwoord. De oude manier om te kijken of deze robot slim is, was als een foto maken. Je keek naar één momentopname van zijn gedachten (de "activaties" in een bepaald laagje van zijn brein) en probeerde daar te zien of het antwoord goed was.

De onderzoekers van dit papier zeggen echter: "Wacht even, een foto vertelt niet het hele verhaal."

Hier is wat ze hebben ontdekt, vertaald naar alledaags taal:

1. Het probleem: De foto is te statisch

Stel je voor dat je iemand ziet die een zware koffer draagt. Als je alleen naar de foto kijkt, zie je alleen de koffer. Je weet niet of hij de koffer net heeft opgetild, of dat hij hem al urenlang draagt, of dat hij hem juist weer laat zakken.

Bij AI-modellen is het hetzelfde. Ze bevatten heel veel informatie tegelijk (woorden, zinsbouw, feiten). Als je alleen naar één moment kijkt, leert de computer vaak alleen maar oppervlakkige trucjes. Bijvoorbeeld: "Als het woord 'giftig' in de zin staat, is het antwoord fout." Maar dat is niet echt begrijpen; dat is gissen op basis van oppervlakkige patronen.

2. De oplossing: Kijk naar de dans, niet naar de danser

De auteurs noemen hun nieuwe methode "Truth as a Trajectory" (Waarheid als een Traject). In plaats van een foto, kijken ze naar een video van hoe de AI denkt.

Stel je voor dat de AI een wandeling maakt door een groot park (het "activatieruimte").

  • Het juiste antwoord: De wandeling is soepel. De AI loopt een logisch pad, maakt kleine, gestage passen en komt rustig aan bij de bestemming. Het is als een wandeling door een goed uitgestippeld parkpad.
  • Het foute antwoord: De wandeling is chaotisch. De AI loopt heen en weer, maakt scherpe bochten, stopt plotseling en rent in de verkeerde richting. Het is alsof iemand in het park verdwaalt en paniek krijgt.

Deze methode kijkt niet naar waar de AI staat, maar naar hoe hij daar komt. Ze meten de veranderingen tussen elke stap die de AI zet.

3. Waarom werkt dit beter?

De onderzoekers hebben ontdekt dat als je kijkt naar de beweging (de verandering tussen de lagen van het brein), je de echte "denkstructuur" ziet.

  • Voorbeeld met een auto:
    • Een foto (oude methode) laat je zien dat de auto op snelweg 100 km/u rijdt. Is dat goed of slecht? Je weet het niet.
    • Een video (nieuwe methode) laat je zien dat de auto eerst remt, dan scherp naar links slaait en daarna weer versnelt. Dat gedrag (de beweging) vertelt je of de bestuurder gevaarlijk rijdt, zelfs als je niet weet waar hij naartoe gaat.

Dit werkt zelfs als de AI heel verschillende taken doet (van logische raadsels tot het detecteren van haatzaaiende taal). De "dans" van een correcte redenering ziet er altijd op een bepaalde manier uit, ongeacht het onderwerp.

4. Wat hebben ze bewezen?

Ze hebben hun methode getest op verschillende modellen en taken:

  • Beter dan de AI zelf: Soms kan de AI zelf niet goed zeggen of zijn eigen antwoord klopt. Maar als je naar de "dans" kijkt, ziet hun systeem het fout antwoord vaak sneller en beter dan de AI zelf.
  • Veiligheid: Bij het detecteren van giftige taal (haatzaaiende taal) werkt het heel goed. Soms gebruikt een AI een giftig woord in een grapje of een citaat. De oude methoden denken dan direct: "Giftig!". Maar de nieuwe methode kijkt naar de beweging: "Ah, de AI gebruikt dit woord als een citaat, de beweging is soepel en logisch. Het is geen echte haat."

Conclusie

Deze paper zegt eigenlijk: Stop met kijken naar statische foto's van het brein van AI. Kijk naar de film.

Door te kijken naar hoe de gedachten van de AI zich bewegen en ontwikkelen van het begin tot het einde, kunnen we veel beter begrijpen of de AI echt redeneert of dat hij gewoon gissen doet. Het is een nieuwe manier om te vertrouwen op slimme machines, niet door te kijken wat ze zeggen, maar door te kijken hoe ze erbij komen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →