Beyond Scalars: Evaluating and Understanding LLM Reasoning via Geometric Progress and Stability

Het artikel introduceert TRACED, een raamwerk dat de redeneerkwaliteit van taalmodellen analyseert via geometrische kinematica, waarbij correcte redenering wordt gekenmerkt door stabiele voortgang en hallucinaties door onstabiele patronen met hoge kromming.

Xinyan Jiang, Ninghao Liu, Di Wang, Lijie Hu

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Large Language Model (een slimme AI) een ingewikkeld raadsel probeert op te lossen. Vaak zien we alleen het eindresultaat: het antwoord. Maar hoe weten we of de AI het antwoord heeft bedacht of dat het gewoon een mooi klinkend verhaal heeft verzonnen (een hallucinatie)?

Deze paper introduceert een nieuwe manier om dit te zien, genaamd TRACED. In plaats van alleen te kijken naar het antwoord, kijken we naar de reis die de AI maakt in haar gedachten.

Hier is de uitleg in simpele taal, met behulp van een paar creatieve analogieën:

1. Het Probleem: De "Gekke" Reis

Stel je voor dat je een wandeling maakt door een bos om een schat te vinden.

  • Een slimme wandelaar (Goede redenering): Hij loopt in een rechte lijn, ziet duidelijk waar hij naartoe gaat en komt snel bij de schat. Hij aarzelt niet en maakt geen omwegen.
  • Een verwarde wandelaar (Slechte redenering/Hallucinatie): Hij loopt in kringen, stopt vaak om naar een verkeerd pad te kijken, loopt terug naar waar hij vandaan kwam, en draait zich steeds weer om. Uiteindelijk komt hij misschien wel bij de schat (door toeval), maar de weg was een chaos.

Tot nu toe keken onderzoekers alleen naar de wandelaar aan het einde: "Heeft hij de schat?" Maar TRACED kijkt naar de voetsporen in het bos.

2. De Oplossing: Twee Meetlatjes

TRACED meet twee dingen aan de "voetsporen" van de AI in haar interne gedachtenruimte:

A. Vooruitgang (Progress) = De Afgelegde Weg

Dit is de afstand die de AI heeft afgelegd.

  • Goed: De AI maakt duidelijke stappen vooruit. Elke zin voegt iets nieuws toe aan het verhaal. Het is alsof je een ladder opklimt; je gaat steeds hoger.
  • Slecht: De AI loopt op de plaats. Ze herhaalt dingen of draait in kringen. Het is alsof je in een cirkel loopt in het bos zonder de boom te verlaten.

B. Stabiliteit (Stability) = De Kromming van het Pad

Dit is hoe recht of krullend het pad is.

  • Goed: Het pad is glad en recht. De AI denkt logisch door. Er zijn geen scherpe bochten.
  • Slecht: Het pad zit vol met scherpe bochten en zig-zags. De AI twijfelt, verandert van mening en draait zich om. In de paper noemen ze dit "Hesitation Loops" (Twijfel-lussen). Het is alsof je steeds van richting verandert omdat je niet zeker bent.

3. Het Magische Patroon

De onderzoekers ontdekten een heel duidelijk patroon:

  • Waarheid ziet eruit als een snelle, rechte lijn (veel vooruitgang, weinig kromming).
  • Leugens (Hallucinaties) zien eruit als een trage, kromme lijn (weinig vooruitgang, veel kromming).

Het is alsof je een GPS hebt die niet alleen kijkt of je op de bestemming bent, maar ook kijkt of je een efficiënte route hebt gevolgd. Als je GPS ziet dat je urenlang in een cirkel hebt gereden, weet hij dat er iets mis is, zelfs als je uiteindelijk toch op de plek bent aangekomen.

4. Waarom is dit zo slim?

  • Geen externe controle nodig: Je hoeft niet te weten wat het juiste antwoord is om te zien of de AI het goed doet. Je kijkt alleen naar hoe de AI denkt.
  • Sneller: Het is veel sneller dan het laten controleren van het antwoord door een andere, nog slimmere AI.
  • Begrijpelijk: Het geeft ons een "fysieke" manier om te zien wat er in het hoofd van de machine gebeurt. Het vertaalt wiskundige kromming naar menselijk gedrag: "Oh, deze AI zit vast in een twijfel-lus."

Samenvattend

Deze paper zegt eigenlijk: "Kijk niet alleen naar het antwoord, kijk naar de reis."

Als een AI een antwoord geeft, kunnen we nu met een meetlatje (TRACED) zien of die AI een zekere, rechte weg heeft bewandeld (betrouwbaar) of dat het een verward, kronkelend pad was (onbetrouwbaar). Dit helpt ons om te voorkomen dat we blindelings vertrouwen op slimme klinkende, maar foutieve antwoorden.