X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

Each language version is independently generated for its own context, not a direct translation.

X-RAY: Een Röntgenfoto voor het Denken van Kunstmatige Intelligentie

Stel je voor dat je een enorme, superintelligente robot hebt die heel goed lijkt te kunnen rekenen en redeneren. Hij haalt perfectie op schoolboeken en lost ingewikkelde wiskundeproblemen op. Maar hoe weet je of hij echt denkt, of dat hij gewoon een enorme lijst met antwoorden uit zijn hoofd heeft geleerd en die nu alleen maar herhaalt?

Dat is precies het probleem dat de auteurs van dit paper (X-RAY) willen oplossen. Ze zeggen: "We meten nu alleen of het antwoord goed is, maar we kijken niet naar hoe de robot daar komt."

Hier is een uitleg van hun idee, vertaald naar alledaags taal met een paar leuke vergelijkingen.

1. Het Probleem: De "Luie Leerling"

Stel je voor dat je een leerling test met een vraag: "Als ik 2 appels heb en er nog 3 bij doe, hoeveel heb ik dan?"
De leerling antwoordt: "5".
Vervolgens vraag je: "En als ik 2 appels heb en er 3,001 bij doe?"
Als de leerling dit ook goed heeft, is hij slim. Maar wat als hij alleen maar het patroon "2 en 3 = 5" heeft geleerd? Dan faalt hij bij de tweede vraag.

Bestaande tests voor AI (zoals schoolexamens) zijn vaak als de eerste vraag. Ze meten alleen het eindresultaat. De AI kan soms gewoon patronen herkennen in plaats van echt te redeneren. Het is alsof je iemand laat raden wat er in een gesloten doos zit door alleen naar de vorm van de doos te kijken, in plaats van hem te laten openen.

2. De Oplossing: X-RAY (De Röntgenfoto)

De auteurs hebben X-RAY bedacht. Dit is geen gewone test, maar een soort röntgenapparaat voor de hersenen van de AI.

In plaats van willekeurige vragen te stellen, bouwen ze vragen die ze zelf hebben ontworpen met een heel strakke, wiskundige structuur. Ze noemen dit "gekalibreerde probes".

De Analogie: Stel je voor dat je een auto wilt testen. Je rijdt niet zomaar over een gladde weg. Je bouwt een speciaal circuit met hellingen, bochten en gaten die je precies kunt aanpassen. Je verandert één ding tegelijk: de helling. Als de auto faalt, weet je precies: "Ah, hij kan geen steile hellingen aan." Je weet niet dat hij faalt omdat de weg nat was of omdat de banden leeg waren.

X-RAY doet dit met vragen. Ze maken een vraag en veranderen dan heel precies één onderdeel (bijvoorbeeld: "voeg nog één extra regel toe aan de regels"). Ze kijken dan of de AI het nog steeds kan.

3. Wat hebben ze ontdekt? (De "A-symmetrie")

Toen ze dit deden, zagen ze iets heel interessants, iets wat ze de "asymmetrie" noemen.

Situatie A (De muren versterken): Stel je voor dat je een kamer hebt waar een schat ligt. Je voegt een extra slot toe aan de deur. De AI moet nu nog steeds dezelfde schat vinden, maar met een extra regel. De meeste slimme AI's doen dit prima. Ze kunnen extra regels aan.
Situatie B (De kamer veranderen): Nu veranderen we de kamer zelf. De vloer is weg, de muren zijn verdwenen en de schat ligt nu in een andere dimensie. De AI moet de hele manier waarop hij zoekt, opnieuw uitvinden.

De verrassing: De AI's doen het goed bij Situatie A, maar zakken dramatisch in Situatie B.
Het is alsof een mens heel goed kan tellen als je vraagt: "Tel 1, 2, 3, 4, 5 en 6." Maar als je vraagt: "Tel nu in een ander systeem waar 5 eigenlijk 6 is," dan raakt de mens in de war. De AI's blijken erg goed te zijn in het volgen van bestaande patronen, maar heel kwetsbaar als de structuur van het probleem verandert.

4. Waarom is dit belangrijk?

Tot nu toe dachten we: "Oh, deze AI haalt 95% op de wiskundetoets, dus hij is slim."
X-RAY zegt: "Nee, wacht even. Hij haalt 95% omdat de vragen op de toets een bepaalde structuur hadden. Als we de structuur een beetje veranderen, zakt hij naar 20%."

Dit helpt ons te begrijpen:

Waar de grenzen liggen: We zien precies waar de AI "breekt".
Geen vals spul: Omdat de vragen door computers zijn gegenereerd en gecontroleerd, kan de AI ze niet uit zijn trainingsdata hebben geleerd (geen "cheaten" door het antwoord te onthouden).
Beter leren: Als we weten waar de AI faalt (bijvoorbeeld: hij kan geen complexe verbanden zien), kunnen we hem daar specifiek op trainen. Het is alsof je een sporter niet alleen laat rennen, maar hem specifiek laat trainen op zijn zwakke been.

Samenvattend

Dit paper introduceert een nieuwe manier om AI te testen. In plaats van te kijken of het antwoord goed is (zoals een leraar die alleen het cijfer kijkt), kijken ze met een X-RAY naar de manier waarop de AI denkt.

Ze ontdekten dat AI's vaak "slimme imitatoren" zijn die goed zijn in bekende patronen, maar snel in de war raken als de regels van het spel veranderen. Met X-RAY kunnen we nu precies zien waar die breuklijnen zitten en AI's echt slimmer maken, in plaats van alleen maar hun cijfers te verbeteren.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Grote Taalmodellen (LLMs) presteren indrukwekkend op bestaande redeneerbenchmarks (zoals wiskunde en logica), maar hun werkelijke redeneercapaciteit blijft slecht begrepen. Bestaande evaluaties focussen voornamelijk op taakniveau-accuraatheid op statische datasets. Dit leidt tot twee fundamentele problemen:

Verwarring van patronen en redenering: Hoge scores kunnen het gevolg zijn van het matchen van oppervlakkige patronen of het onthouden van trainingsdata (contaminatie), in plaats van het daadwerkelijk extraheren en manipuleren van onderliggende structurele constraints.
Gebrek aan interpretatie: Wanneer een model faalt, is het vaak onduidelijk of dit komt door een gebrek aan kennis, een fout in de logische keten, of een kwetsbaarheid in de structuur van het probleem.

Er is behoefte aan een evaluatieframework dat redenering niet meet als een enkel getal, maar als een functie van de extraherbare structurele complexiteit van een taak.

2. Methodologie: Het X-RAY Framework

De auteurs introduceren X-RAY (eXplainable Reasoning Analysis sYstem), een systeem dat redeneercapaciteit in kaart brengt door gebruik te maken van geformaliseerde en gekalibreerde probes. De kern van de methodologie bestaat uit vijf gekoppelde componenten:

A. Autoformalisatie

Natuurlijke taalproblemen worden omgezet naar uitvoerbare, formele representaties (bijv. SMT-solvers zoals Z3 of CVC5).

Een autoformalizer extrahert constraints en variabelen uit de tekst.
Er wordt een binding gemaakt tussen natuurlijke taal-entiteiten en formele variabelen.
Dit zorgt voor een canonieke structuur die vrij is van oppervlakkige taalvariaties.

B. Kwantificering van Moeilijkheid

Moeilijkheid wordt niet empirisch bepaald door modelprestaties, maar theoretisch gedefinieerd via een structurele descriptor $\theta = (c, d, \kappa, \ell)$ :

$c$ (Conjunctive width): Aantal constraints die gelijktijdig moeten worden voldaan.
$d$ (Compositional depth): Diepte van geneste structuren of conditionele takken.
$\kappa$ (Cross-constraint coupling): Interactie tussen variabelen en afgeleide grootheden.
$\ell$ (Dependency chain length): De lengte van de afhankelijkheidsketen tot het antwoord.

C. Gecontroleerde Kalibratie

In plaats van willekeurige problemen te genereren, traverseert X-RAY de ruimte van probes door structurele operatoren toe te passen:

Constraint Refinement: Het toevoegen van extra voorwaarden die de oplossingsruimte verkleinen zonder de onderliggende topologie te veranderen (bijv. "x moet even zijn").
Solution-Space Restructuring: Het veranderen van de fundamentele structuur of geometrie van de oplossing (bijv. het introduceren van nieuwe variabelen of geneste logica).
Dit stelt onderzoekers in staat om de impact van specifieke structurele veranderingen te isoleren.

D. Formele Verificatie

Voordat een probe wordt gebruikt, wordt deze verifieerd door solvers om bestaan en uniekheid van het antwoord te garanderen. Dit elimineert ambiguïteit en zorgt voor een "contaminatie-vrije" ground truth.

E. Online Evaluatie en Capabiliteitsmapping

Modellen worden getest op deze gekalibreerde probes. Door systematisch de structuurvariatie te verhogen, kunnen de auteurs fasen van prestatiedaling (phase transitions) identificeren en de "grenzen" van het redeneervermogen van een model in kaart brengen.

3. Belangrijkste Bijdragen

Herformulering van Evaluatie: Redeneercapaciteit wordt gezien als de hoeveelheid structurele informatie die een model kan extraheren en manipuleren, in plaats van een statische score.
Formeel Gecalibreerde Probes: Een pipeline die structurele complexiteit gecontroleerd varieert terwijl de semantische correctheid door solvers wordt gegarandeerd.
Onbesmette Evaluatie en Training: Het framework is per constructie resistent tegen data-contaminatie (omdat problemen dynamisch worden gegenereerd) en biedt een ondergrond voor het trainen van modellen met verifieerde Chain-of-Thought (CoT) data.

4. Resultaten

De auteurs hebben X-RAY toegepast op state-of-the-art modellen (o.a. GPT-5, o4-mini, GPT-4o, Claude-3.5, DeepSeek-V3) over domeinen zoals wiskunde, natuurkunde en scheikunde.

Asymmetrie in Redenering: Modellen vertonen een systematische asymmetrie. Ze zijn relatief robuust tegen constraint refinement (extra voorwaarden die een bestaande ruimte verkleinen), maar presteren slecht bij solution-space restructuring (waarbij de fundamentele structuur van de oplossing moet veranderen).
Fase-overgangen: Prestaties dalen niet lineair, maar vertonen scherpe overgangen wanneer de structurele complexiteit een bepaalde drempel overschrijdt.
Diepte vs. Complexiteit: De combinatie van hoge "reasoning depth" en hoge "expression complexity" vormt een universele bottleneck. Zelfs de beste modellen (zoals GPT-5) vertonen een scherpe daling in nauwkeurigheid wanneer beide dimensies tegelijkertijd toenemen.
Modelverschillen:
- GPT-5 toont de meest robuuste prestaties over alle domeinen en structurele variaties.
- o4-mini en QwQ vertonen een "checkerboard"-patroon: ze presteren goed op specifieke combinaties van moeilijkheidsgraden maar falen abrupt op nabijgelegen combinaties, wat wijst op kwetsbaarheid in hun redeneerstrategieën.
- Qwen2-MATH (gespecialiseerd in wiskunde) presteert goed op wiskunde, maar dit specialisme vertaalt zich niet naar natuurkunde of scheikunde, wat aantoont dat redeneercapaciteit domein-specifiek kan zijn.
Training met Verifieerde Structuur: Het fine-tunen van modellen op solver-verifieerde CoT-traces leidt tot consistente verbeteringen, zelfs zonder toegang tot formele tools tijdens de inferentie. Dit bewijst dat modellen interne structurele afhankelijkheden kunnen leren.

5. Betekenis en Conclusie

X-RAY biedt een fundamentele verschuiving in hoe we LLM-redenering evalueren:

Van "Black Box" naar Interpretabel: Het maakt het mogelijk om falen toe te schrijven aan specifieke structurele factoren (bijv. "het model faalt bij het koppelen van drie onafhankelijke constraints") in plaats van een vaag "laag score".
Diagnose van Kwetsbaarheden: Het identificeert dat veel modellen "brittle" (kwetsbaar) zijn; ze kunnen lange redeneerketens voltooien, maar breken vaak bij kleine structurele veranderingen die de onderliggende logica vereisen.
Toekomstige Richting: Het framework suggereert dat training niet alleen moet focussen op meer data, maar op het systematisch uitbreiden van de "extraherbare structuur" in curricula. Het biedt een weg naar veiliger en betrouwbaardere AI-systemen voor kritieke toepassingen door redenering te testen onder gecontroleerde, geformaliseerde stress.

Kortom, X-RAY beweert dat ware redeneercapaciteit niet wordt gemeten door hoe goed een model een bestaand examen haalt, maar door hoe het omgaat met gecontroleerde, structurele veranderingen in de problemen die het moet oplossen.