X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

Dit paper introduceert X-RAY, een systeem dat het redeneervermogen van grote taalmodellen in kaart brengt via gekalibreerde, formeel geverifieerde probes, en zo een systematische asymmetrie blootlegt waarbij modellen robuust zijn in het verwerken van extra beperkingen maar kwetsbaar blijken voor structurele wijzigingen in de oplossingsruimte.

Gao Tianxi, Cai Yufan, Yuan Yusi, Dong Jin Song

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

X-RAY: Een Röntgenfoto voor het Denken van Kunstmatige Intelligentie

Stel je voor dat je een enorme, superintelligente robot hebt die heel goed lijkt te kunnen rekenen en redeneren. Hij haalt perfectie op schoolboeken en lost ingewikkelde wiskundeproblemen op. Maar hoe weet je of hij echt denkt, of dat hij gewoon een enorme lijst met antwoorden uit zijn hoofd heeft geleerd en die nu alleen maar herhaalt?

Dat is precies het probleem dat de auteurs van dit paper (X-RAY) willen oplossen. Ze zeggen: "We meten nu alleen of het antwoord goed is, maar we kijken niet naar hoe de robot daar komt."

Hier is een uitleg van hun idee, vertaald naar alledaags taal met een paar leuke vergelijkingen.

1. Het Probleem: De "Luie Leerling"

Stel je voor dat je een leerling test met een vraag: "Als ik 2 appels heb en er nog 3 bij doe, hoeveel heb ik dan?"
De leerling antwoordt: "5".
Vervolgens vraag je: "En als ik 2 appels heb en er 3,001 bij doe?"
Als de leerling dit ook goed heeft, is hij slim. Maar wat als hij alleen maar het patroon "2 en 3 = 5" heeft geleerd? Dan faalt hij bij de tweede vraag.

Bestaande tests voor AI (zoals schoolexamens) zijn vaak als de eerste vraag. Ze meten alleen het eindresultaat. De AI kan soms gewoon patronen herkennen in plaats van echt te redeneren. Het is alsof je iemand laat raden wat er in een gesloten doos zit door alleen naar de vorm van de doos te kijken, in plaats van hem te laten openen.

2. De Oplossing: X-RAY (De Röntgenfoto)

De auteurs hebben X-RAY bedacht. Dit is geen gewone test, maar een soort röntgenapparaat voor de hersenen van de AI.

In plaats van willekeurige vragen te stellen, bouwen ze vragen die ze zelf hebben ontworpen met een heel strakke, wiskundige structuur. Ze noemen dit "gekalibreerde probes".

  • De Analogie: Stel je voor dat je een auto wilt testen. Je rijdt niet zomaar over een gladde weg. Je bouwt een speciaal circuit met hellingen, bochten en gaten die je precies kunt aanpassen. Je verandert één ding tegelijk: de helling. Als de auto faalt, weet je precies: "Ah, hij kan geen steile hellingen aan." Je weet niet dat hij faalt omdat de weg nat was of omdat de banden leeg waren.

X-RAY doet dit met vragen. Ze maken een vraag en veranderen dan heel precies één onderdeel (bijvoorbeeld: "voeg nog één extra regel toe aan de regels"). Ze kijken dan of de AI het nog steeds kan.

3. Wat hebben ze ontdekt? (De "A-symmetrie")

Toen ze dit deden, zagen ze iets heel interessants, iets wat ze de "asymmetrie" noemen.

  • Situatie A (De muren versterken): Stel je voor dat je een kamer hebt waar een schat ligt. Je voegt een extra slot toe aan de deur. De AI moet nu nog steeds dezelfde schat vinden, maar met een extra regel. De meeste slimme AI's doen dit prima. Ze kunnen extra regels aan.
  • Situatie B (De kamer veranderen): Nu veranderen we de kamer zelf. De vloer is weg, de muren zijn verdwenen en de schat ligt nu in een andere dimensie. De AI moet de hele manier waarop hij zoekt, opnieuw uitvinden.

De verrassing: De AI's doen het goed bij Situatie A, maar zakken dramatisch in Situatie B.
Het is alsof een mens heel goed kan tellen als je vraagt: "Tel 1, 2, 3, 4, 5 en 6." Maar als je vraagt: "Tel nu in een ander systeem waar 5 eigenlijk 6 is," dan raakt de mens in de war. De AI's blijken erg goed te zijn in het volgen van bestaande patronen, maar heel kwetsbaar als de structuur van het probleem verandert.

4. Waarom is dit belangrijk?

Tot nu toe dachten we: "Oh, deze AI haalt 95% op de wiskundetoets, dus hij is slim."
X-RAY zegt: "Nee, wacht even. Hij haalt 95% omdat de vragen op de toets een bepaalde structuur hadden. Als we de structuur een beetje veranderen, zakt hij naar 20%."

Dit helpt ons te begrijpen:

  1. Waar de grenzen liggen: We zien precies waar de AI "breekt".
  2. Geen vals spul: Omdat de vragen door computers zijn gegenereerd en gecontroleerd, kan de AI ze niet uit zijn trainingsdata hebben geleerd (geen "cheaten" door het antwoord te onthouden).
  3. Beter leren: Als we weten waar de AI faalt (bijvoorbeeld: hij kan geen complexe verbanden zien), kunnen we hem daar specifiek op trainen. Het is alsof je een sporter niet alleen laat rennen, maar hem specifiek laat trainen op zijn zwakke been.

Samenvattend

Dit paper introduceert een nieuwe manier om AI te testen. In plaats van te kijken of het antwoord goed is (zoals een leraar die alleen het cijfer kijkt), kijken ze met een X-RAY naar de manier waarop de AI denkt.

Ze ontdekten dat AI's vaak "slimme imitatoren" zijn die goed zijn in bekende patronen, maar snel in de war raken als de regels van het spel veranderen. Met X-RAY kunnen we nu precies zien waar die breuklijnen zitten en AI's echt slimmer maken, in plaats van alleen maar hun cijfers te verbeteren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →