EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot hebt die alle boeken ter wereld heeft gelezen. Als je deze robot vraagt om een recept voor pannenkoeken te schrijven in het Nederlands, doet hij dat perfect. Hij kan zelfs een recept voor een complexe taart in het Frans bedenken. We denken dan: "Wow, deze robot is een geniaal kok!"

Maar wat als we de robot vragen om te koken in een taal die niemand kent? Een taal die bestaat uit alleen maar witruimte, of waar de instructies geschreven moeten worden als een toneelstuk met Shakespeare-achtige dialogen?

Dat is precies wat dit paper, EsoLang-Bench, doet. Het is een nieuwe test om te kijken of AI echt denkt of dat het alleen maar herinnert.

Hier is het verhaal, vertaald naar simpele taal:

1. Het Probleem: De "Cheat Sheet" van AI

Tot nu toe hebben we AI getest met standaard programmeertalen (zoals Python). De resultaten zijn fantastisch: AI scoort 90-95% goed. Maar er is een groot probleem: AI heeft deze antwoorden waarschijnlijk gewoon uit het hoofd geleerd. Het is alsof de robot de antwoorden op een proefvraag heeft gelezen voordat hij de test kreeg. Hij herkent het patroon, maar hij begrijpt niet echt hoe het werkt.

2. De Oplossing: De "Exotische Talen" Test

De onderzoekers hebben een nieuwe test bedacht genaamd EsoLang-Bench. Ze gebruiken vijf heel rare, vreemde programmeertalen (zoals Brainfuck, Whitespace en Shakespeare).

Waarom deze talen? Omdat er bijna niemand op internet code schrijft in deze talen. Ze zijn zo onpraktisch dat het voor AI niet loont om ze te leren tijdens zijn training. Er zijn 1.000 tot 100.000 keer minder voorbeelden op internet dan voor Python.
De Analogie: Stel je voor dat je een student test die alle wiskundebomen van de wereld kent. Vraag je hem een som op te lossen in het Nederlands, doet hij het perfect. Vraag je hem echter om diezelfde som op te lossen in een taal die alleen bestaat uit gebaren en fluiten (en die hij nog nooit heeft gezien), dan moet hij écht nadenken. Hij kan niet meer "kijken" naar een antwoord in zijn geheugen.

3. Wat gebeurde er? De Teleurstellende Resultaten

De onderzoekers lieten de slimste AI's ter wereld (zoals GPT-5, Gemini, Qwen) deze rare talen gebruiken. Het resultaat was schokkend:

Op de standaardtesten: De AI's scoorden 90%+.
Op de exotische test: De AI's scoorden 0% tot 11%.

Zelfs de slimste modellen konden de makkelijkste vragen in deze rare talen nauwelijks oplossen. Zodra de vraag iets moeilijker werd (bijvoorbeeld: "tel de priemgetallen"), gaf de AI het helemaal op en scoorde 0%.

4. Waarom faalden ze?

De onderzoekers ontdekten dat de AI's vastzaten in een valstrik:

Geen "In-Context Learning": Als je de AI een paar voorbeelden gaf (zoals "hier is hoe je dit doet"), hielp dat niet. Het was alsof je iemand die geen Frans spreekt een paar Franse zinnen voordoet en dan verwacht dat hij een heel gesprek kan voeren. De AI kon de basisprincipes niet overbrengen.
Geheugen vs. Redeneren: De AI's konden de syntaxis (de vorm) van de taal soms raden, maar faalden volledig op de logica. Ze konden geen stappenplannen maken voor iets nieuws. Ze waren als een fotograaf die een foto van een auto heeft, maar als je vraagt "hoe bouw ik een auto?", heeft hij geen idee.

5. De Enige Hulp: De "Live Feedback"

Er was één ding dat een beetje hielp: als de AI code schreef, die code liet uitvoeren door een computer, en de foutmelding terugkreeg ("Je hebt een fout gemaakt bij stap 3"), dan kon de AI soms de fout verbeteren.

Dit is als een kind dat probeert een puzzel te leggen. Als je zegt "dat stukje past niet", probeert het kind een ander stukje. Maar zonder die directe feedback (de computer die zegt "dit werkt niet"), probeerde de AI blindelings en faalde.

Conclusie: Wat betekent dit voor ons?

Deze studie is een harde maar nodige realiteitscheck.

De AI is geen genie: Hij is een briljante "plagiaat" die heel goed is in het nabootsen van wat hij al kent.
Echte intelligentie ontbreekt: Als een AI echt zou kunnen redeneren, zou hij in staat moeten zijn om een nieuwe, rare taal te leren door alleen de handleiding te lezen en te proberen, net zoals een mens dat zou doen. Dat kunnen ze (nog) niet.
Voor de toekomst: We moeten stoppen met AI's te testen met vragen die ze al uit het hoofd hebben geleerd. We moeten ze testen op hun vermogen om nieuwe dingen te leren.

Kort samengevat: De AI's zijn als een acteur die alle rollen uit bekende films perfect kan spelen. Maar als je hem vraagt om een toneelstuk te spelen in een taal die niemand kent, zonder script, blijft hij stomverbaasd staan. Ze kunnen niet echt creëren, ze kunnen alleen reproducteren.

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

1. Het Probleem: De "Cheat Sheet" van AI

2. De Oplossing: De "Exotische Talen" Test

3. Wat gebeurde er? De Teleurstellende Resultaten

4. Waarom faalden ze?

5. De Enige Hulp: De "Live Feedback"

Conclusie: Wat betekent dit voor ons?

1. Het Probleem: Memoriseren versus Redeneren

2. Methodologie: EsoLang-Bench

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

1. Het Probleem: De "Cheat Sheet" van AI

2. De Oplossing: De "Exotische Talen" Test

3. Wat gebeurde er? De Teleurstellende Resultaten

4. Waarom faalden ze?

5. De Enige Hulp: De "Live Feedback"

Conclusie: Wat betekent dit voor ons?

1. Het Probleem: Memoriseren versus Redeneren

2. Methodologie: EsoLang-Bench

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

PnLCalib: Sports Field Registration via Points and Lines Optimization

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

DRUPI: Dataset Reduction Using Privileged Information