EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem intelligenten Koch, der in einer riesigen Bibliothek von Kochbüchern (dem Internet) gelernt hat. Wenn du ihn bittest, ein klassisches Spaghetti-Bolognese-Rezept zu kochen, das in tausenden Büchern steht, ist er ein Meisterwerk. Er kann es blindlings nachkochen, perfekt und schnell. Das ist, was aktuelle KI-Modelle (Large Language Models) bei normalen Programmieraufgaben tun: Sie sind brillant, weil sie einfach nur die besten Rezepte aus ihrem Gedächtnis abrufen.

Aber was passiert, wenn du ihn bittest, ein Gericht aus einer Küche zu kochen, die niemand je gesehen hat? Eine Küche, die so seltsam ist, dass es nur ein einziges, verstaubtes Kochbuch gibt, das vor 30 Jahren von einem verrückten Erfinder geschrieben wurde?

Genau das ist die Idee hinter dem Papier "EsoLang-Bench".

Das Problem: Der "Kochbuch-Trick"

Die Forscher sagen: Unsere aktuellen Tests für KI sind wie ein Kochwettbewerb, bei dem alle nur die gleichen 10 Rezepte kochen müssen. Die KI lernt diese Rezepte auswendig (sie "memorisiert" sie), anstatt wirklich zu verstehen, wie Kochen funktioniert. Wenn du ihr dann ein neues, unbekanntes Rezept gibst, scheitert sie oft, weil sie nur das Gedächtnis, aber kein echtes Verständnis hat.

Die Lösung: Die "Esoterischen Sprachen"

Um zu testen, ob die KI wirklich denken kann, haben die Autoren eine neue Prüfung entwickelt. Sie nutzen Esoterische Programmiersprachen.

Stell dir diese Sprachen nicht wie Deutsch oder Englisch vor, sondern wie:

Brainfuck: Eine Sprache, die nur aus 8 Zeichen besteht (wie +, -, >, <). Es ist, als würdest du versuchen, ein komplexes Gericht nur mit einem Löffel und einem Messer zu kochen, ohne Töpfe oder Pfannen zu benutzen.
Whitespace: Eine Sprache, bei der nur Leerzeichen, Tabulatoren und Zeilenumbrüche zählen. Alles andere wird ignoriert. Es ist, als würdest du ein Rezept schreiben, bei dem nur die Lücken zwischen den Wörtern die Anweisungen sind.
Shakespeare: Eine Sprache, bei der Programme wie Theaterstücke geschrieben sind. Variablen sind Schauspieler, und die Mathematik passiert durch Dialoge wie "Ist er nicht schöner als ein Engel?".

Warum sind diese Sprachen so besonders?
Weil es im Internet fast keine Beispiele dafür gibt. Es gibt nur sehr wenige "Kochbücher" für diese Sprachen. Die KI hat sie also nicht auswendig gelernt. Sie kann sie nicht "gamen" (betrügen), indem sie einfach ein ähnliches Rezept aus dem Internet kopiert.

Der Experiment-Verlauf

Die Forscher gaben fünf der klügsten KI-Modelle (wie GPT-5, Gemini, Qwen) folgende Aufgabe:
"Hier ist ein kleines Handbuch für diese seltsame Sprache. Hier ist eine Aufgabe (z. B. 'Addiere zwei Zahlen'). Löse sie."

Sie testeten verschiedene Tricks, um der KI zu helfen:

Zero-Shot: "Mach es einfach."
Few-Shot: "Hier sind drei Beispiele, wie man es macht."
Selbst-Reflexion: "Versuche es, lies den Fehler, und versuche es nochmal."
Agenten: "Habe eine KI, die plant, eine, die schreibt, und eine, die prüft."

Die Ergebnisse: Ein Schock

Das Ergebnis war dramatisch:

Bei normalen Sprachen (wie Python) lagen die KIs bei 85–95 % Erfolg.
Bei diesen seltsamen Sprachen fielen sie auf 0–11 %.
Bei den schwierigeren Aufgaben (die echtes logisches Denken erfordern) lagen sie bei 0 %.

Selbst wenn man ihnen Beispiele gab (Few-Shot), half das kaum. Es war, als würdest du einem Koch, der noch nie einen Ofen gesehen hat, drei Bilder von Ofen-Gerichten zeigen und erwarten, dass er sofort ein perfektes Soufflé backt. Er versteht das Prinzip des Ofens nicht, er kennt nur das Bild.

Was bedeutet das für uns?

Die Autoren sagen: Unsere KI ist vielleicht gar nicht so schlau, wie wir denken.

Sie ist extrem gut darin, Muster zu erkennen und Dinge zu wiederholen, die sie schon gesehen hat (Memorization). Aber wenn sie in eine völlig neue Situation geworfen wird, in der sie die Regeln neu lernen muss (wie ein Mensch, der eine neue Sprache lernt), bricht sie zusammen.

Die KI hat keine "echte" Intelligenz, die auf Verständnis basiert. Sie hat nur ein riesiges, aber starres Gedächtnis.

Die Metapher am Ende

Stell dir die aktuelle KI wie einen Genie-Schüler vor, der alle 10.000 Seiten des Schulbuchs auswendig gelernt hat. Wenn du ihn im Klassenzimmer abfragst, ist er der Beste der Welt.
Das EsoLang-Bench ist wie ein Lehrer, der den Schüler in ein fremdes Land bringt, wo niemand Deutsch spricht, und ihm sagt: "Schreibe jetzt einen Brief."
Der Schüler starrt auf das Papier. Er weiß nicht, wie man Buchstaben bildet, er kennt die Grammatik nicht, er hat keine Wörterbücher. Er ist hilflos.

Fazit: Wir brauchen neue Tests, die nicht nur das Gedächtnis der KI prüfen, sondern ihre Fähigkeit, Dinge wirklich zu verstehen und auf Neues zu übertragen. Solange wir nur die alten Tests nutzen, täuschen wir uns über die wahre Intelligenz unserer Maschinen.

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Das Problem: Der "Kochbuch-Trick"

Die Lösung: Die "Esoterischen Sprachen"

Der Experiment-Verlauf

Die Ergebnisse: Ein Schock

Was bedeutet das für uns?

Die Metapher am Ende

1. Problemstellung

2. Methodik: EsoLang-Bench

3. Experimentelles Setup

4. Wichtige Ergebnisse

5. Hauptbeiträge

6. Bedeutung und Implikationen

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Das Problem: Der "Kochbuch-Trick"

Die Lösung: Die "Esoterischen Sprachen"

Der Experiment-Verlauf

Die Ergebnisse: Ein Schock

Was bedeutet das für uns?

Die Metapher am Ende

1. Problemstellung

2. Methodik: EsoLang-Bench

3. Experimentelles Setup

4. Wichtige Ergebnisse

5. Hauptbeiträge

6. Bedeutung und Implikationen

Mehr davon

PnLCalib: Sports Field Registration via Points and Lines Optimization

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

DRUPI: Dataset Reduction Using Privileged Information