LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Denken oder Auswendiglernen?

Stell dir vor, du hast einen extrem schlauen Schüler, der alle Bücher der Welt auswendig gelernt hat. Du gibst ihm ein Mathe-Rätsel. Er löst es blitzschnell. Aber hat er wirklich gedacht? Oder hat er sich einfach die Lösung für genau dieses eine Rätsel gemerkt, weil es in einem seiner Bücher stand?

Das ist das Problem mit den heutigen KI-Modellen (wie ChatGPT oder Claude). Sie sind so gut darin, Fakten zu speichern und Muster zu erkennen, dass sie bei vielen Tests nicht wirklich „denken", sondern nur ihre riesige Datenbank abfragen. Das nennt man Auswendiglernen statt Schlussfolgern.

Die Lösung: Ein Zaubertrick für Sprachen

Die Autoren dieses Papers (von der Universität Oxford und anderen) haben sich etwas Cleveres ausgedacht, um zu testen, ob eine KI wirklich denken kann. Sie haben ein neues Test-System namens LINGOLY-TOO erfunden.

Stell dir vor, du hast einen Text in einer fremden Sprache (z. B. auf Walisisch oder in einer Sprache, die nur 500 Menschen auf der Welt sprechen).

Der normale Test: Die KI liest den Text. Da sie vielleicht Walisisch in ihren Trainingsdaten gesehen hat, erkennt sie sofort: „Aha, das Wort bedeutet 'Hund'!" und gibt die richtige Antwort. Sie hat nicht nachgedacht, sie hat nur gewusst.
Der LINGOLY-TOO-Trick: Die Autoren nehmen den Text und drehen die Buchstaben wie ein Rad.
- Statt „Hund" schreiben sie „Gqnd".
- Statt „Katze" schreiben sie „Xqts".
- Aber! Die Logik bleibt genau gleich. Wenn im Originaltext steht: „Das Wort für Hund endet immer auf -d", dann steht im veränderten Text: „Das Wort für Gqnd endet immer auf -d".

Das ist wie bei einem Spiegelbild. Das Bild ist verzerrt und sieht fremd aus, aber die Gesetze der Physik dahinter (die Logik) sind identisch.

Warum ist das so schwer für die KI?

Die KI kann jetzt nicht mehr auf ihre Datenbank zugreifen. Sie hat noch nie „Gqnd" gesehen. Sie kann nicht raten, was das Wort bedeutet, weil die Buchstabenkombinationen völlig neu sind.

Sie muss nun wirklich denken:

„Okay, hier steht, dass das Wort für 'rot' immer ein 'X' am Anfang hat."
„Und das Wort für 'groß' hat immer ein 'Q' am Ende."
„Also muss ich diese Regeln anwenden, um das neue Wort zu erraten."

Das ist wie ein Detektiv, der in einem völlig unbekannten Land landet. Er kennt die Sprache nicht, aber er beobachtet die Menschen, merkt sich Muster und leitet daraus die Regeln ab.

Was haben sie herausgefunden?

Die Ergebnisse waren ziemlich schockierend, aber auch aufschlussreich:

Der „Klatsch-Effekt": Wenn die KIs den normalen, unveränderten Text sehen, schneiden sie gut ab (wie ein Schüler, der die Lösungen geklaut hat).
Der „Realitäts-Check": Sobald die Buchstaben verrückt gemacht wurden (obfuskiert), brach die Leistung der KIs drastisch ein.
- Die besten KIs fielen von einer guten Note (ca. 59 %) auf eine mittelmäßige (ca. 48 %).
- Das zeigt: Viele KIs waren gar keine echten Denker, sondern nur super-gute Auswendigler.
Die Sprache spielt eine Rolle: Bei Sprachen, die sehr häufig im Internet vorkommen (wie Englisch oder Spanisch), konnten die KIs noch mehr „schummeln". Bei seltenen Sprachen war der Unterschied zwischen „Auswendiglernen" und „echtem Denken" noch größer.

Das Fazit für uns alle

Das Paper sagt uns im Grunde: Vorsicht mit den hohen Noten bei KI-Tests!

Wenn eine KI einen Test besteht, heißt das nicht automatisch, dass sie schlau ist. Vielleicht hat sie sich die Antworten nur gemerkt. Mit LINGOLY-TOO haben die Forscher einen neuen Spiegel gebaut, der die KI zwingt, ihre Denkmaschine zu benutzen, statt nur ihr Gedächtnis.

Es ist wie beim Autofahren:

Normaler Test: Die KI fährt auf einer Strecke, auf der sie die Kurven auswendig kennt. Sie sieht schnell aus.
LINGOLY-TOO: Die KI fährt auf einer neuen, verschneiten Straße, auf der sie noch nie war. Jetzt sieht man erst, ob sie wirklich ein guter Fahrer ist oder nur die Strecke kannte.

Die Nachricht ist: Die besten KIs werden immer besser, aber echtes, logisches Denken in völlig neuen Situationen ist immer noch eine große Herausforderung für sie.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Frontier-Sprachmodelle (LLMs) zeigen zwar zunehmend Fähigkeiten beim Lösen von Reasoning-Aufgaben, doch ihre Leistung wird oft durch „Shortcuts" (Abkürzungen) verzerrt. Anstatt abstrakte Regeln anzuwenden, nutzen Modelle ihr expandiertes Wissen und ihre Fähigkeit zur Memorisation, um Antworten zu finden. Dies führt zu einer Überschätzung der eigentlichen Reasoning-Fähigkeiten, insbesondere bei hochressourcenreichen Sprachen, die in den Trainingsdaten stark vertreten sind.

Das Hauptproblem besteht darin, Benchmarks zu entwickeln, die Reasoning (logisches Schließen) strikt von Wissen (Faktenwissen) und Memorisation (Auswendiglernen von Trainingsdaten) trennen. Herkömmliche Benchmarks versagen oft, da Modelle die Lösungen bereits aus dem Training kennen oder durch oberflächliche Mustererkennung (Token-Bias) die Antworten erraten können, ohne die zugrundeliegende Logik zu verstehen.

2. Methodik: LINGOLY-TOO

Die Autoren stellen LINGOLY-TOO vor, einen Benchmark, der auf 82 Problemen des UK Linguistics Olympiad (UKLO) basiert. Der Kern der Methode ist die Expert-Design-Obfuskation durch templatbasierte orthographische Permutationen.

Datengrundlage: Der Benchmark umfasst 1.203 Fragen mit insgesamt 6.995 Unterfragen-Antwort-Paaren. Die Originalprobleme erfordern keine linguistischen Vorkenntnisse, sondern induktives Schließen, um grammatische Regeln aus Kontextbeispielen abzuleiten.
Obfuskationsprozess:
- Statt ganze Wörter zu ersetzen (was die symbolische Struktur zerstören würde), werden Grapheme (Buchstaben oder Buchstabenkombinationen wie „th" oder „sh") auf Wortebene permutiert.
- Es werden linguistisch informierte Regelnets erstellt, die sicherstellen, dass die Permutation die für die Lösung notwendigen phonologischen und morphologischen Beziehungen bewahrt (z. B. Vokalharmonie, Lautgruppen wie stimmhafte/stimmlose Konsonanten).
- Wichtige Elemente wie Eigennamen, Lehnwörter (die als Hinweise dienen könnten) und kulturelle Kontexte werden unverändert gelassen oder durch Platzhalter ersetzt, um den Modellen keine externen Hinweise zu geben.
- Pro Problem werden bis zu 6 gültige Permutationen generiert, wodurch Tausende neuer, für das Modell unbekannter Varianten entstehen, die jedoch die gleiche Lösungslogik erfordern.
Evaluation:
- Metriken: Es wird die Exact Match-Genauigkeit verwendet.
- Vergleich: Die Leistung wird zwischen den originalen Problemen ( $M_{og}$ ) und den obfuskierten Versionen ( $M_{obf}$ ) verglichen. Ein großer Leistungsabfall bei $M_{obf}$ deutet darauf hin, dass das Modell im Originalfall auf Wissen/Memorisation statt auf Reasoning zurückgegriffen hat.
- Human Study: Eine randomisierte kontrollierte Studie mit 172 menschlichen Teilnehmern zeigte, dass Obfuskation auch für Menschen die Leistung leicht senkt (ca. 5,7 %), aber die Lösbarkeit durch die gleichen logischen Schritte erhalten bleibt. Dies dient als Validierung, dass die Aufgabe nicht unlösbar wurde, sondern nur die „Wissens-Abkürzungen" entfernt wurden.

3. Wichtige Beiträge

Ein ungesättigter Benchmark: LINGOLY-TOO bietet einen Test für Frontier-Modelle, der selbst für die besten Modelle (z. B. GPT-5) eine Herausforderung darstellt. GPT-5 erreicht nur 48 % auf dem gesamten Benchmark und nur 31 % auf den schwierigsten Problemen.
Quantifizierung des Knowledge-Effekts: Der Benchmark ermöglicht es, den „Knowledge Gap" zu messen. Die Differenz zwischen $M_{og}$ und $M_{obf}$ zeigt, wie stark ein Modell auf Vorwissen angewiesen ist. Die Studie belegt eine negative Korrelation zwischen der Ressourcenstärke einer Sprache (Anzahl der Sprecher) und der Reasoning-Leistung: Je ressourcenreicher die Sprache, desto stärker nutzen Modelle Shortcuts.
Generierung unverfälschter Reasoning-Probleme: Durch die Anwendung auf noch nicht veröffentlichte UKLO 2025-Probleme wurde gezeigt, dass der Leistungsabfall auch bei Daten besteht, die definitiv nicht im Trainingsset waren. Dies widerlegt die Annahme, dass der Effekt nur auf Trainingsdaten-Überlappung (Contamination) beruht.
Validierung der Reasoning-Modelle: Der Benchmark zeigt, dass spezialisierte „Reasoning-Modelle" (mit Inference-Time-Compute) zwar besser abschneiden als allgemeine LLMs, aber dennoch stark auf die Orthographie reagieren und inkonsistente Reasoning-Schleifen aufweisen.

4. Ergebnisse

Leistungsabfall durch Obfuskation: Die besten Modelle fallen von einem Score von ca. 0,59 (Original) auf 0,48 (obfuskert). Dies zeigt, dass ein signifikanter Teil der Originalleistung auf nicht-reasoning-basierten Shortcuts beruhte.
Ressourcenabhängigkeit: Bei hochressourcenreichen Sprachen (z. B. Japanisch, Finnisch, Italienisch) ist der Leistungsabfall nach Obfuskation am drastischsten (bis zu -59 %). Bei low-resource Sprachen ist der Effekt geringer, da Modelle dort ohnehin weniger Vorwissen haben.
Tokenisierungseffekt: Experimente zeigten, dass der Leistungsabfall nicht primär durch eine suboptimale Tokenisierung der neuen Schriftzeichen verursacht wird, sondern durch den Verlust des zugrundeliegenden Wissens.
Robustheit: Selbst bei Modellen, die mit „Thinking"-Modi (Chain-of-Thought) arbeiten, bleibt die Leistung auf obfuskierten Daten deutlich niedriger, was auf eine Fragilität des symbolischen Reasonings hindeutet.
Experten-Hilfe: Wenn den Modellen die korrekte Reasoning-Logik vorgegeben wird, verbessert sich die Leistung auf obfuskierten Daten signifikant, was bestätigt, dass die Modelle die Logik prinzipiell verstehen können, aber Schwierigkeiten haben, sie autonom auf neue Orthographien zu übertragen.

5. Bedeutung und Fazit

LINGOLY-TOO ist ein entscheidender Schritt zur Entwirrung von Wissen und Reasoning in großen Sprachmodellen.

Korrektur von Benchmarks: Die Arbeit zeigt, dass aktuelle Benchmarks die Reasoning-Fähigkeiten von LLMs massiv überschätzen, da sie durch Memorisation und Sprachwissen „gecheatet" werden können.
Zukunft der Evaluation: Um echte Reasoning-Fähigkeiten zu messen, müssen Benchmarks so gestaltet sein, dass sie für das Modell neu sind, aber die logische Struktur erhalten bleibt. Orthographische Obfuskation ist hierfür eine effektive Methode.
Herausforderung für die KI: Trotz Fortschritten in Mathematik und Coding bleibt das induktive Reasoning in unbekannten linguistischen Kontexten eine offene Herausforderung. Frontier-Modelle sind in ihrer Konsistenz und Robustheit noch begrenzt.

Zusammenfassend liefert LINGOLY-TOO eine konservativere, aber realistischere Schätzung der Reasoning-Fähigkeiten von KI-Modellen und bietet eine Methodik, um die Abhängigkeit von Trainingsdaten und Vorwissen systematisch zu quantifizieren.

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

Das große Rätsel: Denken oder Auswendiglernen?

Die Lösung: Ein Zaubertrick für Sprachen

Warum ist das so schwer für die KI?

Was haben sie herausgefunden?

Das Fazit für uns alle

1. Problemstellung

2. Methodik: LINGOLY-TOO

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification