Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie verstehen KI-Modelle arabische Wörter?

Stell dir vor, du möchtest einem Roboter beibringen, wie man arabische Wörter bildet. Die arabische Sprache funktioniert nicht wie ein Baukasten mit einzelnen Steinen, die man einfach aneinanderreiht (wie im Englischen: walk + ed = walked).

Stattdessen nutzt das Arabische ein Wurzel-und-Muster-System.

Die Wurzel: Ein Wort hat meist drei Konsonanten, die die Grundbedeutung tragen (z. B. k-t-b für „Schreiben").
Das Muster: Um ein neues Wort zu machen, füllt man diese Wurzel in ein festes Gerüst aus Vokalen und zusätzlichen Buchstaben. Aus k-t-b wird so maktub (geschrieben) oder maktab (Büro).

Die Forscher wollten herausfinden: Verstehen moderne KI-Modelle (LLMs) dieses tiefe System, oder lernen sie nur auswendig, welche Wörter sie schon gesehen haben?

Die zwei Hauptakteure: Der „Schere" und der „Baumeister"

Um das zu testen, haben die Autoren zwei Dinge untersucht:

Der Tokenizer (Der Schere):
Bevor eine KI ein Wort verarbeiten kann, schneidet sie es in kleine Stücke auf, sogenannte „Tokens".
- Die ideale Schere: Sie sollte genau dort schneiden, wo die linguistischen Teile (Morpheme) enden. Das wäre wie ein Chirurg, der ein Wort in seine logischen Bestandteile zerlegt.
- Die reale Schere: Die meisten KIs schneiden Wörter eher nach statistischen Häufigkeiten auf, oft mitten durch die Wurzel oder das Muster. Das ist wie ein Kind, das ein Wort willkürlich in Buchstabenhaufen zerschneidet, ohne die Bedeutung zu kennen.
Die KI (Der Baumeister):
Die Aufgabe der KI war es, neue Wörter zu erfinden. Man gab ihr eine Wurzel (die sie vielleicht noch nie gesehen hatte) und ein Muster und fragte: „Bilde das Wort!"
- Wenn die KI das wirklich versteht, kann sie das Muster auf jede beliebige Wurzel anwenden.
- Wenn sie nur auswendig gelernt hat, scheitert sie bei neuen Wörtern.

Die überraschende Entdeckung

Die Forscher erwarteten, dass KIs mit einer „perfekten Schere" (die Wörter linguistisch korrekt zerschneidet) auch die besten Baumeister sind. Das war falsch.

Hier sind die wichtigsten Erkenntnisse, erklärt mit Analogien:

Die perfekte Schere hilft nicht immer:
Es gab KIs, deren „Schere" die Wörter perfekt in ihre linguistischen Teile zerlegte. Doch als sie neue Wörter erfinden sollten, waren sie oft schlecht. Sie hatten die Teile im Kopf, konnten sie aber nicht kreativ zusammenfügen.
- Analogie: Stell dir einen Bibliothekar vor, der Bücher perfekt nach Kategorien sortiert (die Schere), aber wenn man ihn bittet, eine neue Geschichte zu erfinden, starrt er nur auf die Regale und weiß nicht weiter.
Die „schlechte" Schere schafft Wunder:
Die besten Ergebnisse erzielten Modelle wie GPT-4. Deren „Schere" war linguistisch gesehen eher chaotisch. Sie schnitt Wörter oft in viele kleine, sinnlose Häppchen (hohe „Fruchtbarkeit" der Tokens).
- Analogie: GPT-4 ist wie ein genialer Koch, der Zutaten nicht in saubere Portionen schneidet, sondern alles in einen Mixer wirft. Aber weil er so viel gekocht hat und das Rezept (die Muster) verinnerlicht hat, kann er trotzdem ein perfektes neues Gericht erfinden, auch mit Zutaten, die er noch nie gesehen hat.
Auswendiglernen vs. Verstehen:
Viele arabische KIs (wie Fanar oder Allam), die speziell für die Sprache trainiert wurden, waren sehr gut darin, bekannte Wörter zu erkennen. Aber sobald man ihnen eine erfundene Wurzel gab, brachen sie zusammen. Sie hatten die Wörter einfach auswendig gelernt, wie ein Schüler, der nur die Lösungen im Lehrbuch auswendig gelernt hat, aber keine Matheaufgaben selbst lösen kann.

Was bedeutet das für die Zukunft?

Die Studie stellt eine alte Annahme in Frage: Dass man für komplexe Sprachen wie Arabisch zwingend eine linguistisch perfekte „Schere" (Tokenizer) braucht, damit die KI die Sprache versteht.

Die Moral der Geschichte:
Es scheint nicht darauf anzukommen, wie sauber die KI die Wörter zerschneidet. Es kommt darauf an, wie gut sie die Muster und Regeln im Hintergrund gelernt hat. Eine KI kann durch reine Statistik und viel Übung (Instruction Tuning) die komplexen Regeln des Arabischen „fühlen" und anwenden, auch wenn ihre innere Darstellung der Wörter linguistisch „falsch" aussieht.

Zusammengefasst:
Man muss einem Roboter nicht die Grammatikregeln auf einem Zettel geben (perfekte Tokenisierung), damit er die Sprache beherrscht. Wenn er genug Beispiele sieht und die Muster erkennt, kann er die Sprache kreativ anwenden – selbst wenn er die Wörter im Inneren völlig anders „zerlegt" als ein Linguist es tun würde.

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

Das große Rätsel: Wie verstehen KI-Modelle arabische Wörter?

Die zwei Hauptakteure: Der „Schere" und der „Baumeister"

Die überraschende Entdeckung

Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik

A. Evaluierte Modelle und Tokenizer

B. Tokenizer-Morphologie-Alignment (Strukturelle Bewertung)

C. Morphologische Produktivitätsaufgaben (Generative Bewertung)

3. Wichtige Beiträge

4. Ergebnisse und Analyse

A. Tokenizer-Alignment

B. Generationsleistung (Produktivität)

C. Fehleranalyse

5. Bedeutung und Schlussfolgerungen

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

Das große Rätsel: Wie verstehen KI-Modelle arabische Wörter?

Die zwei Hauptakteure: Der „Schere" und der „Baumeister"

Die überraschende Entdeckung

Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik

A. Evaluierte Modelle und Tokenizer

B. Tokenizer-Morphologie-Alignment (Strukturelle Bewertung)

C. Morphologische Produktivitätsaufgaben (Generative Bewertung)

3. Wichtige Beiträge

4. Ergebnisse und Analyse

A. Tokenizer-Alignment

B. Generationsleistung (Produktivität)

C. Fehleranalyse

5. Bedeutung und Schlussfolgerungen

Mehr davon

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

Agent-based imitation dynamics can yield efficiently compressed population-level vocabularies