The Token Tax: Systematic Bias in Multilingual Tokenization

Die Studie zeigt, dass ineffiziente Tokenisierung morphologisch komplexer afrikanischer Sprachen zu einer systematischen Verzerrung führt, die die Genauigkeit mindert und die Trainingskosten exponentiell erhöht, wobei reasoning-Modelle diese Lücke teilweise schließen können.

Jessica M. Lundin, Ada Zhang, Nihal Karim, Hamza Louzan, Victor Wei, David Adelani, Cody Carroll

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🏗️ Der Baukasten-Fluch: Warum manche Sprachen teurer und schwerer zu lernen sind

Stell dir vor, du möchtest ein riesiges, super-inteligentes Gehirn bauen, das alle Sprachen der Welt versteht. Um es zu trainieren, gibst du ihm Bücher vor. Aber es gibt ein Problem: Wie dieses Gehirn die Wörter liest, hängt von einem kleinen Werkzeug ab, dem Tokenizer.

1. Das Problem: Der „Wort-Splitter"

Stell dir vor, der Tokenizer ist wie ein Schere, die Sätze in kleine Stücke (Tokens) schneidet, bevor das Gehirn sie lesen kann.

  • Für Englisch funktioniert das gut. Das Wort „Hund" wird in ein Stück geschnitten.
  • Für viele afrikanische Sprachen (oder Sprachen mit vielen Endungen wie Deutsch oder Finnisch) ist das Werkzeug aber zu grob. Das Wort „Hund" wird vielleicht in drei oder vier kleine Stücke zerschnitten, weil die Sprache viele kleine Bausteine (Endungen) hat.

Die Analogie:
Stell dir vor, du musst ein Haus bauen.

  • Bei Englisch bekommst du fertige Ziegelsteine geliefert. Du brauchst 100 Steine für eine Wand.
  • Bei den afrikanischen Sprachen bekommst du nur Sand und Lehm. Du musst aus dem Sand erst 400 kleine Kugeln formen, um dieselbe Wand zu bauen.

Das ist der Kern des Problems: Um denselben Inhalt zu verstehen, müssen die Computer für manche Sprachen viermal so viele Bausteine verarbeiten.

2. Die „Token-Steuer" (The Token Tax)

Weil Computer-Gehirne (KI-Modelle) so programmiert sind, dass sie mit der Anzahl der Bausteine rechnen, wird das nicht-linear teurer.

  • Wenn du 2-mal so viele Bausteine hast, kostet das Training nicht nur 2-mal so viel, sondern 4-mal so viel Zeit und Geld (wegen der Mathematik dahinter).
  • Die Folge: Es kostet Firmen Millionen Dollar mehr, eine KI für eine afrikanische Sprache zu trainieren als für Englisch. Das nennt die Studie die „Token-Steuer". Es ist eine versteckte Steuer, die nur Sprecher von komplexen, weniger verbreiteten Sprachen zahlen müssen.

3. Der Effekt auf die Intelligenz (Genauigkeit)

Die Studie hat 10 verschiedene KI-Modelle getestet (wie Llama, GPT, DeepSeek) an einem Test mit 9.000 Fragen in 16 afrikanischen Sprachen.

  • Das Ergebnis: Je mehr Bausteine (Tokens) ein Wort braucht, desto dümmer wird die KI bei dieser Sprache.
  • Die Metapher: Stell dir vor, du musst einen Text lesen, aber jedes Wort ist in 4 Teile zerlegt. Du musst erst alle Teile zusammensetzen, bevor du den Sinn verstehst. Das macht müde und du machst mehr Fehler. Die KI macht genau das: Sie verliert den Fokus, weil sie zu viel Zeit mit dem „Zusammensetzen" verbringt.

4. Gibt es eine Lösung? (Die „Denker")

Die Forscher haben auch neue, fortschrittlichere Modelle getestet, die wie Nachdenker funktionieren (z. B. DeepSeek oder o1). Diese Modelle denken länger nach, bevor sie antworten.

  • Das Gute: Diese „Denker" sind viel besser darin, die zerlegten Wörter wieder zusammenzufügen. Sie schneiden die Lücke zwischen Englisch und den afrikanischen Sprachen fast um die Hälfte.
  • Das Schlechte: Sie können das Problem nicht ganz lösen. Die „Token-Steuer" existiert immer noch. Die KI ist immer noch im Nachteil, nur nicht ganz so schlimm wie früher.

5. Warum das wichtig ist

Die Studie sagt uns: Das ist kein kleiner technischer Fehler. Es ist ein systemisches Problem.

  • Es bedeutet, dass Milliarden von Menschen auf der Welt (die keine Englisch sprechen) automatisch benachteiligt werden.
  • Es kostet mehr Geld, mehr Strom und mehr Zeit, ihnen eine gute KI zu geben.
  • Die Lösung liegt darin, die Werkzeuge (Tokenisierer) so zu bauen, dass sie die Sprache respektieren, statt sie unnötig in viele Teile zu zerlegen, und die Preise fair zu gestalten.

Zusammengefasst:
Die KI-Welt baut derzeit ein System, das für Englisch gebaut wurde. Für alle anderen Sprachen muss man den Weg mit viel mehr Steinen pflastern, was alles langsamer, teurer und fehleranfälliger macht. Die Studie fordert, dass wir diese „Steuer" abschaffen, damit die KI für alle Menschen fair funktioniert.