Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Die Studie stellt „Information Capacity" als neue Metrik vor, die die Effizienz von Large Language Models durch die Analyse ihrer Textkompressionsleistung unter Berücksichtigung von Tokenizer-Effizienz und Rechenkomplexität bewertet, um ressourcenschonendere Skalierungsstrategien zu ermöglichen.

Cheng Yuan, Jiawei Shao, Xuelong Li

Veröffentlicht 2026-03-11
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben eine riesige Bibliothek voller Bücher (das sind die Daten, die ein KI-Modell lernt). Früher fragten wir KI-Modelle nur: „Wie viel Wissen hast du?" (Wie viele Parameter hat das Modell?). Aber heute, wo KI-Modelle immer größer und teurer werden, ist die wichtigere Frage: „Wie effizient ist dein Gehirn?"

Die Forscher von China Telecom haben eine neue Methode entwickelt, um genau das zu messen. Sie nennen es „Informationskapazität". Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Grundprinzip: Der perfekte Kompressor

Stellen Sie sich vor, Sie wollen ein riesiges Buch in einen kleinen Koffer packen, um es zu versenden.

  • Ein schlechter Kompressor (ein ineffizientes KI-Modell) braucht einen riesigen Koffer, weil er nicht gut versteht, wie die Wörter zusammenhängen. Er muss viele Wiederholungen mitnehmen.
  • Ein guter Kompressor (ein intelligentes KI-Modell) versteht die Sprache so gut, dass es das Buch in einen winzigen Koffer packen kann. Es weiß genau, welches Wort als nächstes kommt, und spart sich Platz.

In der Welt der KI bedeutet Kompression = Intelligenz. Je besser ein Modell vorhersagen kann, welches Wort als nächstes kommt, desto besser kann es Daten „komprimieren" (also effizienter verarbeiten).

2. Die neue Waage: Intelligenz geteilt durch Aufwand

Bisher haben wir Modelle oft nur an ihrer Größe gemessen (wie viele Gewichte im Gehirn). Das ist wie wenn man sagt: „Ein riesiger Lastwagen ist besser als ein Fahrrad, weil er mehr Platz hat." Aber was, wenn der Lastwagen 1000 Liter Benzin verbraucht, um eine Postkarte zu liefern, während das Fahrrad nur einen Tropfen braucht?

Die Informationskapazität ist wie eine neue Waage, die zwei Dinge vergleicht:

  1. Wie viel Platz gespart wurde (Wie gut komprimiert das Modell den Text?).
  2. Wie viel Energie dafür verbraucht wurde (Wie viel Rechenleistung, gemessen in „FLOPs", war nötig?).

Die Formel ist einfach:

Informationskapazität = (Intelligenz / Kompressionsgewinn) geteilt durch (Rechenkosten)

Wenn ein Modell viel Intelligenz mit wenig Energie liefert, hat es eine hohe Informationskapazität. Das ist der „Goldstandard".

3. Der versteckte Trick: Der Übersetzer (Tokenizer)

Ein wichtiger Punkt, den die Forscher hervorheben, ist der Tokenizer. Stellen Sie sich den Tokenizer als einen Dolmetscher vor, der den Text in kleine Häppchen (Tokens) zerlegt, die die KI verstehen kann.

  • Ein schlechter Dolmetscher zerlegt das Wort „Elefant" in 10 kleine Häppchen. Die KI muss 10 Rechenschritte machen.
  • Ein guter Dolmetscher zerlegt „Elefant" in nur 1 Häppchen. Die KI braucht nur 1 Rechenschritt.

Die meisten bisherigen Tests haben diesen Dolmetscher ignoriert. Die Forscher sagen: „Nein! Wenn der Dolmetscher ineffizient ist, kostet die ganze KI mehr Strom, egal wie schlau sie ist." Die Informationskapazität berücksichtigt diesen Faktor direkt.

4. Was haben sie herausgefunden?

Die Forscher haben 56 verschiedene KI-Modelle getestet und einige spannende Dinge entdeckt:

  • Größe ist nicht alles: Innerhalb einer Modell-Familie (z. B. alle „Qwen"-Modelle) ist die Informationskapazität fast immer gleich. Ein riesiges Modell ist nicht unbedingt „effizienter" pro Rechenschritt als ein kleines; es ist nur größer. Das ist wie bei einer Familie: Alle sind gleich schlau, nur der Große hat mehr Muskeln.
  • Sprach-Voreingenommenheit: Manche Modelle sind wie Spezialisten. Ein Modell, das auf Chinesisch trainiert wurde, ist auf Chinesisch super effizient, aber auf Englisch vielleicht etwas träge. Es gibt keine „perfekte Allround-KI" für alle Sprachen und Themen.
  • MoE-Architektur (Mixture of Experts): Das sind Modelle, die wie ein Team von Spezialisten funktionieren. Nur der passende Experte wird für eine Aufgabe aktiviert. Das spart enorm viel Energie und macht diese Modelle sehr effizient.
  • Nachtraining schadet der Effizienz: Wenn man ein KI-Modell trainiert, damit es wie ein freundlicher Chatbot antwortet (Nachtraining), wird es oft etwas „dummer" beim reinen Textkomprimieren. Es verliert ein bisschen an roher Effizienz, um höflicher zu werden.

5. Warum ist das wichtig?

Stellen Sie sich vor, Sie wollen eine KI auf einem kleinen Handy laufen lassen, nicht auf einem riesigen Server.

  • Früher: Man suchte das „klügste" Modell, egal wie groß es war.
  • Heute: Man sucht das Modell mit der höchsten Informationskapazität. Das ist das Modell, das die beste Leistung pro Watt Strom liefert.

Fazit:
Die Forscher sagen uns: „Hören Sie auf, nur auf die Größe der Modelle zu starren. Schauen Sie darauf, wie viel Intelligenz Sie für jeden Tropfen Energie bekommen." Die Informationskapazität ist wie ein neuer Führerschein für KI, der uns hilft, die wirklich effizienten Modelle zu finden, die in Zukunft unsere Energie sparen und schneller arbeiten werden.