Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben eine riesige Bibliothek voller Bücher (das sind die Daten, die ein KI-Modell lernt). Früher fragten wir KI-Modelle nur: „Wie viel Wissen hast du?" (Wie viele Parameter hat das Modell?). Aber heute, wo KI-Modelle immer größer und teurer werden, ist die wichtigere Frage: „Wie effizient ist dein Gehirn?"

Die Forscher von China Telecom haben eine neue Methode entwickelt, um genau das zu messen. Sie nennen es „Informationskapazität". Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Grundprinzip: Der perfekte Kompressor

Stellen Sie sich vor, Sie wollen ein riesiges Buch in einen kleinen Koffer packen, um es zu versenden.

Ein schlechter Kompressor (ein ineffizientes KI-Modell) braucht einen riesigen Koffer, weil er nicht gut versteht, wie die Wörter zusammenhängen. Er muss viele Wiederholungen mitnehmen.
Ein guter Kompressor (ein intelligentes KI-Modell) versteht die Sprache so gut, dass es das Buch in einen winzigen Koffer packen kann. Es weiß genau, welches Wort als nächstes kommt, und spart sich Platz.

In der Welt der KI bedeutet Kompression = Intelligenz. Je besser ein Modell vorhersagen kann, welches Wort als nächstes kommt, desto besser kann es Daten „komprimieren" (also effizienter verarbeiten).

2. Die neue Waage: Intelligenz geteilt durch Aufwand

Bisher haben wir Modelle oft nur an ihrer Größe gemessen (wie viele Gewichte im Gehirn). Das ist wie wenn man sagt: „Ein riesiger Lastwagen ist besser als ein Fahrrad, weil er mehr Platz hat." Aber was, wenn der Lastwagen 1000 Liter Benzin verbraucht, um eine Postkarte zu liefern, während das Fahrrad nur einen Tropfen braucht?

Die Informationskapazität ist wie eine neue Waage, die zwei Dinge vergleicht:

Wie viel Platz gespart wurde (Wie gut komprimiert das Modell den Text?).
Wie viel Energie dafür verbraucht wurde (Wie viel Rechenleistung, gemessen in „FLOPs", war nötig?).

Die Formel ist einfach:

Informationskapazität = (Intelligenz / Kompressionsgewinn) geteilt durch (Rechenkosten)

Wenn ein Modell viel Intelligenz mit wenig Energie liefert, hat es eine hohe Informationskapazität. Das ist der „Goldstandard".

3. Der versteckte Trick: Der Übersetzer (Tokenizer)

Ein wichtiger Punkt, den die Forscher hervorheben, ist der Tokenizer. Stellen Sie sich den Tokenizer als einen Dolmetscher vor, der den Text in kleine Häppchen (Tokens) zerlegt, die die KI verstehen kann.

Ein schlechter Dolmetscher zerlegt das Wort „Elefant" in 10 kleine Häppchen. Die KI muss 10 Rechenschritte machen.
Ein guter Dolmetscher zerlegt „Elefant" in nur 1 Häppchen. Die KI braucht nur 1 Rechenschritt.

Die meisten bisherigen Tests haben diesen Dolmetscher ignoriert. Die Forscher sagen: „Nein! Wenn der Dolmetscher ineffizient ist, kostet die ganze KI mehr Strom, egal wie schlau sie ist." Die Informationskapazität berücksichtigt diesen Faktor direkt.

4. Was haben sie herausgefunden?

Die Forscher haben 56 verschiedene KI-Modelle getestet und einige spannende Dinge entdeckt:

Größe ist nicht alles: Innerhalb einer Modell-Familie (z. B. alle „Qwen"-Modelle) ist die Informationskapazität fast immer gleich. Ein riesiges Modell ist nicht unbedingt „effizienter" pro Rechenschritt als ein kleines; es ist nur größer. Das ist wie bei einer Familie: Alle sind gleich schlau, nur der Große hat mehr Muskeln.
Sprach-Voreingenommenheit: Manche Modelle sind wie Spezialisten. Ein Modell, das auf Chinesisch trainiert wurde, ist auf Chinesisch super effizient, aber auf Englisch vielleicht etwas träge. Es gibt keine „perfekte Allround-KI" für alle Sprachen und Themen.
MoE-Architektur (Mixture of Experts): Das sind Modelle, die wie ein Team von Spezialisten funktionieren. Nur der passende Experte wird für eine Aufgabe aktiviert. Das spart enorm viel Energie und macht diese Modelle sehr effizient.
Nachtraining schadet der Effizienz: Wenn man ein KI-Modell trainiert, damit es wie ein freundlicher Chatbot antwortet (Nachtraining), wird es oft etwas „dummer" beim reinen Textkomprimieren. Es verliert ein bisschen an roher Effizienz, um höflicher zu werden.

5. Warum ist das wichtig?

Stellen Sie sich vor, Sie wollen eine KI auf einem kleinen Handy laufen lassen, nicht auf einem riesigen Server.

Früher: Man suchte das „klügste" Modell, egal wie groß es war.
Heute: Man sucht das Modell mit der höchsten Informationskapazität. Das ist das Modell, das die beste Leistung pro Watt Strom liefert.

Fazit:
Die Forscher sagen uns: „Hören Sie auf, nur auf die Größe der Modelle zu starren. Schauen Sie darauf, wie viel Intelligenz Sie für jeden Tropfen Energie bekommen." Die Informationskapazität ist wie ein neuer Führerschein für KI, der uns hilft, die wirklich effizienten Modelle zu finden, die in Zukunft unsere Energie sparen und schneller arbeiten werden.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression" auf Deutsch:

1. Problemstellung

Die rasante Entwicklung von Large Language Models (LLMs) und deren zunehmende Anwendung führen zu einem enormen Anstieg des Bedarfs an Rechenressourcen. Die Einführung von „Test-Time Scaling" (Rechenintensivierung zur Laufzeit) verschärft die Spannung zwischen Modellkapazität und Ressourcenverbrauch.
Das zentrale Problem besteht darin, dass es derzeit keine rigorose Metrik gibt, die die Inferenzeffizienz von LLMs über verschiedene Tokenizer, Parameteranzahlen und Modellarchitekturen hinweg präzise vergleicht.

Bestehende Metriken (z. B. Parameteranzahl oder „Capability Density") ignorieren oft den Einfluss der Tokenizer-Effizienz. Ein effizienter Tokenizer reduziert die Anzahl der Tokens pro Texteinheit, was direkte Auswirkungen auf die Rechenkosten und die Inferenzverzögerung hat.
Es fehlt ein einheitlicher Maßstab, der die Leistungsfähigkeit (Intelligenz) in Relation zu den tatsächlichen Rechenkosten (FLOPs) setzt, insbesondere bei heterogenen Architekturen (dichte vs. MoE-Modelle).

2. Methodik: Information Capacity

Die Autoren führen den Begriff „Information Capacity" (IC) ein. Dieser basiert auf der starken Korrelation zwischen Datenkompression und Intelligenz. Da das Training von LLMs darauf abzielt, die Wahrscheinlichkeit des nächsten Tokens zu maximieren (Cross-Entropy-Loss minimieren), entspricht dies der Minimierung der Bitlänge bei verlustfreier Kompression (Shannon's Source Coding Theorem).

Die Information Capacity wird definiert als das Verhältnis von Modell-Intelligenz (gemessen durch Kompressionsgewinn) zu Inferenz-Komplexität (gemessen durch FLOPs).

Die Formel (vereinfacht):
$IC = \frac{\text{Kompressionsgewinn}}{\log_2(\text{FLOPs pro Token})}$

Kompressionsgewinn: Berechnet als Differenz zwischen der ursprünglichen Datengröße (in Bits, UTF-8) und der kodierten Länge basierend auf den vom Modell vorhergesagten Wahrscheinlichkeiten (Negative Log-Likelihood, NLL).
Berücksichtigung des Tokenizers: Die Metrik integriert die Effizienz des Tokenizers, da diese die Anzahl der Tokens pro Texteinheit bestimmt und somit die Gesamtkosten beeinflusst.
Offset-Korrektur: Um eine konsistente IC über verschiedene Größen innerhalb einer Modellserie zu gewährleisten, wird ein negativer Offset ( $b$ ) im Zähler eingeführt. Dies ermöglicht einen direkten Vergleich zwischen Modellen unterschiedlicher Serien.

Evaluierungssetup:

Modelle: 56 Open-Source-Modelle (u.a. Qwen, Llama, GLM, DeepSeek, Gemma, Hunyuan).
Datensätze: 5 heterogene Datensätze (gemischter Text, englische PDFs, chinesische Bildungsdaten, englische Bildungsdaten, Code).
Messung: Berechnung der NLL und der FLOPs basierend auf der Architektur (inkl. GQA, MLA, MoE-Strukturen).

3. Wichtige Beiträge

Einführung der Information Capacity: Eine neue, einheitliche Metrik zur Bewertung der Inferenzeffizienz, die Tokenizer-Effizienz, Modellleistung und Rechenkosten integriert.
Entdeckung linguistischer Verzerrungen: Die Studie zeigt, dass LLMs stark unterschiedliche Informationskapazitäten aufweisen, je nachdem, ob der Text in Englisch, Chinesisch oder Code vorliegt.
Identifikation entscheidender Faktoren:
- Tokenizer-Effizienz: Der dominierende Faktor. Modelle mit effizienteren Tokenizern (mehr Bits pro Token) erzielen signifikant höhere IC-Werte.
- Pretraining-Daten: Größere und qualitativ hochwertigere Datensätze verbessern die IC, zeigen aber abnehmende Grenzerträge bei bereits gut trainierten Modellen.
- MoE-Architektur (Mixture of Experts): MoE-Modelle erreichen eine höhere IC als dichte Modelle ähnlicher Größe, da sie bei gleicher Aktivierungsanzahl (FLOPs) durch eine höhere Gesamtparameterzahl (niedrigere Sparsity-Ratio) bessere Vorhersagen treffen.
Leistungsvorhersage: Die Autoren zeigen, dass die IC innerhalb einer Modellserie konstant bleibt. Dies ermöglicht die Vorhersage der Leistung (NLL) größerer Modelle basierend auf einem einzigen kleineren Referenzmodell, ohne teures Training großer Modelle.

4. Ergebnisse

Konsistenz innerhalb von Serien: Modelle derselben Familie (z. B. Qwen3 oder Llama-3) mit unterschiedlichen Größen weisen eine nahezu konstante Information Capacity auf.
Ranking und Verzerrungen:
- Die neuesten MoE-Modelle (z. B. DeepSeek-V3.1, GLM-4.5) erreichen die höchsten IC-Werte.
- Linguistische Bias: Chinesische Modelle (Qwen, Hunyuan) schneiden auf chinesischen Datensätzen deutlich besser ab als westliche Modelle (Llama, Gemma), die auf chinesischen Daten oft schlecht abschneiden. Umgekehrt zeigen westliche Modelle auf englischen Texten oft Vorteile.
- Code vs. Text: Die Rangfolge ändert sich drastisch, wenn von Text- zu Code-Datensätzen gewechselt wird.
Post-Training-Effekt: Das Fine-Tuning (SFT, RL) zur Verbesserung der Instruktionsbefolgung verschlechtert oft die Fähigkeit, die Wahrscheinlichkeit von reinem Text vorherzusagen, was zu einer geringeren Information Capacity führt.
Vorhersagegenauigkeit: Die auf IC basierende Vorhersage von NLL-Werten für verschiedene Modellgrößen ist deutlich genauer als traditionelle Power-Law-Ansätze (Kaplan et al.). Die Fehler liegen meist unter ±3%, während Power-Laws bis zu 25% Abweichung zeigen können.
Korrelation mit Benchmarks: Es besteht eine starke positive Korrelation zwischen der Information Capacity und Benchmark-Scores (wie MMLU, LiveCodeBench, C-Eval), insbesondere wenn der Evaluierungsdatensatz dem Benchmark-Domain entspricht.

5. Bedeutung und Ausblick

Die Arbeit liefert einen fundamentalen Wandel in der Bewertung von LLMs:

Ressourceneffizienz: In einer Ära, in der Rechenkosten und Energieverbrauch kritisch sind, bietet die Information Capacity einen besseren Indikator für die tatsächliche Effizienz als reine Parameteranzahlen.
Entwicklungsführung: Die Metrik hilft Entwicklern, bessere Skalierungsstrategien zu wählen (z. B. Optimierung des Tokenizers oder Nutzung von MoE-Architekturen) und ermöglicht die Vorhersage des Trainingsverhaltens großer Modelle durch kleine Referenzmodelle.
Heterogene Hardware: Da KI-Dienste zunehmend auf heterogenen Hardware-Stacks (Edge bis Cloud) laufen, ist eine Metrik, die Architekturunterschiede fair vergleicht, essenziell.

Zusammenfassend etabliert das Paper die Information Capacity als robusten, architekturunabhängigen und tokenizer-sensitiven Standard für die Bewertung der Effizienz und Skalierbarkeit zukünftiger Large Language Models.

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

1. Das Grundprinzip: Der perfekte Kompressor

2. Die neue Waage: Intelligenz geteilt durch Aufwand

3. Der versteckte Trick: Der Übersetzer (Tokenizer)

4. Was haben sie herausgefunden?

5. Warum ist das wichtig?

1. Problemstellung

2. Methodik: Information Capacity

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models