What Scales in Cross-Entropy Scaling Law?

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum hören riesige KI-Modelle auf, besser zu werden?

Stell dir vor, du baust einen riesigen Lego-Turm. Die alte Regel (das „Skalierungsgesetz") besagte: „Je mehr Steine du hast, desto höher und stabiler wird der Turm." Das hat super funktioniert, solange der Turm klein war. Aber als die Forscher begannen, gigantische Türme zu bauen (die heutigen großen Sprachmodelle wie GPT-4), passierte etwas Seltsames: Der Turm wuchs zwar noch, aber er wurde nicht mehr so stabil, wie erwartet. Die Verbesserungen wurden immer langsamer.

Die Forscher von der Tsinghua-Universität haben sich gefragt: Was stimmt hier nicht? Ist die Regel falsch? Oder versteckt sich etwas in der Art, wie wir den Turm messen?

Die neue Lupe: Den „Fehler" in drei Teile zerlegen

Statt einfach nur zu sagen „Der Turm ist schief", haben die Forscher eine neue Art entwickelt, den Turm zu betrachten. Sie haben den üblichen Messwert (die „Cross-Entropy", ein komplexer Begriff für „wie falsch die KI liegt") in drei verschiedene Zutaten zerlegt.

Stell dir vor, die KI macht eine Vorhersage (z. B. „Welches Wort kommt als Nächstes?"). Die Forscher schauen sich dabei drei Dinge an:

Der Rang-Fehler (Error-Entropy):
- Der Vergleich: Stell dir ein Rennen vor. Die KI muss das richtige Wort finden. Wenn das richtige Wort auf Platz 100 steht, ist das ein riesiger Fehler. Wenn es auf Platz 1 steht, ist alles perfekt.
- Die Erkenntnis: Diese Komponente misst nur, wie weit vorne das richtige Wort im Ranking liegt. Die Forscher haben herausgefunden: Nur dieser Teil folgt der alten Regel! Je größer das Modell, desto besser wird es darin, das richtige Wort an die Spitze zu schieben. Das ist der eigentliche Motor des Fortschritts.
Die Selbst-Ausrichtung (Self-Alignment):
- Der Vergleich: Stell dir vor, die KI sagt: „Ich bin zu 90 % sicher, dass das Wort 'Apfel' kommt." Aber eigentlich liegt sie nur zu 50 % richtig. Oder sie sagt: „Ich bin zu 10 % sicher", obwohl sie es genau weiß.
- Die Erkenntnis: Dieser Teil misst, ob die KI ihre Selbstvertrauens-Angaben (die Wahrscheinlichkeiten) mit ihrer tatsächlichen Leistung übereinstimmt. Interessanterweise ändert sich dieser Teil kaum, egal wie groß das Modell wird. Er bleibt fast gleich.
Das Selbstvertrauen (Confidence):
- Der Vergleich: Wie laut schreit die KI? „Ich bin zu 100 % sicher!" vs. „Ich bin zu 1 % sicher."
- Die Erkenntnis: Dieser Teil misst einfach nur, wie „laut" oder „überzeugt" die KI ihre Antwort gibt. Auch dieser Teil folgt keiner klaren Regel, wenn die Modelle größer werden.

Das Geheimnis der langsamen Verbesserung

Warum funktioniert die alte Regel also plötzlich nicht mehr?

Die Forscher haben eine brillante Erklärung gefunden:

Bei kleinen Modellen (kleine Türme) besteht der gesamte Messwert fast zu 90 % aus dem Rang-Fehler. Da dieser Teil perfekt skaliert, sieht es so aus, als würde das ganze Modell perfekt skaliert.
Bei riesigen Modellen (gigantische Türme) passiert etwas: Der Anteil des Rang-Fehlers wird kleiner. Die anderen beiden Teile (Selbst-Ausrichtung und Selbstvertrauen), die sich kaum verbessern, machen einen immer größeren Teil des Gesamtbildes aus.

Die Metapher:
Stell dir vor, du misst die Qualität eines Autos.

Bei kleinen Autos ist der Motor (der Rang-Fehler) das Wichtigste. Wenn der Motor besser wird, wird das ganze Auto besser.
Bei riesigen Luxusautos ist der Motor zwar immer noch da, aber das Auto besteht jetzt zu 50 % aus Chromverkleidung und Lederpolstern (den anderen Teilen), die sich nicht verbessern. Wenn du versuchst, das ganze Auto zu messen, sieht es so aus, als würde es sich kaum noch verbessern, obwohl der Motor eigentlich immer noch besser wird.

Was bedeutet das für die Zukunft?

Diese Entdeckung ist wie ein neuer Kompass für die KI-Entwicklung:

Wir wissen jetzt, worauf wir uns konzentrieren müssen: Wir sollten nicht versuchen, die KI lauter oder selbstsicherer zu machen (die anderen Teile), sondern uns darauf konzentrieren, das Richtig-finden (den Rang-Fehler) zu optimieren.
Die alte Regel war nicht falsch, nur unvollständig: Die KI wird immer besser, aber wir haben den falschen Maßstab benutzt. Wenn wir nur den Rang-Fehler betrachten, sehen wir, dass die Skalierungsgesetze immer noch gelten.
Bessere Trainingsmethoden: Die Forscher schlagen vor, die KI so zu trainieren, dass sie sich mehr auf das „Richtig-Raten" konzentriert und weniger auf das „Laut-Rufen". Das könnte helfen, die nächsten Generationen von KI-Modellen effizienter und leistungsfähiger zu machen.

Zusammenfassend: Die KI wird nicht langsamer, sie wird nur von „Lärm" (Selbstvertrauen und Ausrichtung) überdeckt. Wenn wir diesen Lärm herausfiltern, sehen wir, dass der eigentliche Lernprozess (das Finden der richtigen Antwort) immer noch perfekt funktioniert.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Das Cross-Entropy Scaling Law (Skalierungsgesetz der Kreuzentropie) ist ein empirisches Gesetz, das besagt, dass der Verlust (Loss) von Large Language Models (LLMs) mit zunehmender Modellgröße und Datensatzgröße in einer vorhersehbaren Potenzgesetz-Rate abnimmt. Dieses Gesetz ist fundamental für die Planung von Trainingsressourcen und das Verständnis von KI-Entwicklung.

Allerdings zeigen neuere Beobachtungen, dass dieses Gesetz bei sehr großen Modellen zusammenbricht: Der Verlust nimmt langsamer ab als erwartet, was die Vorhersagbarkeit für zukünftige Skalierungen gefährdet. Die theoretische Begründung für das ursprüngliche Gesetz ist zudem unklar, da existierende Theorien oft nur auf fehlerbasierten Metriken (wie dem mittleren quadratischen Fehler) basieren und sich nicht direkt auf die Kreuzentropie übertragen lassen. Die zentrale Forschungsfrage lautet daher: Welcher Teil der Kreuzentropie skaliert tatsächlich, und warum bricht das Gesetz bei großen Modellen zusammen?

Methodik

Die Autoren führen eine neuartige mathematische Zerlegung der Kreuzentropie durch, um ihre inneren Komponenten zu isolieren und deren Skalierungsverhalten zu untersuchen.

Rank-based Error (RBE):
Anstatt sich auf die rohen Wahrscheinlichkeitswerte des korrekten Tokens zu verlassen (die durch Sampling-Strategien wie Temperature Scaling manipuliert werden können), führen die Autoren die Metrik Rank-based Error (RBE) ein. Der RBE ist einfach der Rang des korrekten Tokens in der sortierten Liste aller Vokabular-Tokens (z. B. wenn 4 andere Tokens eine höhere Wahrscheinlichkeit haben, ist der RBE 4).
Zerlegung der Kreuzentropie:
Basierend auf der Verteilung des RBE ( $p_e$ ) und der normalisierten Score-Verteilung ( $q_e$ ) zerlegen die Autoren die Kreuzentropie exakt in drei additive Terme:
- Error-Entropy (EE): Die Shannon-Entropie der RBE-Verteilung ( $p_e$ ). Sie misst, wie stark die Unsicherheit bezüglich der Position des korrekten Tokens ist.
- Self-Alignment (SA): Die KL-Divergenz zwischen der RBE-Verteilung ( $p_e$ ) und der normalisierten Score-Verteilung ( $q_e$ ). Sie misst, wie gut die Wahrscheinlichkeitswerte mit der tatsächlichen Fehlerverteilung übereinstimmen.
- Confidence: Der Logarithmus der Norm der Vorhersagescores ( $C$ ). Sie repräsentiert die absolute Sicherheit des Modells in seinen Vorhersagen.
Mathematisch gilt: $L_{CE} = \text{Error-Entropy} + \text{Self-Alignment} - \log(\text{Confidence})$ .
Experimentelles Setup:
Die Autoren testen diese Hypothese an 32 Modellen (von 14M bis 70B Parametern) über fünf Größenordnungen hinweg, trainiert auf drei verschiedenen Datensätzen (Wikipedia, C4, GitHub). Sie analysieren sowohl die Trainingsdynamik als auch das Skalierungsverhalten über verschiedene Modellgrößen hinweg.

Wichtige Erkenntnisse und Ergebnisse

Nur Error-Entropy skaliert robust:
Die experimentellen Ergebnisse zeigen eindeutig, dass von den drei Komponenten nur die Error-Entropy (EE) einem robusten Potenzgesetz folgt.
- Error-Entropy: Nimmt linear im Log-Log-Plot mit der Modellgröße ab und weist eine bessere Anpassungsgüte ( $R^2$ ) auf als die gesamte Kreuzentropie.
- Self-Alignment & Confidence: Diese Terme zeigen kein konsistentes Skalierungsverhalten. Sie bleiben bei verschiedenen Modellgrößen weitgehend invariant oder zeigen zufällige Schwankungen.
Erklärung des Zusammenbruchs des Skalierungsgesetzes:
Das Paper liefert eine Erklärung dafür, warum das Kreuzentropie-Skalierungsgesetz bei kleinen Modellen gut funktioniert, bei großen jedoch versagt:
- Bei kleinen Modellen macht die Error-Entropy den Großteil (ca. 80–90 %) des Gesamtverlusts aus. Da EE skaliert, skaliert auch die gesamte Kreuzentropie scheinbar perfekt.
- Bei wachsenden Modellen nimmt der relative Anteil der Error-Entropy am Gesamtverlust ab. Die nicht-skalierenden Terme (Self-Alignment und Confidence) gewinnen an Gewicht. Da diese Terme nicht weiter abnehmen, dominiert ihr „Rauschen" den Gesamtverlust, wodurch das beobachtete Skalierungsgesetz für die Kreuzentropie zusammenbricht.
Training-Dynamik:
Während des Trainings optimiert das Modell zunächst stark die Error-Entropy (um den korrekten Token nach oben zu rücken). Erst wenn die Error-Entropy minimiert ist, beginnen die Modelle, Self-Alignment und Confidence zu optimieren. Dies bestätigt, dass EE der primäre Treiber für die Lernfähigkeit ist.

Bedeutung und Implikationen

Neues Skalierungsgesetz: Die Autoren schlagen das Error-Entropy Scaling Law als präzisere Beschreibung des Modellverhaltens vor. Es ist robuster als das traditionelle Kreuzentropie-Gesetz, da es unabhängig von der Kalibrierung der Wahrscheinlichkeiten ist.
Theoretisches Verständnis: Die Arbeit verbindet das Training von LLMs mit Konzepten aus dem Information-Theoretic Learning (ITL), wo die Minimierung der Fehlerentropie ein etabliertes Ziel ist. Sie legt nahe, dass LLMs primär lernen, Fehler zu minimieren (Rang zu verbessern), und nicht unbedingt Wahrscheinlichkeiten perfekt zu kalibrieren.
Praktische Anwendungen:
- Trainingsziele: Die Autoren schlagen vor, Trainingsverluste zu modifizieren, um den nicht-skalierenden Confidence-Term zu bestrafen (z. B. durch einen kompensierten Loss $L_\lambda = CE + \lambda \cdot CONF$ ), um die Optimierung wieder auf die Error-Entropy zu fokussieren.
- Ressourcenplanung: Da EE der treibende Faktor ist, könnten zukünftige Skalierungsprognosen auf EE basieren, um genauere Vorhersagen für sehr große Modelle zu treffen.
- Robustheit: Da EE nur vom Rang abhängt, ist sie unempfindlich gegenüber Sampling-Techniken (wie Top-P oder Temperature Scaling), was sie zu einer stabileren Evaluationsmetrik macht.

Fazit: Das Paper widerlegt die Annahme, dass die Kreuzentropie als Ganzes skaliert, und identifiziert die Error-Entropy als den eigentlichen, skalierenden Kern. Dies erklärt das Phänomen des „Slow-Down" bei großen Modellen und bietet einen neuen theoretischen und praktischen Rahmen für die Entwicklung zukünftiger Large Language Models.

What Scales in Cross-Entropy Scaling Law?

Das große Rätsel: Warum hören riesige KI-Modelle auf, besser zu werden?

Die neue Lupe: Den „Fehler" in drei Teile zerlegen

Das Geheimnis der langsamen Verbesserung

Was bedeutet das für die Zukunft?

Problemstellung

Methodik

Wichtige Erkenntnisse und Ergebnisse

Bedeutung und Implikationen

Mehr davon

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering