Scaling Laws for Precision in High-Dimensional Linear Regression

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der Riesen-Computer und sein knapper Budget

Stell dir vor, du möchtest einen riesigen, genialen Koch (eine KI) trainieren, der die besten Gerichte der Welt kochen kann. Um das zu tun, brauchst du zwei Dinge:

Ein riesiges Kochbuch (die Datenmenge).
Einen sehr großen Koch mit vielen Händen und Werkzeugen (die Modellgröße).

In der Vergangenheit haben Forscher einfach gesagt: „Je größer der Koch und je dicker das Buch, desto besser das Essen." Das funktioniert, kostet aber ein Vermögen an Strom und Zeit.

Jetzt wollen wir sparen. Wir wollen den Koch mit weniger Werkzeugen ausstatten (niedrige Genauigkeit/Quantisierung). Aber hier gibt es ein Problem: Wenn wir die Werkzeuge vereinfachen, wird das Essen vielleicht schlechter. Die Frage ist: Wie genau müssen wir die Werkzeuge vereinfachen, damit der Koch trotzdem noch großartige Gerichte macht, ohne dass wir das Budget sprengen?

Bisher wussten die Forscher nur durch Ausprobieren (Versuch und Irrtum), wie das funktioniert. Diese neue Studie bringt nun die Theorie ins Spiel, um zu erklären, warum das funktioniert.

Die zwei Arten, Werkzeuge zu vereinfachen

Die Forscher haben zwei verschiedene Methoden untersucht, wie man die „Genauigkeit" der Werkzeuge reduziert. Man kann sich das wie zwei verschiedene Arten vorstellen, wie ein Koch mit ungenauen Messbechern umgeht:

1. Die „Proportionale" Methode (Multiplikative Quantisierung)

Die Analogie: Stell dir vor, du hast einen Messbecher, der nicht exakt 100ml anzeigt, sondern immer 10% zu viel oder zu wenig misst.
- Wenn du 100ml Wasser misst, sind es 110ml oder 90ml.
- Wenn du 1000ml misst, sind es 1100ml oder 900ml.
Das Ergebnis: Der Fehler wächst mit der Menge. Aber das Wichtigste: Die Struktur bleibt erhalten. Wenn du eine große Menge misst, ist der Fehler groß, aber er ist immer noch proportional.
Die Erkenntnis der Studie: Bei dieser Methode bleibt die Kraft des Kochs (die Modellgröße) voll erhalten. Der Koch kann immer noch alle seine Tricks anwenden, auch wenn seine Messbecher ungenau sind. Er wird nur etwas langsamer oder braucht mehr Zutaten (Daten), um das gleiche Ergebnis zu erzielen.

2. Die „Starre" Methode (Additive Quantisierung)

Die Analogie: Stell dir vor, du hast einen Messbecher, der immer genau 10ml zu viel anzeigt, egal wie viel du eingießt.
- Bei 100ml sind es 110ml.
- Bei 1000ml sind es 1010ml.
- Bei 10.000ml sind es 10.010ml.
Das Problem: Bei kleinen Mengen ist der Fehler riesig (10% bei 100ml). Bei großen Mengen ist er klein (0,1% bei 10.000ml). Aber hier liegt der Haken: In der KI-Welt gibt es viele „kleine Details" (die feinen Nuancen im Kochbuch). Wenn du einen starren Fehler von 10ml in diese kleinen Details einbringst, überwältigt dieser Fehler die feinen Nuancen komplett.
Die Erkenntnis der Studie: Bei dieser Methode verliert der Koch Teile seiner Fähigkeiten. Es ist, als würde man ihm die Hände amputieren. Die „effektive Größe" des Modells schrumpft. Der Koch kann nicht mehr so viele Tricks gleichzeitig anwenden, weil die starren Fehler die feinen Details im Rezept unbrauchbar machen.

Was bedeutet das für uns?

Die Studie sagt uns, dass wir nicht einfach „Quantisierung" (das Vereinfachen der Zahlen) als einen einzigen Begriff betrachten dürfen. Es kommt darauf an, welche Art von Vereinfachung wir nutzen:

Wenn wir Gleitkommazahlen (wie FP8) nutzen (ähnlich der proportionalen Methode): Wir können die Werkzeuge vereinfachen, ohne dem Koch die Hände abzuschneiden. Das Modell bleibt mächtig, wir müssen nur etwas mehr Daten (Kochbuchseiten) verwenden, um den Fehler auszugleichen.
Wenn wir Ganzzahlen (wie INT8) nutzen (ähnlich der starren Methode): Wir sparen zwar Platz, aber wir verlieren tatsächlich an Modellgröße. Das Modell wird effektiv kleiner. Um das gleiche Ergebnis zu erzielen, müssten wir entweder das Modell vergrößern oder extrem viele Daten verwenden, um den „stumpfen" Fehler zu überwinden.

Das Fazit in einem Satz

Diese Studie liefert die mathematische Landkarte, um zu verstehen, warum manche Methoden des KI-Trainings mit weniger Rechenleistung funktionieren, ohne dass die Qualität leidet, während andere Methoden das Modell effektiv „verkleinern" und schwächen. Sie hilft Ingenieuren, die perfekte Balance zwischen Modellgröße, Datenmenge und Rechengenauigkeit zu finden, um die nächsten großen KI-Modelle effizient zu trainieren.

Kurz gesagt: Es ist nicht egal, wie man die Werkzeuge vereinfacht. Manche Vereinfachungen machen den Koch nur etwas ungenauer, andere schneiden ihm die Hände ab. Die Wissenschaftler haben jetzt die Formel, um das vorherzusagen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Scaling Laws for Precision in High-Dimensional Linear Regression

Autoren: Dechen Zhang, Xuan Tang, Yingyu Liang, Difan Zou
Datum: Februar 2026

1. Problemstellung

Das Training großer Sprachmodelle (LLMs) wird zunehmend durch die Skalierungsgesetze (Scaling Laws) bestimmt, die den Zusammenhang zwischen Modellgröße ( $M$ ), Datensatzgröße ( $N$ ) und der Leistung beschreiben. Aufgrund der prohibitiven Rechen- und Speicherkosten ist das Training mit niedriger Präzision (Low-Precision Training) unverzichtbar geworden.

Bisherige empirische Studien haben jedoch zu widersprüchlichen Modellen geführt, die den Einfluss der Quantisierung beschreiben:

Effektive Größenreduktion: Quantisierung reduziert die effektive Modellkapazität ( $M_{eff} < M$ ).
Additiver Fehler: Quantisierung wirkt als additiver Fehlerterm, der die Leistung verschlechtert, ohne die Modellgröße zu ändern.

Es fehlte bisher ein einheitliches theoretisches Framework, um zu klären, welche dieser Formulierungen physikalisch korrekt ist und wie spezifische Trainingsalgorithmen und Mischpräzisionsstrategien (z. B. Float vs. Integer) diese Effekte mechanistisch beeinflussen.

2. Methodik

Die Autoren initiieren eine theoretische Untersuchung der Skalierungsgesetze für das Low-Precision-Training im Rahmen eines hochdimensionalen skizzierten linearen Regressionsmodells (high-dimensional sketched linear regression).

Modell: Ein lineares Modell mit $M$ trainierbaren Parametern wird auf skizzierten Kovariaten $(Sx, y)$ trainiert, wobei $S$ eine Gaußsche Skizzenmatrix ist.
Optimierung: Das Training erfolgt mittels One-Pass Stochastic Gradient Descent (SGD) mit konstantem Schrittweite und Iterationsdurchschnitt.
Quantisierung: Es wird eine stochastische Quantisierung (unbiased rounding) verwendet. Die Autoren unterscheiden strikt zwischen zwei fundamentalen Quantisierungsschemata:
- Multiplikative Quantisierung (Signal-abhängig): Der Fehler variiert proportional zur Signalstärke (typisch für Floating-Point-Formate wie FP8).
- Additive Quantisierung (Signal-unabhängig): Der Fehler ist konstant und unabhängig vom Signal (typisch für Integer-Formate wie INT8).
Annahmen: Die Datenkovaianzmatrix folgt einem Potenzgesetz-Spektrum ( $\lambda_i \propto i^{-a}$ mit $a > 1$ ), und das Rauschen sowie die vierten Momente der Daten werden durch spezifische Bedingungen kontrolliert.

3. Schlüsselbeiträge und Theoretische Ergebnisse

Die Arbeit liefert die ersten strengen oberen und unteren Schranken für die Populationsrisiken (Population Risk) unter beiden Quantisierungsschemata. Die zentrale Erkenntnis ist eine kritische Dichotomie in den Skalierungsverhalten:

A. Effektive Datenmenge ( $N_{eff}$ )

Beide Schemata (multiplikativ und additiv) führen zu einer Verringerung der effektiven Datenmenge. Dies geschieht durch:

Rauschverstärkung: Durch die Quantisierung von Parametern, Gradienten und Aktivierungen.
Spektrale Verzerrung: Durch die Verzerrung des Spektrums der skizzierten Features.
In beiden Fällen gilt: $N_{eff} < N$ .

B. Effektive Modellgröße ( $M_{eff}$ ) – Der entscheidende Unterschied

Hier zeigt sich der fundamentale Unterschied zwischen den beiden Quantisierungsarten:

Multiplikative Quantisierung (FP-ähnlich):
- Behält die volle Modellkapazität bei: $M_{eff} \approx M$ .
- Mechanismus: Da der Fehler signalabhängig ist, skaliert er im hochdimensionalen „Tail"-Unterraum (wo die Signale schwach sind) mit dem Signal herunter. Dies erhält die spektrale Struktur und macht alle Parameter weiterhin lernfähig.
Additive Quantisierung (INT-ähnlich):
- Reduziert die effektive Modellgröße: $M_{eff} < M$ .
- Mechanismus: Der konstante Quantisierungsfehler überlagert das intrinsische Signal im spektralen Tail. Dies führt zu einer „Abflachung" des Spektrums, wodurch die Tail-Dimensionen für das Lernen unbrauchbar werden. Das Modell kann seine volle Parameterzahl nicht effektiv nutzen.

C. Additiver Fehlerterm

Beide Schemata führen einen additiven Fehlerterm $\delta(\epsilon)$ ein, der durch die Lücke zwischen dem quantisierten Feature-Raum und dem Vollpräzisions-Raum entsteht. Dieser Term stellt eine irreduzible untere Schranke für den Fehler dar.

4. Experimentelle Validierung

Die theoretischen Vorhersagen wurden durch numerische Experimente validiert:

Setup: Daten mit Potenzgesetz-Spektrum ( $a=1.5$ und $a=2.0$ ) wurden generiert und mit SGD unter multiplikativer ( $\epsilon=10^{-3}$ ) und additiver Quantisierung ( $\epsilon=10^{-8}$ ) trainiert.
Ergebnisse:
- Die angepassten Exponenten für die Skalierung des Exzessrisikos ( $R \sim M_{eff}^{-\alpha} N_{eff}^{-\beta}$ ) stimmten exakt mit den theoretischen Vorhersagen überein ( $\alpha = -(a-1)$ , $\beta = -(a-1)/a$ ).
- Die Experimente bestätigten, dass bei additiver Quantisierung die effektive Modellgröße schrumpft, während sie bei multiplikativer Quantisierung erhalten bleibt.
- Alle Fits erreichten ein $R^2 > 0.99$ .

5. Bedeutung und Implikationen

Diese Arbeit bietet einen prinzipiellen theoretischen Rahmen für die Optimierung von Trainingsprotokollen unter Hardware-Beschränkungen:

Klärung empirischer Beobachtungen: Die Theorie erklärt, warum Integer-Quantisierung (INT) oft als Reduktion der Modellkapazität wahrgenommen wird (Theorem 4.2), während Floating-Point-Quantisierung (FP) die Kapazität erhält (Theorem 4.1).
Ressourcenallokation: Für das Training unter Hardware-Beschränkungen (Festlegung von Rechenzeit/Speicher) liefert das Paper Leitlinien, wie $M$ $M$ , $N$ $N$ und die Präzision ( $Q$ $Q$ ) optimal verteilt werden sollten.
- Bei Verwendung von Integer-Quantisierung muss die Modellgröße möglicherweise reduziert werden, um den Verlust an effektiver Kapazität zu kompensieren.
- Bei Floating-Point-Quantisierung kann die volle Modellgröße genutzt werden, wobei der Fokus auf der Minimierung des additiven Fehlers und der Optimierung von $N$ liegt.
Grundlagenforschung: Die Arbeit schließt die Lücke zwischen empirischen Scaling Laws und der statistischen Lerntheorie, indem sie zeigt, wie Quantisierungsfehler die Bias-Variance-Trade-offs in hochdimensionalen Räumen fundamental verändern.

Zusammenfassend demonstriert das Paper, dass die Wahl der numerischen Präzision nicht nur einen additiven Fehler verursacht, sondern je nach Typ (additiv vs. multiplikativ) die fundamentale Lernfähigkeit des Modells bezüglich seiner Dimensionalität verändert.

Scaling Laws for Precision in High-Dimensional Linear Regression

Das große Problem: Der Riesen-Computer und sein knapper Budget

Die zwei Arten, Werkzeuge zu vereinfachen

1. Die „Proportionale" Methode (Multiplikative Quantisierung)

2. Die „Starre" Methode (Additive Quantisierung)

Was bedeutet das für uns?

Das Fazit in einem Satz

Titel: Scaling Laws for Precision in High-Dimensional Linear Regression

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge und Theoretische Ergebnisse

A. Effektive Datenmenge (NeffN_{eff}Neff​)

B. Effektive Modellgröße (MeffM_{eff}Meff​) – Der entscheidende Unterschied

C. Additiver Fehlerterm

4. Experimentelle Validierung

5. Bedeutung und Implikationen

Mehr davon

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields

A. Effektive Datenmenge ( $N_{eff}$ )

B. Effektive Modellgröße ( $M_{eff}$ ) – Der entscheidende Unterschied