Scaling Laws for Precision in High-Dimensional Linear Regression

Diese Arbeit leitet theoretische Skalierungsgesetze für das Training mit geringer Präzision im hochdimensionalen linearen Regression ab und zeigt, dass sich multiplikative und additive Quantisierung grundlegend darin unterscheiden, wie sie die effektive Modellgröße beeinflussen, wobei erstere diese beibehält und letztere sie reduziert.

Dechen Zhang, Xuan Tang, Yingyu Liang, Difan Zou

Veröffentlicht 2026-02-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der Riesen-Computer und sein knapper Budget

Stell dir vor, du möchtest einen riesigen, genialen Koch (eine KI) trainieren, der die besten Gerichte der Welt kochen kann. Um das zu tun, brauchst du zwei Dinge:

  1. Ein riesiges Kochbuch (die Datenmenge).
  2. Einen sehr großen Koch mit vielen Händen und Werkzeugen (die Modellgröße).

In der Vergangenheit haben Forscher einfach gesagt: „Je größer der Koch und je dicker das Buch, desto besser das Essen." Das funktioniert, kostet aber ein Vermögen an Strom und Zeit.

Jetzt wollen wir sparen. Wir wollen den Koch mit weniger Werkzeugen ausstatten (niedrige Genauigkeit/Quantisierung). Aber hier gibt es ein Problem: Wenn wir die Werkzeuge vereinfachen, wird das Essen vielleicht schlechter. Die Frage ist: Wie genau müssen wir die Werkzeuge vereinfachen, damit der Koch trotzdem noch großartige Gerichte macht, ohne dass wir das Budget sprengen?

Bisher wussten die Forscher nur durch Ausprobieren (Versuch und Irrtum), wie das funktioniert. Diese neue Studie bringt nun die Theorie ins Spiel, um zu erklären, warum das funktioniert.

Die zwei Arten, Werkzeuge zu vereinfachen

Die Forscher haben zwei verschiedene Methoden untersucht, wie man die „Genauigkeit" der Werkzeuge reduziert. Man kann sich das wie zwei verschiedene Arten vorstellen, wie ein Koch mit ungenauen Messbechern umgeht:

1. Die „Proportionale" Methode (Multiplikative Quantisierung)

  • Die Analogie: Stell dir vor, du hast einen Messbecher, der nicht exakt 100ml anzeigt, sondern immer 10% zu viel oder zu wenig misst.
    • Wenn du 100ml Wasser misst, sind es 110ml oder 90ml.
    • Wenn du 1000ml misst, sind es 1100ml oder 900ml.
  • Das Ergebnis: Der Fehler wächst mit der Menge. Aber das Wichtigste: Die Struktur bleibt erhalten. Wenn du eine große Menge misst, ist der Fehler groß, aber er ist immer noch proportional.
  • Die Erkenntnis der Studie: Bei dieser Methode bleibt die Kraft des Kochs (die Modellgröße) voll erhalten. Der Koch kann immer noch alle seine Tricks anwenden, auch wenn seine Messbecher ungenau sind. Er wird nur etwas langsamer oder braucht mehr Zutaten (Daten), um das gleiche Ergebnis zu erzielen.

2. Die „Starre" Methode (Additive Quantisierung)

  • Die Analogie: Stell dir vor, du hast einen Messbecher, der immer genau 10ml zu viel anzeigt, egal wie viel du eingießt.
    • Bei 100ml sind es 110ml.
    • Bei 1000ml sind es 1010ml.
    • Bei 10.000ml sind es 10.010ml.
  • Das Problem: Bei kleinen Mengen ist der Fehler riesig (10% bei 100ml). Bei großen Mengen ist er klein (0,1% bei 10.000ml). Aber hier liegt der Haken: In der KI-Welt gibt es viele „kleine Details" (die feinen Nuancen im Kochbuch). Wenn du einen starren Fehler von 10ml in diese kleinen Details einbringst, überwältigt dieser Fehler die feinen Nuancen komplett.
  • Die Erkenntnis der Studie: Bei dieser Methode verliert der Koch Teile seiner Fähigkeiten. Es ist, als würde man ihm die Hände amputieren. Die „effektive Größe" des Modells schrumpft. Der Koch kann nicht mehr so viele Tricks gleichzeitig anwenden, weil die starren Fehler die feinen Details im Rezept unbrauchbar machen.

Was bedeutet das für uns?

Die Studie sagt uns, dass wir nicht einfach „Quantisierung" (das Vereinfachen der Zahlen) als einen einzigen Begriff betrachten dürfen. Es kommt darauf an, welche Art von Vereinfachung wir nutzen:

  • Wenn wir Gleitkommazahlen (wie FP8) nutzen (ähnlich der proportionalen Methode): Wir können die Werkzeuge vereinfachen, ohne dem Koch die Hände abzuschneiden. Das Modell bleibt mächtig, wir müssen nur etwas mehr Daten (Kochbuchseiten) verwenden, um den Fehler auszugleichen.
  • Wenn wir Ganzzahlen (wie INT8) nutzen (ähnlich der starren Methode): Wir sparen zwar Platz, aber wir verlieren tatsächlich an Modellgröße. Das Modell wird effektiv kleiner. Um das gleiche Ergebnis zu erzielen, müssten wir entweder das Modell vergrößern oder extrem viele Daten verwenden, um den „stumpfen" Fehler zu überwinden.

Das Fazit in einem Satz

Diese Studie liefert die mathematische Landkarte, um zu verstehen, warum manche Methoden des KI-Trainings mit weniger Rechenleistung funktionieren, ohne dass die Qualität leidet, während andere Methoden das Modell effektiv „verkleinern" und schwächen. Sie hilft Ingenieuren, die perfekte Balance zwischen Modellgröße, Datenmenge und Rechengenauigkeit zu finden, um die nächsten großen KI-Modelle effizient zu trainieren.

Kurz gesagt: Es ist nicht egal, wie man die Werkzeuge vereinfacht. Manche Vereinfachungen machen den Koch nur etwas ungenauer, andere schneiden ihm die Hände ab. Die Wissenschaftler haben jetzt die Formel, um das vorherzusagen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →