Scaling Laws for Precision in High-Dimensional Linear Regression

Each language version is independently generated for its own context, not a direct translation.

De Recept voor Slimme AI: Hoeveel Zout mag je Weglaten?

Stel je voor dat je een gigantische, perfecte soep wilt koken (dit is je Kunstmatige Intelligentie of AI). Om deze soep te maken, heb je drie dingen nodig:

De grootte van de pan (het model: hoe slim is de AI?).
De hoeveelheid groenten (de data: hoeveel voorbeelden heeft de AI gezien?).
De precisie van je mes (de nauwkeurigheid: hoe fijn mag je snijden?).

In de wereld van AI willen we vaak een enorme pan en heel veel groenten om de lekkerste soep te krijgen. Maar dat kost enorm veel tijd en energie (rekenkracht). Om dit te versnellen en goedkoper te maken, proberen wetenschappers de "mesnauwkeurigheid" te verlagen. Ze gebruiken kwantisatie: in plaats van met millimeters te snijden, gebruiken ze grove centimeters. Dit is als het koken met een stomperig mes in plaats van een chirurgisch scalpel.

Het probleem? Als je te grof snijdt, wordt je soep misschien niet lekker meer. Maar hoe grof mag je snijden voordat de soep verpest is? Dat is wat dit onderzoek uitprobeert.

De onderzoekers hebben ontdekt dat er twee soorten "grof snijden" zijn, en ze hebben heel verschillende effecten op je soep.

1. De Twee Manieren om te "Vervormen"

Stel je voor dat je een foto maakt. Je kunt de kwaliteit verlagen op twee manieren:

A. De "Verhoudings-Verstoring" (Multiplicatieve Kwantisatie)

De Metafoor: Dit is alsof je de foto verkleint, maar de verhoudingen behoudt. Een grote berg wordt een kleine berg, een kleine steen wordt een kleine steentje. De relatie tussen de dingen blijft hetzelfde.
In de AI: Dit komt overeen met Floating Point (zoals FP8). De fout die je maakt, hangt af van hoe groot het getal is. Grote getallen krijgen een grove fout, kleine getallen een fijne fout.
Het Resultaat: Je kunt je pan (het model) groot houden. Je verliest geen "snijvermogen" van je mes. De AI kan nog steeds alle details van de grote pan benutten, alleen zijn de sneden iets minder precies. De "effectieve grootte" van je model blijft gelijk aan de echte grootte.

B. De "Vaste Ruis" (Additieve Kwantisatie)

De Metafoor: Dit is alsof je over je hele foto een laagje zand strooit. Het maakt niet uit of je een grote berg of een klein steentje hebt; het zand legt er even dik op.
In de AI: Dit komt overeen met Integer (zoals INT8). Je maakt een vaste fout, ongeacht hoe groot het getal is.
Het Resultaat: Dit is gevaarlijk voor kleine details. Het zand (de ruis) bedekt de kleine steentjes volledig. In de AI betekent dit dat de "kleine" delen van je model (de fijne details) niet meer bruikbaar zijn. Je verliest effectief de grootte van je pan. Je hebt een grote pan, maar door het zand kun je er maar een klein deel van gebruiken. Je model wordt effectief kleiner.

2. De Grootte van je Pan en de Aantal Groenten

De onderzoekers hebben een wiskundige wet ontdekt (een "Scaling Law") die vertelt hoe je je pan (model), je groenten (data) en je mes (precisie) moet afstemmen.

Effectieve Data: Bij beide methoden (zowel het verkleinen als het zandstrooien) wordt je voorraad groenten effectief kleiner. De ruis maakt het moeilijker om te leren. Je hebt dus meer groenten nodig om hetzelfde resultaat te krijgen als met een scherp mes.
Effectieve Modelgrootte:
- Bij Floating Point (Verhoudings-Verstoring): Je kunt je grote pan blijven gebruiken. Je verliest geen capaciteit.
- Bij Integer (Vaste Ruis): Je moet je pan verkleinen. De ruis in de kleine hoekjes van je pan maakt die hoekjes onbruikbaar. Je kunt beter een kleinere, scherpere pan gebruiken dan een grote, vuile pan.

3. Waarom is dit belangrijk?

Vroeger dachten mensen dat je gewoon een vaste "boete" moest betalen voor het gebruik van een stomperig mes. Dit onderzoek zegt: "Nee, het hangt er vanaf hoe je het mes gebruikt!"

Als je Floating Point gebruikt (zoals in de meeste moderne AI's), kun je je enorme modellen blijven gebruiken, maar je moet wel rekening houden met wat extra ruis in je data.
Als je Integer gebruikt (voor extreem lage kosten), moet je beseffen dat je model effectief kleiner wordt. Je kunt niet zomaar een gigantisch model nemen en hopen dat het werkt; je moet je verwachten aanpassen alsof je een kleiner model hebt.

Conclusie in één zin

Dit onderzoek geeft ons een recept voor het bouwen van goedkope AI: als je je mes grover maakt, moet je weten of je de verhoudingen behoudt (dan blijft je model groot) of dat je een vaste ruis toevoegt (dan wordt je model effectief kleiner), zodat je precies weet hoeveel data je nodig hebt om een perfecte soep te koken.

Each language version is independently generated for its own context, not a direct translation.

Titel: Scaling Laws voor Precisie in Hoogdimensionale Lineaire Regressie

Auteurs: Dechen Zhang, Xuan Tang, Yingyu Liang, Difan Zou
Datum: Februari 2026

1. Probleemstelling

De opkomst van grote taalmodellen (LLMs) wordt gedreven door schaalwetten die de relatie beschrijven tussen modelgrootte ( $M$ ), datasetgrootte ( $N$ ) en prestaties. Echter, de rekenkosten en het geheugengebruik voor het trainen van deze modellen zijn prohibitief, wat leidt tot de noodzaak van low-precision training (bijv. gebruik van FP8, INT8).

Hoewel empirische studies suggereren dat kwantisatie de effectieve capaciteit van het model of het dataset verkleint, of werkt als een additieve fout, ontbreekt er een unificerend theoretisch kader. Bestaande empirische benaderingen zijn verdeeld in twee campussen:

Effectieve modelverkleining: Kwantisatie vermindert de effectieve modelgrootte ( $M_{eff} < M$ ).
Additieve fout: Kwantisatie introduceert een extra foutterm die onafhankelijk is van de modelgrootte.

Het is onduidelijk welke van deze mechanismen fysiek correct is voor verschillende kwantisatiestrategieën (zoals integer vs. floating-point) en hoe deze de schaalwetten fundamenteel beïnvloeden.

2. Methodologie

De auteurs initiëren een theoretische studie binnen een hoogdimensionale gesketste lineaire regressie (sketched linear regression) framework.

Model: Ze beschouwen een lineair model met $M$ trainbare parameters dat werkt op gesketste covariaten $(Sx, y)$, waarbij $S$ een vast sketsmatrix is (Gaussisch) en $x$ een datavector is.
Trainingsalgoritme: Constante-stapgrootte één-pass Stochastic Gradient Descent (SGD) met kwantisatie op alle componenten: data, sketsmatrix, features, labels, modelparameters, activeringen en output-gradiënten.
Kwantisatie Schemata: Ze analyseren twee fundamenteel verschillende types van kwantisatiefouten, gebaseerd op de aard van de foutvariatie:
1. Multiplicatieve Kwantisatie (FP-achtig): De foutvariatie schaalt mee met de grootte van het signaal (zoals bij floating-point formats: FP8, FP32). De fout is signal-afhankelijk.
2. Additieve Kwantisatie (INT-achtig): De foutvariatie is onafhankelijk van het signaal en constant (zoals bij integer formats: INT8, INT16). De fout is signal-onafhankelijk.
Aannames: De data-covariantie voldoet aan een power-law spectrum ( $\lambda_i \propto i^{-a}$ met $a > 1$ ). Ze leiden zowel bovengrenzen als ondergrenzen af voor de populatie-risico (population risk).

3. Belangrijkste Bijdragen en Resultaten

De kern van het paper is het identificeren van een kritieke dichotomie in het schaalgedrag tussen multiplicatieve en additieve kwantisatie.

A. Effectieve Datasetgrootte ( $N_{eff}$ )

Beide kwantisatieschema's leiden tot een vermindering van de effectieve datasetgrootte. Dit wordt veroorzaakt door:

Signaalversterking van ruis: Kwantisatie introduceert ruis in de gradiënten en parameters.
Spectrale vervorming: De kwantisatie verandert de eigenwaarden van de covariantiematrix.
In beide gevallen geldt: $N_{eff} < N$ .

B. Effectieve Modelgrootte ( $M_{eff}$ ) – De Kernvinding

Hier tonen de auteurs een fundamenteel verschil aan:

Multiplicatieve Kwantisatie (FP-achtig):
- Resultaat: Behoudt de volledige modelcapaciteit.
- Formule: $M_{eff} \approx M$ .
- Mechanisme: Omdat de fout schaalt met het signaal, neemt de kwantisatiefout in de "tail" (de minder belangrijke eigenvectoren) evenredig af met het signaal. De spectrale structuur blijft behouden, waardoor alle parameters bruikbaar blijven voor leren.
- Conclusie: De schaalwet behoudt de vorm $R \sim M^{-\alpha}$ , maar met een verlaagde effectieve datasetgrootte en een additieve foutterm.
Additieve Kwantisatie (INT-achtig):
- Resultaat: Vermindert de effectieve modelgrootte.
- Formule: $M_{eff} < M$ .
- Mechanisme: De constante kwantisatiefout (een "vloer") overspoelt het intrinsieke signaal in de spectrale tail. Dit maakt de dimensies in de tail nutteloos voor het leren, wat effectief leidt tot een verkleining van het bruikbare model.
- Conclusie: De schaalwet verandert fundamenteel; het model kan niet meer profiteren van de volledige parametercount.

C. Theoretische Formulering

De populatie-risico bovengrens wordt samengevat als:
$R_M(v_N) \lesssim R^* + \frac{1}{M_{eff}^{a-1}} + \frac{1}{N_{eff}^{(a-1)/a}} + \delta(\epsilon)$
Waarbij $\delta(\epsilon)$ de additieve fout is.

Bij multiplicatieve kwantisatie: $M_{eff} = M$ .
Bij additieve kwantisatie: $M_{eff}$ wordt gereduceerd door factoren die afhangen van de kwantisatiefout en de spectrale vervorming.

D. Experimentele Validatie

De auteurs voeren numerieke experimenten uit die hun theoretische voorspellingen bevestigen:

Ze fitten de excess risk met de afgeleide schaalwetten.
De exponenten van de fitted curves komen overeen met de theoretische voorspellingen ( $\alpha = -(a-1)$ en $\beta = -(a-1)/a$ ).
De resultaten tonen duidelijk dat integer-kwantisatie (additief) leidt tot een afname in effectieve modelgrootte, terwijl floating-point kwantisatie (multiplicatief) dit niet doet.

4. Betekenis en Impact

Theoretisch Kader: Dit paper biedt het eerste rigoureuze theoretische kader dat de complexe interactie tussen modelgrootte, datasetgrootte en numerieke precisie verklaart. Het lost de tegenstrijdigheden in eerdere empirische studies op door te laten zien dat beide formuleringen (modelverkleining vs. additieve fout) correct zijn, maar afhankelijk zijn van het type kwantisatie.
Praktische Richtlijnen:
- Voor Floating-Point training (bijv. FP8): Ontwikkelaars kunnen vertrouwen op het behoud van modelcapaciteit; de focus moet liggen op het minimaliseren van de additieve fout en het optimaliseren van de datasetgrootte.
- Voor Integer training (bijv. INT8): Er is een fundamentele beperking in de effectieve modelgrootte. Het simpelweg vergroten van het model ( $M$ ) zonder aanpassing van de kwantisatiestrategie levert minder op dan verwacht, omdat de "tail" van het spectrum verloren gaat.
Toekomstige Richting: De bevindingen bieden een onderbouwing voor het ontwerp van low-precision training protocollen en suggereren dat hardware-constraints (zoals geheugenbandbreedte) moeten worden afgewogen tegen het type kwantisatie dat wordt gebruikt om de optimale trade-off tussen kosten en kwaliteit te vinden.

Kortom, dit werk bewijst dat de keuze tussen integer en floating-point kwantisatie niet alleen gaat over de grootte van de fout, maar over een fundamenteel verschil in hoe het model zijn capaciteit kan benutten tijdens het trainen.

Scaling Laws for Precision in High-Dimensional Linear Regression

De Recept voor Slimme AI: Hoeveel Zout mag je Weglaten?

1. De Twee Manieren om te "Vervormen"

A. De "Verhoudings-Verstoring" (Multiplicatieve Kwantisatie)

B. De "Vaste Ruis" (Additieve Kwantisatie)

2. De Grootte van je Pan en de Aantal Groenten

3. Waarom is dit belangrijk?

Conclusie in één zin

Titel: Scaling Laws voor Precisie in Hoogdimensionale Lineaire Regressie

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen en Resultaten

A. Effectieve Datasetgrootte (NeffN_{eff}Neff​)

B. Effectieve Modelgrootte (MeffM_{eff}Meff​) – De Kernvinding

C. Theoretische Formulering

D. Experimentele Validatie

4. Betekenis en Impact

Meer zoals dit

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields

A. Effectieve Datasetgrootte ( $N_{eff}$ )

B. Effectieve Modelgrootte ( $M_{eff}$ ) – De Kernvinding