Scaling Laws in the Tiny Regime: How Small Models Change Their Mistakes

Each language version is independently generated for its own context, not a direct translation.

De Verborgen Kansen van de "Kleine" AI: Waarom een Kleinere Model niet Altijd Slechter is

Stel je voor dat je een enorme bibliotheek bouwt. In de wereld van kunstmatige intelligentie (AI) hebben onderzoekers de afgelopen jaren ontdekt dat hoe groter je bibliotheek is (hoe meer "boeken" of parameters je hebt), hoe slimmer de AI wordt. Dit is bekend als de "wetten van schaalbaarheid". Maar tot nu toe hebben we alleen gekeken naar de gigantische bibliotheken, de "Gouden Eeuw" van AI met miljarden parameters.

Deze paper kijkt naar het andere uiterste: de TinyML-wereld. Denk hierbij aan slimme apparaten die in je horloge, je medische sensor of een zelfrijdende auto zitten. Deze apparaten hebben vaak minder dan 20 miljoen parameters. Ze zijn klein, goedkoop en werken op batterijen. De vraag is: Hoe gedraagt zich een AI als je hem verkleint tot de grootte van een muis?

Hier is wat de onderzoekers ontdekten, vertaald in alledaagse taal:

1. De "Schaalwet" werkt, maar anders dan verwacht

In de grote wereld geldt: verdubbel de grootte, en de fouten gaan een beetje omlaag. In de kleine wereld geldt dit ook, maar het effect is veel sterker.

De Analogie: Stel je voor dat je een team van onderzoekers hebt. Als je een team van 100 mensen vergroot naar 200, wordt het werk misschien 10% beter. Maar als je een team van 2 mensen vergroot naar 4, kan het werk ineens 50% beter worden.
De bevinding: Bij heel kleine modellen levert elke extra "brein-cel" (parameter) veel meer op dan bij grote modellen. Ze groeien sneller in intelligentie dan we dachten.

2. Het is niet alleen "minder goed", het is "anders fout"

Dit is misschien wel het belangrijkste punt. Veel mensen denken: "Als ik een AI verklein, maakt hij gewoon meer fouten, maar op dezelfde plekken."

De Analogie: Stel je hebt een grote, ervaren arts en een jonge stagiair. De grote arts maakt soms fouten bij zeldzame ziektes. De stagiair maakt ook fouten, maar hij maakt andere fouten. Hij is misschien goed in het herkennen van een verkoudheid, maar hij ziet een zeldzame huidziekte helemaal niet. Hij is niet gewoon een "kleinere versie" van de arts; hij heeft een heel ander perspectief.
De bevinding: De onderzoekers ontdekten dat een klein model en een groot model totaal verschillende dingen verkeerd doen. Als je een groot model verkleint, verandert niet alleen het aantal fouten, maar ook welke vragen hij verkeerd beantwoordt. Een klein model kan veilig zijn voor de meeste dingen, maar volledig blind zijn voor specifieke, zeldzame situaties.

3. De "Triage"-strategie: De slimme overlevingsstrategie

Wanneer een model heel klein wordt, moet het keuzes maken. Het kan niet alles perfect doen.

De Analogie: Stel je bent een brandweerman met slechts één slang. Je kunt niet alle huizen in de stad tegelijk redden. Je kijkt dus welk huis het makkelijkst te redden is en brandt daar eerst. Je laat de moeilijkste, verste huizen achter.
De bevinding: Kleine modellen ontwikkelen een "triage"-strategie. Ze worden extreem goed in de "makkelijke" klassen (zoals een hond herkennen) en geven de "moeilijke" klassen (zoals een zeldzame ziekte of een rare verkeerssituatie) helemaal op. Ze investeren hun beperkte hersencapaciteit waar het meeste rendement zit.

4. Het paradoxale vertrouwen: Klein is eerlijker

Er is een bekend idee in AI: hoe groter het model, hoe zekerder het is. Maar vaak is dat onterecht zekerheid (overconfidence). Grote modellen denken dat ze 99% zeker zijn, terwijl ze het misschien 60% goed hebben.

De Analogie: Een arrogante professor die alles weet, maar soms flinke fouten maakt, terwijl een verlegen student die weinig weet, eerlijk zegt: "Ik weet het niet zeker."
De bevinding: De onderzoekers zagen dat de kleinste modellen eigenlijk het eerlijkst waren. Ze waren niet arrogant. Als ze iets niet wisten, gaven ze dat ook aan. De modellen van middelgrote grootte waren juist het meest arrogant en onbetrouwbaar.

5. Waarom dit belangrijk is voor de toekomst

De paper waarschuwt ons voor een valkuil in de technologie-industrie.

De Valstrik: Bedrijven trainen vaak een gigantisch, super-slim model, persen dat dan in een klein formaat voor een telefoon, en kijken alleen of de "totale score" (bijvoorbeeld 85% goed) nog steeds oké is.
Het Gevaar: Omdat de fouten van het kleine model totaal anders zijn dan die van het grote model, kun je met die totale score een gevaarlijke situatie missen. Misschien is het model 85% goed, maar faalt het precies bij de situatie die levensbelangrijk is (bijvoorbeeld: een kind dat op de weg loopt, terwijl hij wel goed is in het herkennen van auto's).

Conclusie in één zin

Je kunt niet zomaar een groot brein "krimp" en hopen dat het nog steeds dezelfde beslissingen neemt; het wordt een ander type brein dat andere dingen ziet en andere dingen mist. Als je AI op een klein apparaat wilt zetten, moet je testen op dat kleine formaat, niet op het grote model.

Kortom: In de wereld van TinyML gaat het niet alleen om hoe slim je bent, maar om hoe je slim bent. En soms is een klein, nederig model eerlijker en veiliger dan een groot, arrogant een.

Each language version is independently generated for its own context, not a direct translation.

Titel: Scaling Laws in het Tiny Regime: Hoe Kleine Modellen Hun Fouten Veranderen

Auteurs: Mohammed Alnemari, Rizwan Qureshi, en Nader Begrazadah
Publicatiedatum: 10 maart 2026 (voorgesteld)

1. Het Probleem

Neurale schaalwetten (neural scaling laws) beschrijven hoe modelprestaties verbeteren naarmate de modelgrootte toeneemt, vaak volgens een machtsfunctie. Bestaand onderzoek is echter bijna uitsluitend gefocust op modellen met meer dan 100 miljoen parameters. Het gebied onder de 20 miljoen parameters, waar TinyML en Edge AI-systemen opereren (vaak op microcontrollers met beperkt RAM en stroomverbruik), blijft grotendeels onbestudeerd.

Er zijn drie cruciale vragen die voor deze "kleine" regime onbeantwoord blijven:

Geldt dezelfde machtsfunctie voor kleine modellen, of geldt er een andere schaalrelatie?
Verhoogt compressie alleen het aantal fouten, of verandert het fundamenteel welke invoer het model verkeerd classificeert?
Hoe veranderen kalibratie en eerlijkheid per klasse naarmate de schaal verandert?

Voor veilige toepassingen (zoals autonome voertuigen of medische apparatuur) is de verdeling van fouten net zo belangrijk als het totale foutpercentage. Een model dat na compressie 88% nauwkeurig is, maar alle fouten verplaatst naar een specifieke subpopulatie, kan gevaarlijker zijn dan een model met 85% nauwkeurigheid en een uniforme foutverdeling.

2. Methodologie

De auteurs hebben een systematisch experiment uitgevoerd om de relatie tussen modelgrootte en prestaties te karakteriseren in het sub-20M regime.

Architecturen: Twee families van modellen werden getraind:
- ScaleCNN: Een eenvoudige convolutienetwerk (4 blokken) waarbij de breedte (aantal kanalen) varieert. Dit zorgt voor schaalbaar vermogen zonder structurele bottlenecks.
- MobileNetV2: Een geavanceerde architectuur met omgekeerde residuen, ontworpen voor efficiëntie, waarbij de breedte wordt geschaald via multipliers.
Dataset: CIFAR-100 (50.000 trainingsafbeeldingen, 100 klassen, 32x32 resolutie). Deze dataset werd gekozen vanwege de fijne graad van klassen, wat analyse per klasse mogelijk maakt.
Schaalbereik: 90 modellen in totaal, variërend van 22.000 tot 19,8 miljoen parameters (bijna drie ordes van grootte).
Training: Alle modellen werden getraind met identieke hyperparameters (SGD, cosine annealing, data augmentatie) en 5 verschillende random seeds om statistische stabiliteit te garanderen.
Metingen: Naast top-1 nauwkeurigheid werden de volgende metrics gemeten:
- Foutverdeling (Jaccard-overlap tussen foutsets).
- Per-klasse nauwkeurigheid en Gini-coëfficiënt (voor ongelijkheid).
- Kalibratie (Expected Calibration Error - ECE).

3. Belangrijkste Bijdragen

Het artikel levert drie hoofdbijdragen:

Systematische karakterisering van schaalwetten: De eerste meting van nauwkeurigheid versus modelgrootte in het sub-20M regime. De auteurs vinden exponenten die 1,4 tot 2 keer steiler zijn dan die van grote taalmodellen, hoewel dit een benadering is vanwege het gebruik van foutpercentages in plaats van cross-entropy loss.
Herverdeling van fouten: Compressie verandert niet alleen hoeveel fouten er zijn, maar welke invoer er fout gaat. De overlap in fouten tussen het kleinste en grootste model is slechts 35%.
Class Triage en Kalibratie-inversie: Kleine modellen ontwikkelen een "triage-strategie" waarbij ze capaciteit concentreren op makkelijke klassen en de moeilijkste klassen volledig opgeven. Opvallend genoeg zijn de kleinste modellen de best gekalibreerde, wat in strijd is met de algemene aanname dat overconfidence toeneemt met modelgrootte.

4. Resultaten

A. Schaalwetten en Exponenten

Beide architecturen volgen een benaderende machtsfunctie voor het foutpercentage: $Error \sim N^{-\alpha}$ .
Exponenten:
- ScaleCNN: $\alpha = 0,156 \pm 0,002$
- MobileNetV2: $\alpha = 0,106 \pm 0,001$
Deze exponenten zijn aanzienlijk steiler dan de $\alpha \approx 0,076$ die vaak wordt gerapporteerd voor grote taalmodellen.
Gebroken machtsfunctie: De lokale exponent neemt af naarmate het model groter wordt. MobileNetV2 bereikt een verzadigingspunt bij 19,8M parameters (lokale exponent daalt naar 0,006), terwijl ScaleCNN nog steeds verbetert.

B. Foutverdeling (Error Redistribution)

De Jaccard-overlap tussen de foutsets van het kleinste (22K params) en grootste (4,7M params) ScaleCNN-model is slechts 0,35.
Dit betekent dat 65% van de fouten verandert bij compressie. Een klein model faalt op een totaal andere set van invoer dan een groot model.
Schaal is een sterkere drijver voor foutpatronen dan de keuze van de architectuur bij gelijke parameteraantallen.

C. Class Triage en Eerlijkheid

Kleine modellen vertonen extreme ongelijkheid in prestaties per klasse.
- Gini-coëfficiënt: Daalt van 0,26 (bij 22K params) naar 0,09 (bij 4,7M params).
- Moeilijkste klassen: De nauwkeurigheid op de 5 moeilijkste klassen stijgt van 10% (klein model) naar 53% (groot model).
Kleine modellen "offeren" zeldzame of moeilijke klassen op om de prestaties op makkelijke klassen te maximaliseren.

D. Kalibratie Inversie

In tegenstelling tot de trend bij grote modellen (waar overconfidence toeneemt), zijn de kleinste modellen het best gekalibreerd.
- ScaleCNN (22K params): ECE = 0,013.
- ScaleCNN (1,2M params, piek): ECE = 0,110 (maximale overconfidence).
De kleinste modellen zijn "eerlijk" in hun onzekerheid (ze zijn onzeker over alles), terwijl middelgrote modellen overmoedig worden.

5. Theoretisch Kader

De auteurs passen de "Spectral Capacity Theory" toe. Ze meten de spectrale decay ( $\beta$ ) van de CIFAR-100 dataset direct en vinden $\beta = 1,45$ (steiler dan de standaard 1,1 voor natuurlijke afbeeldingen).
De theorie voorspelt dat de schaal-exponent $\alpha = \gamma(\beta - 1)$ is, waarbij $\gamma$ de "rank efficiency" is.

De gemeten exponenten impliceren dat $\gamma$ voor ScaleCNN ongeveer 0,35 is en voor MobileNetV2 ongeveer 0,24.
Dit suggereert dat niet alle parameters even efficiënt bijdragen aan de representatieve capaciteit, vooral bij MobileNetV2 in het kleine regime door structurele overhead (zoals bottleneck-projecties).

6. Betekenis en Conclusie

De belangrijkste conclusie voor de praktijk is dat aggregaten nauwkeurigheid misleidend zijn voor Edge-deployments.

Het trainen van een groot model en het vervolgens comprimeren is geen veilige strategie, omdat de foutverdeling van het gecomprimeerde model kwalitatief verschilt van dat van het grote model.
Validatie moet plaatsvinden op de doelgrootte van het model.
Voor zeer beperkte middelen (<500K parameters) kunnen eenvoudige convolutienetwerken (zoals ScaleCNN) efficiënter zijn dan geoptimaliseerde architecturen zoals MobileNetV2, omdat de structurele overhead van laatstgenoemde de capaciteit in het kleine regime beperkt.

Dit onderzoek waarschuwt dat bij het verkleinen van modellen voor Edge AI niet alleen het totale foutpercentage toeneemt, maar dat het model fundamenteel verandert in hoe het faalt, vaak ten koste van zeldzame of kritieke klassen.