Quantitative convergence of trained single layer neural networks to Gaussian processes

Each language version is independently generated for its own context, not a direct translation.

De Droom van de Perfecte Voorspelling: Wanneer Netwerken "Gooien"

Stel je voor dat je een enorm complex spookhuis bouwt met duizenden kamers, gangen en valstrikken. Dit is je neuraal netwerk (de AI). Je wilt dat dit huis precies voorspelt wat er gebeurt als je een gast binnenlaat. Maar het huis is zo groot en ingewikkeld dat niemand precies kan zeggen wat er in elke hoek gebeurt.

Nu, er is een heel ander concept: een Gaussisch Proces. Denk hierbij niet aan een spookhuis, maar aan een perfecte, wiskundige "wolk" van waarschijnlijkheid. Het is als een zeer voorspelbare weersvoorspelling: "Er is 80% kans op regen, en als het regent, is het meestal een lichte motregen." Het is niet perfect, maar het is een heel stabiel en makkelijk te begrijpen model.

Het grote vraagstuk:
Wanneer je een AI (het spookhuis) traint met een algoritme dat we "gradient descent" noemen (een soort van blindelings de berg af lopen tot je de laagste punt bereikt), gedraagt het zich dan als die stabiele "wolk" (het Gaussische Proces)?

Vroeger wisten wetenschappers al: "Ja, als je het spookhuis oneindig groot maakt, wordt het precies die wolk." Maar in de echte wereld zijn onze netwerken niet oneindig groot; ze zijn groot, maar eindig. De vraag was: Hoe groot moet het zijn voordat het zich als die wolk gedraagt, en hoe nauwkeurig is die wolk dan precies?

Wat deze paper doet: De Maatstaf

De auteurs van dit paper (Eloy Mosig García, Andrea Agazzi en Dario Trevisan) hebben een meetlat ontwikkeld. Ze hebben niet alleen gezegd "het is ongeveer hetzelfde", maar ze hebben een exacte formule bedacht om te zeggen: "Als je netwerk X breed is, dan is het verschil tussen je AI en de perfecte wolk Y groot."

Ze gebruiken een wiskundige maatstaf genaamd de Wasserstein-afstand.

De Metafoor: Stel je voor dat je een hoop modder (de AI) hebt en een hoop perfect gevormde klei (de Gaussische wolk). De "Wasserstein-afstand" is de hoeveelheid energie die je nodig hebt om de modder in de vorm van de klei te duwen. Hoe minder energie, hoe meer ze op elkaar lijken.

De Belangrijkste Ontdekkingen

Hoe groter, hoe beter (maar niet lineair):
Ze ontdekten dat als je de breedte van je netwerk (het aantal "neuronen" of kamers in het spookhuis) verdubbelt, het verschil met de perfecte wolk niet halveert, maar op een specifieke manier afneemt (ongeveer met de wortel van het aantal kamers).
- Vergelijking: Als je een zee van water hebt (groot netwerk), is een enkele golf (foutje) nauwelijks te zien. Als je maar een bakje water hebt (klein netwerk), zie je elke rimpeling. De paper zegt precies hoeveel water je nodig hebt om die rimpelingen verwaarloosbaar te maken.
Tijd is een factor:
De paper kijkt niet alleen naar het begin, maar ook naar het moment dat je AI al een tijdje getraind is. Ze tonen aan dat zelfs na langdurig trainen, de AI nog steeds heel dicht bij die "wolk" blijft, zolang het netwerk maar breed genoeg is.
- Vergelijking: Het is alsof je een bal rolt over een heuvel. Zolang de heuvel breed genoeg is, blijft de bal op het pad (de wolk). Als de heuvel te smal is, kan de bal afwijken en in een kuil vallen (de AI leert iets anders dan de theorie voorspelt).
De "Slechte" Gebeurtenissen:
De auteurs zijn heel voorzichtig. Ze erkennen dat er soms "slechte" situaties kunnen gebeuren (bijvoorbeeld als de willekeurige start van het netwerk heel ongelukkig is). Ze hebben bewezen dat deze slechte situaties zo zeldzaam zijn dat je ze in de praktijk kunt negeren, tenzij je netwerk heel klein is.

Waarom is dit belangrijk voor de gewone mens?

Je hoeft geen wiskundige te zijn om te begrijpen waarom dit nuttig is:

Vertrouwen in AI: Als een dokter een AI gebruikt om een tumor te detecteren, wil hij weten: "Hoe zeker is deze AI?" Deze paper helpt wetenschappers om die zekerheid te berekenen. Ze kunnen zeggen: "Met dit specifieke netwerk is de kans op een fout 1 op de miljoen."
Efficiëntie: Het helpt ontwikkelaars om te weten hoe groot hun netwerk moet zijn. Als je weet dat een netwerk van 1000 neuronen al "goed genoeg" is om als een perfecte wolk te werken, hoef je geen supercomputer te bouwen met 1 miljoen neuronen. Dat bespaart tijd, geld en energie.
Van theorie naar praktijk: Vroeger was de theorie van "oneindig grote netwerken" mooi, maar onbruikbaar voor echte computers. Deze paper legt de brug: het laat zien dat we die theorie veilig kunnen gebruiken voor onze echte, eindige computers.

Samenvattend

Stel je voor dat je een orkest hebt.

De AI is het orkest dat repeteert.
Het Gaussische Proces is de perfecte, onzichtbare dirigent die precies weet hoe het moet klinken.

Vroeger zeiden we: "Als het orkest oneindig groot is, klinkt het precies als de dirigent."
Deze paper zegt nu: "Zelfs als het orkest 'slechts' 1000 muzikanten heeft, klinkt het binnen 5% van de perfecte dirigent, zolang ze maar goed repeteren. En hier is de exacte formule om dat percentage te berekenen."

Dit maakt de wereld van kunstmatige intelligentie een stuk voorspelbaarder en veiliger voor iedereen die er gebruik van maakt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Quantitative convergence of trained single layer neural networks to Gaussian processes" in het Nederlands.

Probleemstelling

Deep learning-modellen, en met name overgedimensioneerde (overparameterized) neurale netwerken, vertonen in de limiet van oneindige breedte een convergentie naar een Gaussisch proces (Gaussian Process - GP). Dit fenomeen wordt vaak geanalyseerd via het Neural Tangent Kernel (NTK) kader. Hoewel er veel kwalitatieve resultaten zijn die aantonen dat brede netwerken convergeren naar een GP, zowel bij initialisatie als tijdens training, ontbreekt het aan kwantitatieve, eindige-breedte schattingen.

Bestaande theorie geeft weinig inzicht in hoe groot de afwijking is tussen een daadwerkelijk getraind netwerk met een eindige breedte $n_1$ en zijn theoretische GP-tegenhanger. Deze kennislacune beperkt de praktische toepasbaarheid van NTK-theorie voor realistische netwerken en maakt het moeilijk om onzekerheidskwalificatie (uncertainty quantification) of de betrouwbaarheid van lineaire benaderingen tijdens training nauwkeurig te voorspellen.

Methodologie

De auteurs analyseren een volledig verbonden, ondiep (single hidden layer) neurale netwerk met breedte $n_1$ en invoerdimensie $n_0$ , getraind via gradiëntafstijging (gradient descent) met een kwadratische verliesfunctie (MSE).

Model en Dynamica:
- Het netwerk wordt gedefinieerd als $f(x; \theta)$ . De parameters $\theta$ worden bij initialisatie getrokken uit een standaard Gaussische verdeling.
- De trainingsdynamica worden beschreven door continue tijd gradiëntafstijging.
- De auteurs introduceren een linearisatie van het netwerk rond de initialisatie ( $f^{lin}$ ) en het bijbehorende Gaussische proces $G_t$ dat de limiet van dit lineaire systeem voorstelt.
Meetinstrument:
- Om de convergentie te kwantificeren, gebruiken de auteurs de kwadratische Wasserstein-afstand ( $W_2$ ) tussen de verdeling van de netwerkoutput en de verdeling van het Gaussische proces. Dit is een sterkere metriek dan zwakke convergentie en houdt rekening met de geometrische structuur van de uitruim.
Technische Benadering:
- De bewijzen maken gebruik van een "good event" / "bad event" decompositie.
- Op het "good event" (waar concentratieongelijkheden gelden en de empirische NTK dicht bij de analytische NTK ligt), wordt de afstand begrensd via een aangepaste versie van bestaande resultaten (zoals Bartlett et al., 2021).
- Op het "bad event" (met lage waarschijnlijkheid maar grote afwijkingen) worden de bijdragen gecontroleerd door de kans op dit event te laten afnemen sneller dan de groei van de fouttermen.
- Er worden specifieke concentratieongelijkheden gebruikt voor de parameters en de NTK-matrix om de afhankelijkheid van tijd $t$ en breedte $n_1$ te analyseren.

Belangrijkste Bijdragen

Kwantitatieve Convergentie voor Getrainde Netwerken:
In tegenstelling tot eerdere werken die zich beperkten tot het moment van initialisatie ( $t=0$ ), bieden de auteurs expliciete bovenkanten voor de $W_2^2$ -afstand op elk positief trainingsmoment $t \geq 0$ .
Expliciete Foutgrenzen:
De hoofdtheorem (Theorem 3.4) levert een expliciete bovengrens voor de kwadratische Wasserstein-afstand:
$W_2^2(f(x; \theta_t), G_t(x)) = O\left(\frac{\log n_1}{n_1}\right)$
Deze schatting hangt af van de netwerkbreedte $n_1$ , de invoerdimensie $n_0$ , de kleinste eigenwaarde van de limietkern ( $\lambda_{min}^\infty$ ), en de trainingsduur $t$ .
Tijdsafhankelijkheid en Regimes:
De auteurs analyseren hoe de fout evolueert in de tijd. Ze tonen aan dat de convergentie geldt voor tijdschalen die polynomiaal groeien met de breedte ( $t \sim n_1^k$ ). De $t^8$ -term in de foutgrens suggereert een overgang naar een "feature-learning" regime op zeer lange tijdschalen, waar de NTK-benadering mogelijk minder accuraat wordt.
Aanvulling op Bestaande Literatuur:
Het werk bouwt voort op resultaten van Basteri & Trevisan (2024) en Favaro et al. (2025), maar breidt deze uit van initialisatie naar volledige trainingsdynamica en levert scherpere, specifieke rates voor ondiepe netwerken.

Resultaten

Polynomiale Afname: De fout tussen het getrainde netwerk en het Gaussische proces neemt polynomiaal af naarmate de breedte $n_1$ toeneemt.
Invloed van Architectuur: De convergentiesnelheid wordt beïnvloed door de breedte, de dimensie van de invoer, en de eigenschappen van de activatiefunctie (Lipschitz-continuïteit en begrensdheid).
Numerieke Validatie: Experimenten met sigmoid-activaties tonen aan dat de empirische $W_2$ -afstand daadwerkelijk afneemt met toenemende breedte, wat de theoretische voorspellingen bevestigt. De data past goed bij een machtswet (power-law) met een exponent die overeenkomt met de theorie.
Voorwaarde voor Stabiliteit: De resultaten vereisen dat de analytische NTK ( $k_\infty$ ) positief definiet is, wat een milde aanname is voor data in algemene positie.

Significantie en Toekomstperspectief

Brug tussen Theorie en Praktijk: Dit werk biedt de eerste strikte, kwantitatieve garanties voor het gebruik van Gaussische processen als benadering voor getrainde, eindig-brede netwerken. Dit is cruciaal voor het vertrouwen in theoretische inzichten bij het ontwerpen van echte AI-systemen.
Onzekerheidskwalificatie: De resultaten maken het mogelijk om de onzekerheid in voorspellingen van neurale netwerken nauwkeuriger te schatten door gebruik te maken van de GP-tegenhanger, met een bekende foutmarge.
Beperkingen en Richtingen:
- De huidige resultaten zijn specifiek voor ondiepe netwerken; uitbreiding naar diepe netwerken is een logische volgende stap.
- De tijdsafhankelijkheid ( $t^8$ ) is mogelijk niet scherp; de auteurs vermoeden dat dit een artefact is van de huidige bewijstechniek en dat de overgang naar feature-learning regimes (waar NTK faalt) eerder optreedt.
- De aanname van gladde, begrenste activatiefuncties (zoals sigmoid) wordt gedaan; het werk suggereert dat de resultaten waarschijnlijk ook gelden voor ReLU, maar dit vereist verdere wiskundige verfijning.

Kortom, dit artikel levert een fundamentele bijdrage aan de theoretische machine learning door de kloof tussen de asymptotische theorie van oneindig brede netwerken en de realiteit van eindig brede, getrainde modellen kwantitatief te overbruggen.

Quantitative convergence of trained single layer neural networks to Gaussian processes

De Droom van de Perfecte Voorspelling: Wanneer Netwerken "Gooien"

Wat deze paper doet: De Maatstaf

De Belangrijkste Ontdekkingen

Waarom is dit belangrijk voor de gewone mens?

Samenvattend

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie en Toekomstperspectief

Meer zoals dit

A positive answer to a symmetry conjecture on homogeneous IFS

Exploring Collatz Dynamics with Human-LLM Collaboration

On the 3-adic Valuation of a Cubic Binomial Sum

The M öbius Disjointness Conjecture on infinite-dimensional torus

Far field refraction problem with loss of energy in negative refractive index material