Variational Deep Learning via Implicit Regularization

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je een slimme, maar zelfverzekerde AI bouwt zonder de "boete" te betalen

Stel je voor dat je een student (een kunstmatige intelligentie) opleidt om een examen te halen.

Het probleem:
Vroeger dachten we dat we de student streng moesten houden met een strenge leraar (de "prior" of "regularisatie") die constant zegt: "Nee, doe het niet zo, dat is te riskant!" Dit kost echter veel tijd en energie. Bovendien, als de student eenmaal het examen heeft gehaald, is hij vaak te zeker van zijn zaak. Als hij een vraag krijgt die net iets anders is dan wat hij heeft geoefend (bijvoorbeeld een vraag met een rare spellingfout), denkt hij: "Ik weet het zeker!" en geeft hij een verkeerd antwoord. Hij is niet robuust.

De oplossing van dit paper:
De auteurs van dit paper zeggen: "Wacht even. De student leert al vanzelf slimme dingen door de manier waarop hij oefent (de 'optimisatie'). We hoeven die strenge leraar niet eens te betalen!"

Ze hebben een nieuwe manier bedacht om de student te trainen die heet IBVI (Implicit Bias Variational Inference). Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. De "Onzichtbare Leraar" (Implicit Regularization)

Stel je voor dat je een bal rolt over een heel groot, ongelijk terrein met veel dalen. Je wilt dat de bal in het laagste punt terechtkomt.

Oude manier: Je bouwt muren om de bal te dwingen in een specifiek dal te blijven (dit is de dure, expliciete regularisatie).
Nieuwe manier (IBVI): Je laat de bal gewoon rollen. Door de vorm van het terrein (de architectuur van het netwerk) en hoe je de bal duwt (de trainingsmethode), rolt de bal vanzelf naar een dal dat niet alleen laag is, maar ook stabiel. De manier waarop de bal rolt, zorgt er onzichtbaar voor dat hij niet in een gevaarlijk, onstabiel dal belandt. Dit noemen ze "implicit bias".

2. De "Zwarte Doos" met een Gok (Variational Learning)

Normaal gesproken leert een AI één vast antwoord (één set van gewichten). Maar een echte slimme AI zou moeten weten: "Ik weet het, maar ik heb een klein twijfelgevoel."

In plaats van één antwoord te leren, leren ze een wolk van mogelijke antwoorden.
De oude manier om dit te doen was: "Hier is een wolk van antwoorden, maar zorg dat deze wolk lijkt op wat wij al dachten dat goed was (de prior)." Dit is als een leraar die zegt: "Je mag gokken, maar je mag niet afwijken van wat ik zeg." Dat is lastig en duur.
De IBVI-methode: Ze zeggen: "Gok maar! Laat de wolk van antwoorden gewoon ontstaan door het trainingsproces. Als je de bal (de AI) op de juiste manier laat rollen, zal de wolk van antwoorden vanzelf een gezonde vorm aannemen zonder dat je een strenge leraar nodig hebt."

3. De "Wasserstein" (De afstandsmeter)

Wiskundig gezien bewijzen de auteurs iets fascinerends:
Als je de AI op de juiste manier traint, zoekt hij vanzelf de oplossing die het dichtst bij zijn startpunt ligt, maar dan gemeten op een slimme manier (de 2-Wasserstein afstand).

Analogie: Stel je voor dat je een nieuwe stad verkent. Je begint bij je hotel (het startpunt). Je wilt de kortste weg vinden naar het station (de oplossing).
- De oude methode zegt: "Loop niet te ver van je hotel weg, want dat is gevaarlijk."
- De nieuwe methode zegt: "Loop gewoon naar het station. Door de manier waarop je loopt, zul je vanzelf een route kiezen die niet te ver van je hotel afwijkt, zonder dat je daar expliciet over nadenkt."

Waarom is dit geweldig?

Het is goedkoper: Je hoeft geen dure "prior" (strenge leraar) te betalen of te berekenen. Het gebeurt vanzelf tijdens het trainen.
Het is veiliger: De AI wordt niet alleen slim op de vragen die hij kent, maar hij weet ook wanneer hij het niet weet. Als hij een rare vraag krijgt (uit de verdeling), zal zijn "wolk van antwoorden" groter worden, wat betekent: "Ik weet het niet zeker."
Het werkt direct: Je hoeft de hyperparameters (de instellingen) niet eindeloos te blijven tunen. Als je de juiste startinstellingen kiest, werkt het voor grote en kleine netwerken even goed.

Kort samengevat:
De auteurs hebben ontdekt dat je een AI niet hoeft te "fladderen" met strenge regels om hem robuust te maken. Als je hem op de juiste manier laat trainen, leert hij vanzelf om niet te overmoedig te zijn. Het is alsof je een kind leert fietsen: je hoeft niet de hele tijd de rem vast te houden (expliciete regularisatie); als je de juiste weg kiest en de juiste startpositie, leert het kind vanzelf hoe het moet balanceren (impliciete regularisatie).

Dit maakt het bouwen van veilige, betrouwbare AI-systemen veel sneller, goedkoper en makkelijker.

Each language version is independently generated for its own context, not a direct translation.

Titel: Variational Deep Learning via Implicit Regularization

Auteurs: Jonathan Wenger, Beau Coker, Juraj Marusic, John P. Cunningham (Columbia University)
Publicatie: ICLR 2026

1. Het Probleem

Moderne diepe leermodellen generaliseren opmerkelijk goed binnen de verdeling (in-distribution), ondanks dat ze vaak overparametrisch zijn en met weinig of geen expliciete regularisatie worden getraind. De huidige theorie schrijft dit toe aan impliciete regularisatie die wordt opgelegd door de keuze van architectuur, hyperparameters en de optimalisatieprocedure (zoals Stochastic Gradient Descent - SGD).

Echter, diepe neurale netwerken zijn vaak niet robuust en kunnen leiden tot oververzekerde voorspellingen en slechte generalisatie buiten de verdeling (out-of-distribution, OOD). Bayesiaanse Deep Learning (BDL) lost dit op door model-averaging en onzekerheidskwantificering, maar kent twee grote nadelen:

Hoge rekencost: Methoden zoals Variational Inference (VI) vereisen vaak veel rekenkracht.
Prior-afhankelijkheid: Ze vereisen zorgvuldig gekozen priors. Een verkeerde prior kan de voordelen van impliciete regularisatie tenietdoen of leiden tot pathologische inductieve biases.

De kernvraag is: Kan men de voordelen van Bayesiaanse methoden (robustheid, onzekerheid) behouden zonder de extra rekencost van expliciete regularisatie (zoals KL-divergentie) en zonder afhankelijk te zijn van handmatig gekozen priors?

2. Methodologie: Implicit Bias Variational Inference (IBVI)

De auteurs stellen een nieuwe aanpak voor, genaamd Implicit Bias Variational Inference (IBVI). In plaats van een Bayesiaanse posterior te benaderen door een variatie-objectief te minimaliseren dat bestaat uit een verliesfunctie plus een expliciete regularisatieterm (KL-divergentie naar een prior), trainen ze een variational neural network uitsluitend door de verwachte loss te minimaliseren.

Kernprincipes:

Doel: Leer een verdeling $q_\theta(w)$ over de gewichten van een diep neurale netwerk door te minimaliseren:
$\theta^* \in \arg\min_\theta \mathbb{E}_{q_\theta(w)}[\ell(y, f_w(X))]$
Er is geen expliciete KL-divergenteterm naar een prior $p(w)$ .
De verrassing: Hoewel dit erop lijkt dat de verdeling zou instorten tot een puntmassa (de oplossing met de laagste loss), zorgt de impliciete bias van (stochastisch) gradient descent ervoor dat de optimizer convergeert naar een specifieke verdeling die de training data interpoleert, maar die ook onzekerheid behoudt in de richting van de prior.
Theoretische Karakterisering: Voor overparametrische lineaire modellen bewijzen de auteurs dat SGD, wanneer geïnitieerd bij de prior, convergeert naar de verdeling die de 2-Wasserstein-afstand minimaliseert tot de prior, onder de voorwaarde dat de training loss nul is.
$q_{SGD}^* = \arg\min_{q_\theta} \{ W_2^2(q_\theta, p) \mid \theta \in \arg\min \bar{\ell}(\theta) \}$
Dit betekent dat IBVI equivalent is aan Generalized Variational Inference met een 2-Wasserstein regularisator in plaats van een KL-divergentie.

Praktische Implementatie:

Eén steekproef: De auteurs tonen aan dat men kan trainen met slechts één parametersteekproef ( $M=1$ ) per batch, mits de leerfrequentie (learning rate) klein genoeg is. Dit verlaagt de rekencost aanzienlijk.
Parametrisatie: De inductieve bias hangt sterk af van de initialisatie en parametrisatie. De auteurs passen de Maximal Update Parametrization ( $\mu$ P) toe op variational netwerken. Dit zorgt voor stabiel "feature learning" en maakt het mogelijk om hyperparameters (zoals de leerfrequentie) van een klein model over te dragen naar grotere modellen zonder her-tuning.
Covariantiestructuur: Ze gebruiken een Gaussische variational familie met een factoriserende covariantie (low-rank), wat de geheugenoverhead minimaliseert.

3. Belangrijkste Bijdragen

Theoretisch Bewijs: Rigoureuze karakterisering van de impliciete bias van SGD in overparametrische lineaire modellen (regressie en binaire classificatie) als Generalized Variational Inference met een 2-Wasserstein regularisator.
Nieuwe Methode (IBVI): Een praktische methode voor Bayesiaanse deep learning die geen expliciete prior-regularisatie vereist, maar vertrouwt op de inherent regulariserende eigenschappen van SGD.
Efficiëntie: De methode introduceert minimale rekencost en geheugenoverhead vergeleken met standaard neurale netwerken (door gebruik van $M=1$ steekproef en low-rank covariantie).
Hyperparameter Transfer: Demonstratie dat $\mu$ P kan worden uitgebreid naar probabilistische netwerken, waardoor het mogelijk is om leerfrequenties van kleine modellen over te dragen naar grote modellen.
Open Source: Implementatie beschikbaar onder de naam inferno.

4. Resultaten

De auteurs hebben IBVI getest op diverse benchmarks voor beeldclassificatie (MNIST, CIFAR-10/100, TinyImageNet) en robuustheid tegen invoervervormingen (MNIST-C, CIFAR-C, etc.).

In-distribution Generalisatie: IBVI presteert vergelijkbaar met state-of-the-art Bayesiaanse methoden (zoals Deep Ensembles en SWAG) en standaard neurale netwerken wat betreft testfout.
Onzekerheidskwantificering: IBVI levert aanzienlijk betere kalibratie (ECE) en negatieve log-likelihood (NLL) op dan standaard netwerken en presteert vergelijkbaar met Deep Ensembles, maar met veel minder geheugenverbruik.
Robuustheid (OOD): Op datasets met invoervervormingen (corruptions) presteert IBVI consistent beter dan andere Bayesiaanse benaderingen (zoals Laplace benadering of Weight-space VI) en benadert de prestaties van Deep Ensembles, maar zonder de hoge rekenkosten.
Efficiëntie: Training met één steekproef ( $M=1$ ) resulteert in een trainingsduur en geheugengebruik dat bijna identiek is aan dat van een standaard (deterministisch) neurale netwerk, terwijl het wel onzekerheid levert.

5. Betekenis en Conclusie

Dit paper is significant omdat het de kloof tussen standaard deep learning en Bayesiaanse deep learning dicht. Het toont aan dat men de voordelen van probabilistische modellen (robustheid, onzekerheid) kan behalen zonder de zware last van expliciete Bayesiaanse inferentie (zoals het berekenen van KL-divergenties of het gebruik van grote ensembles).

Door te vertrouwen op de impliciete regularisatie van de optimizer, biedt IBVI een schaalbare, computerefficiënte en theoretisch onderbouwde route naar betrouwbare AI-systemen. Het werk benadrukt ook het cruciale belang van de juiste parametrisatie ( $\mu$ P) voor het behouden van inductieve biases in probabilistische modellen, wat een belangrijke stap is voor het trainen van zeer grote Bayesiaanse netwerken.

Variational Deep Learning via Implicit Regularization

1. De "Onzichtbare Leraar" (Implicit Regularization)

2. De "Zwarte Doos" met een Gok (Variational Learning)

3. De "Wasserstein" (De afstandsmeter)

Waarom is dit geweldig?

Titel: Variational Deep Learning via Implicit Regularization

1. Het Probleem

2. Methodologie: Implicit Bias Variational Inference (IBVI)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

ppp-adic Linear Regression for Random Sampling with Digitwise Noise

Adaptive Learning via Off-Model Training and Importance Sampling for Fully Non-Markovian Optimal Stochastic Control. Complete version

Identifiability of Potentially Degenerate Gaussian Mixture Models With Piecewise Affine Mixing

Estimating effect thresholds and beyond: A flexible framework for multivariate alert detection

Efficient estimation of cumulative incidence curves via data fusion with surrogates: application to integrated analysis of vaccine trial and immunobridging data

$p$ -adic Linear Regression for Random Sampling with Digitwise Noise