Out-of-Support Generalisation via Weight-Space Sequence Modelling

Each language version is independently generated for its own context, not a direct translation.

Het Grote Probleem: De "Buiten de Landkaart"-Valstrik

Stel je voor dat je een jonge chauffeur traint om te rijden. Je laat hem urenlang oefenen op een rechte, vlakke weg in een dorpje (dit is je trainingsdata). Hij wordt er een meester in. Maar als je hem nu plotseling op een steile, kronkelende bergweg zet die hij nog nooit heeft gezien (dit is de OoS-situatie of "buiten het trainingsgebied"), wat gebeurt er dan?

De meeste moderne AI-modellen (zoals de standaard "Deep Learning" modellen) doen hier iets raars: ze blijven met volle overtuiging zeggen: "Ik weet precies hoe ik dit moet doen!" en rijden recht de afgrond in. Ze zijn overmoedig maar onjuist. Ze weten niet dat ze buiten hun kennisgebied zitten.

De wetenschappers van dit paper (Roussel Desmond Nzoyem van de Universiteit van Bristol) willen een oplossing die niet alleen slim is, maar ook weet wanneer hij het niet weet, zonder dat we hem van tevoren alle regels van de wereld moeten leren.

De Oplossing: "WeightCaster" (De Weeg-Goeroe)

Deze nieuwe methode heet WeightCaster. In plaats van de AI te laten proberen om één groot, statisch brein te zijn dat alles in één keer leert, doen ze iets heel anders. Ze kijken naar de gewichtjes (de parameters) van het brein als een verhaal dat zich afspeelt in de tijd.

Hier is hoe het werkt, stap voor stap:

1. De Concentrische Ringen (De "Onion"-methode)

Stel je voor dat je een ankerpunt in het midden van je trainingsdata zet (bijvoorbeeld het midden van de weg). Nu trek je concentrische ringen om dit punt heen, zoals de lagen van een ui of de ringen van een boomstam.

Binnenste ring: De data die het dichtst bij het anker zit.
Buitenste ringen: De data die verder weg zit.

In plaats van één model te trainen voor alles, trainen ze een klein modelletje voor elke ring. Het modelletje voor ring 1 leert de weg dichtbij. Het modelletje voor ring 2 leert de weg iets verder weg, enzovoort.

2. Het Verhaal van de Gewichtjes (Sequentiële Modelling)

Nu komt de magische truc. De onderzoekers kijken niet naar de data zelf, maar naar de gewichtjes (de instellingen) van die kleine modelletjes.
Ze zien dat de gewichtjes van ring 1 naar ring 2, en dan naar ring 3, een bepaald patroon volgen. Het is alsof ze een film maken van hoe het brein verandert naarmate je verder de weg op rijdt.

Ze gebruiken een sequentie-model (een soort slimme voorspeller, vergelijkbaar met hoe TikTok je video's voorspelt op basis van wat je eerder hebt bekeken). Dit model leert het patroon van de verandering in de gewichtjes.

De vraag: "Als de gewichtjes zich zo gedragen op ring 1, 2 en 3, hoe zullen ze eruitzien op ring 4, 5 en 6?"
Het antwoord: Het model "rolt" dit patroon door naar de toekomst (de buitenste ringen die het nog niet heeft gezien).

3. Waarom is dit zo slim?

Normaal gesproken zou een AI zeggen: "Ik heb ring 1, 2 en 3 gezien, dus ik ga raden voor ring 4." Vaak is dit raden gekkenwerk.
WeightCaster zegt echter: "Ik heb gezien hoe de regels van de weg veranderen naarmate je verder komt. Het patroon is logisch. Dus voor ring 4, 5 en 6 (die buiten de training liggen), ga ik de logische volgende stap in dat patroon nemen."

Het is alsof je een kind leert tellen. Als je ziet dat het kind 1, 2, 3, 4, 5 zegt, kun je er zeker van zijn dat het ook 6 zal zeggen, zelfs als het kind 6 nog nooit heeft gehoord. Het kind heeft het patroon (de dynamiek) geleerd, niet alleen de feiten.

De Voordelen in Dagelijkse Taal

Geen "Vaste Regels" Nodig: Veel andere methoden vereisen dat je de AI van tevoren vertelt: "Pas op, als je op een berg komt, moet je anders rijden." WeightCaster heeft die regels niet nodig. Het leert het patroon vanzelf uit de data.
Veiligheid (Onzekerheid): Het model kan ook zeggen: "Ik ben niet 100% zeker." Door wiskundige trucs (linearisatie) kan het een "onzekerheids-bubbel" tekenen rond zijn voorspelling. Als de bubbel groot wordt, weet je dat je voorzichtig moet zijn.
Snel en Lichtgewicht: Het is niet nodig om een gigantische supercomputer te gebruiken. Omdat het werkt met kleine, logische stappen, is het heel efficiënt. Het is alsof je een slimme fiets gebruikt in plaats van een zware tank.

Wat hebben ze getest?

Ze hebben het getest op twee dingen:

Een wiskundige golf: Een simpele kromme lijn die ze moesten voorspellen buiten het gebied waar ze de lijn hadden getekend. WeightCaster deed het beter dan de concurrenten.
Luchtkwaliteit sensoren: Een echt probleem waarbij ze de ene sensor (ozon) gebruikten om de andere (stikstofoxiden) te voorspellen, maar dan op momenten waarop de ozonwaarden extreem hoog waren (waarden die ze nooit eerder hadden gezien). Ook hier presteerde WeightCaster uitstekend.

Conclusie

WeightCaster is een nieuwe manier om AI te trainen om niet bang te zijn voor het onbekende. In plaats van te raden, kijkt het naar het verhaal van hoe het model verandert naarmate je verder komt, en gebruikt dat verhaal om de toekomst te voorspellen.

Het is als het verschil tussen iemand die een landkaart uit zijn hoofd heeft geleerd (en verdwaalt als er een nieuwe weg wordt aangelegd) en iemand die begrijpt hoe wegen werken (en dus een nieuwe weg kan voorspellen, zelfs als hij die nog nooit heeft gezien). Dit maakt AI veiliger voor toepassingen waar fouten dodelijk kunnen zijn, zoals zelfrijdende auto's of medische diagnose.

Each language version is independently generated for its own context, not a direct translation.

Titel: Out-of-Support Generalisation via Weight-Space Sequence Modelling

Auteur: Roussel Desmond Nzoyem (Universiteit van Bristol)
Publicatie: CAO Workshop bij ICLR 2026

1. Het Probleem: Out-of-Support (OoS) Generalisatie

Deep learning-modellen presteren uitstekend binnen het domein van de trainingsdata (in-distribution), maar falen vaak catastraal wanneer ze geconfronteerd worden met datapunten die buiten het bereik van de trainingsverdeling liggen. Dit specifieke probleem wordt Out-of-Support (OoS) generalisatie genoemd.

Definitie: OoS treedt op wanneer de ondersteuning (support) van de testdata ( $Supp(X_{te})$ ) en de trainingsdata ( $Supp(X_{tr})$ ) disjunct zijn, d.w.z. ze overlappen niet.
Huidige uitdagingen:
- Traditionele methoden zoals Distributionally Robust Optimisation (DRO) of Meta-learning vereisen vaak voorafgaande kennis (inductieve bias) over de mogelijke testverdelingen.
- Niet-parametrische methoden zoals Gaussian Processes (GP) bieden wel onzekerheidsschattingen, maar schalen slecht naar grote datasets.
- Standaard neurale netten neigen tot "catastrophic failure" bij OoS: ze geven onrealistische, maar overmoedige voorspellingen.

2. Methodologie: WeightCaster Framework

De auteurs introduceren WeightCaster, een raamwerk dat het OoS-probleem herschrijft als een sequentie-modelleringsopdracht in de weight-ruimte (ruimte van modelparameters), zonder expliciete inductieve bias.

Kerncomponenten:

Domeindecompositie (Domain Decomposition):
- Het trainingsdomein wordt opgedeeld in concentrische schillen (genaamd "rings") rondom een gekozen ankerpunt ( $x$ ).
- Afhankelijk van de afstand tot het ankerpunt worden datapunten toegewezen aan ringen $R_1, R_2, ..., R_T$ .
- In plaats van één enkel model te leren voor alle data, leert WeightCaster een specifiek parameterstelsel $\theta_t$ voor elke ring $t$ .
Weight-Space Sequence Modelling:
- De optimale gewichten $\theta_t$ voor opeenvolgende ringen worden beschouwd als een tijdsreeks.
- Een hogere-orde neurale functie $G_\phi$ (een state-to-sequence model) leert de dynamiek van deze gewichten. Het voorspelt de gewichten voor de volgende ring op basis van de huidige.
- Formulering: Het probleem wordt een beginwaardeprobleem (IVP):
  $\{ \theta_t \}_{t=2}^{T_{tr}} = G_\phi(\theta_1)$
  Waarbij $\theta_1$ de initiële gewichten zijn en $G_\phi$ de evolutie van de gewichten modelleert.
- Voor OoS-data (buiten de trainingsringen) wordt de sequentiemodel "uitgerold" (rolled out) om de gewichten $\theta_t$ te voorspellen voor $t > T_{tr}$ .
Stochastisch Framework voor Onzekerheid:
- Om onzekerheid te schatten, wordt $G_\phi$ uitgebreid naar een stochastisch model dat de parameters van een verdeling over de gewichten voorspelt (Gaussisch: $\mu_t, \sigma_t$ ).
- Linearisatie: Omdat de integraal over de gewichten analytisch onuitvoerbaar is, wordt een eerste-orde Taylor-expansie (linearisatie) rond de gemiddelde gewichten gebruikt. Dit resulteert in een voorspelde verdeling $\hat{y} \sim \mathcal{N}(\mu_y, \Sigma_y)$ .
- Regularisatie: Een KL-divergentie term wordt toegevoegd aan de loss-functie om te voorkomen dat het model te zeker wordt in OoS-regio's; het model "valt terug" naar een prior als het te ver van de trainingsdata komt.

3. Belangrijkste Bijdragen

Een efficiënt, parametrisch en interpreteerbaar raamwerk: WeightCaster lost OoS-problemen op zonder expliciete inductieve bias of fine-tuning op testtijd.
Linearisatiestrategie: Biedt principieel onderbouwde onzekerheidsschattingen (zowel in-distribution als OoS) via een stochastische uitbreiding en Jacobiaan-berekening.
Empirische validatie: Demonstreert superieure of concurrerende prestaties op synthetische en real-world datasets met een zeer laag aantal parameters.

4. Resultaten en Experimenten

Het model werd getest op twee benchmarks en vergeleken met een standaard MLP, een Gaussian Process (GP) en Engression (een state-of-the-art methode).

Synthetische Cosine Dataset:
- Taak: Extrapolatie van een periodieke functie ( $y = \cos(10x) + 0.5x$ ) naar onbekende intervallen.
- Resultaat: WeightCaster slaagde erin de periodiciteit van de gewichts-trajecten te leren en voorspelde de buitenste ringen nauwkeurig. Standaard MLP's faalden catastraal (hoge MSE), terwijl WeightCaster een veel lagere fout had.
Real-world Air Quality Dataset:
- Taak: Relatie modelleren tussen twee chemische sensoren (O3 en NOx) met een duidelijke verschuiving in ondersteuning tussen train- en testdata.
- Resultaat: WeightCaster presteerde vergelijkbaar met of beter dan Engression op de OoS-testdata, met name in het schatten van onzekerheid.
Efficiëntie:
- WeightCaster werkt met extreem weinig parameters (bijv. 6 parameters voor de lineaire recurrente implementatie), wat aanzienlijke reken- en geheugenvoordelen biedt ten opzichte van grote MLP's of schaalbare GPs.
- De matrix $\phi$ in de recurrente relatie is interpreteerbaar; een eigendecompositie hiervan kan inzicht geven in de generalisatiecapaciteit.

Tabel 1 Samenvatting (MSE - lager is beter):

Cosine (OoS): WeightCaster (0.3502) vs. MLP (2.3672) vs. GP (1.3973).
AirQuality (OoS): WeightCaster (0.1381) vs. Engression (0.1603) vs. GP (0.7053).

5. Betekenis en Toekomstperspectief

Betrouwbaarheid: Door het vermogen om betrouwbaar te extrapoleren buiten het trainingsdomein, kan deze techniek bijdragen aan de veilige toepassing van AI in kritieke sectoren zoals gezondheidszorg, milieu-monitoring en infrastructuurbeheer.
Interpreteerbaarheid: Het model biedt inzicht in hoe de parameters evolueren, wat essentieel is voor het vertrouwen in AI-systemen.
Beperkingen: Het model vereist nog steeds zorgvuldige tuning van hyperparameters (zoals de locatie van het ankerpunt, de ringbreedte en de schalingsfactor $\beta$ ).
Toekomstig werk: Onderzoek naar de theoretische onderbouwing in het regime van oneindige lengte ( $T \to \infty$ ) en schaling naar hoog-dimensionale manifold-data.

Conclusie: WeightCaster biedt een innovatieve oplossing voor het OoS-probleem door de evolutie van modelgewichten te modelleren als een tijdsreeks. Het combineert de rekenefficiëntie van parametrische modellen met de onzekerheidsschattingen van niet-parametrische methoden, zonder de noodzaak van voorafgaande kennis over de testverdeling.