Out-of-Support Generalisation via Weight-Space Sequence Modelling

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Wenn die KI auf fremdem Terrain landet

Stellen Sie sich vor, Sie haben einen sehr talentierten Koch, der jahrelang nur italienische Gerichte gekocht hat. Er ist ein Meister der Pizza und der Pasta. Wenn Sie ihn aber bitten, ein chinesisches Gericht zu kochen, das er noch nie gesehen hat, passiert oft Folgendes: Der Koch versucht trotzdem, eine Pizza zu machen, aber mit chinesischen Zutaten. Das Ergebnis ist eine Katastrophe – er ist sich aber zu 100 % sicher, dass es schmeckt.

In der Welt der künstlichen Intelligenz (KI) nennen wir das Out-of-Support (OoS)-Generalisierung. Das bedeutet: Die KI muss Vorhersagen treffen für Daten, die völlig außerhalb des Bereichs liegen, in dem sie trainiert wurde. Herkömmliche KI-Modelle scheitern hier oft dramatisch und liefern unsinnige, aber selbstbewusste Antworten.

Die Lösung: WeightCaster – Der "Koch, der lernt, wie er lernt"

Der Autor schlägt eine neue Methode namens WeightCaster vor. Statt dem Koch einfach zu sagen "Koch jetzt chinesisch", verändert er den Ansatz grundlegend. Er betrachtet nicht das Essen (die Daten), sondern die Werkzeuge des Kochs (die Gewichte des Modells).

Hier ist die Idee, aufgeteilt in drei einfache Schritte:

1. Die Zwiebel-Methode (Domain Decomposition)

Stellen Sie sich Ihren Trainingsbereich (die Daten, die der Koch kennt) wie eine riesige Zwiebel vor.

Im Zentrum liegt ein "Ankerpunkt" (ein fester Referenzpunkt).
Um diesen Punkt herum legt der Autor die Daten in konzentrische Ringe (wie Zwiebelschalen).
Ring 1 ist ganz nah am Zentrum, Ring 2 etwas weiter draußen, Ring 3 noch weiter, und so weiter.

Jeder Ring repräsentiert eine kleine "Schicht" der Welt, die der Koch kennt.

2. Die Reise der Werkzeuge (Weight-Space Sequence Modelling)

Normalerweise versucht eine KI, ein Rezept für alles zu finden. WeightCaster macht etwas Cleveres:

Es schaut sich an, wie sich die "Werkzeuge" (die mathematischen Einstellungen des Modells) ändern, wenn man von Ring 1 zu Ring 2, dann zu Ring 3 geht.
Es erkennt ein Muster: "Aha! Wenn ich vom Ring 1 zum Ring 2 gehe, muss ich den Schraubenzieher ein bisschen drehen. Wenn ich zum Ring 3 gehe, muss ich ihn noch weiter drehen."
Das Modell lernt also nicht das Essen, sondern die Bewegung der Werkzeuge. Es lernt eine Art "Reiseplan" für seine eigenen Einstellungen.

3. Die Vorhersage (Extrapolation)

Jetzt kommt der Test: Der Koch soll ein Gericht für einen Ort kochen, der außerhalb aller Ringe liegt (ein neuer Ring, den er nie gesehen hat).

Da das Modell gelernt hat, wie sich die Werkzeuge von Ring zu Ring bewegen, kann es einfach den "Reiseplan" weiterführen.
Es sagt: "Okay, wenn ich von Ring 10 zu Ring 11 gehe, drehen wir die Werkzeuge noch ein bisschen weiter. Dann sollte das Ergebnis passen."
Das Ergebnis ist eine Vorhersage, die logisch und plausibel ist, auch wenn der Koch den Ort nie gesehen hat.

Warum ist das so besonders?

Keine vorgefertigten Regeln nötig: Viele andere Methoden brauchen menschliche Hinweise (Induktionsbias), wie "die Welt ist linear" oder "die Welt ist glatt". WeightCaster findet diese Muster selbst, indem es die Bewegung der Werkzeuge analysiert.
Sicherheits-Check (Unsicherheit): Das Modell ist nicht nur dumm zuversichtlich. Es kann auch sagen: "Ich bin mir bei Ring 10 noch ziemlich sicher, aber bei Ring 100 wird es etwas unsicherer." Es berechnet eine Art "Zittern" in den Werkzeugen, das zeigt, wie viel Vertrauen man in die Vorhersage haben sollte.
Effizienz: Es ist sehr leichtgewichtig. Statt einen riesigen, schweren Koch zu trainieren, trainiert es einen kleinen, schlauen Assistenten, der nur die Werkzeuge bewegt.

Ein echtes Beispiel aus der Welt

Stellen Sie sich vor, Sie messen die Luftqualität in einer Stadt.

Sie haben Daten für niedrige Werte (wenig Smog).
Plötzlich passiert ein Unfall, und die Werte schießen in Bereiche, die Sie noch nie gemessen haben (OoS).
Eine normale KI würde vielleicht sagen: "Das ist unmöglich!" oder "Der Wert ist unendlich hoch!" (und dabei völlig falsch liegen).
WeightCaster würde analysieren, wie sich die Sensoren verhalten haben, als die Werte langsam stiegen (Ring für Ring), und dann logisch vorhersagen, wie sie sich bei extremen Werten verhalten werden. Es sagt nicht nur den Wert vorher, sondern warnt auch: "Hey, hier wird es unsicher, aber basierend auf dem Muster ist ein Anstieg wahrscheinlich."

Fazit

WeightCaster ist wie ein Navigator für KI-Modelle. Anstatt sie blind in unbekannte Gebiete zu schicken, gibt es ihnen eine Karte, die zeigt, wie sich ihre eigenen Einstellungen verändern müssen, um neue Gebiete zu verstehen. Das macht KI sicherer, zuverlässiger und besser geeignet für lebenswichtige Anwendungen wie autonomes Fahren oder medizinische Diagnosen, wo Fehler keine Option sind.

Each language version is independently generated for its own context, not a direct translation.

Titel: Out-of-Support Generalisation via Weight-Space Sequence Modelling (WeightCaster)

Veröffentlichung: CAO Workshop bei ICLR 2026
Autor: Roussel Desmond Nzoyem (University of Bristol)

1. Problemstellung: Out-of-Support (OoS) Generalisierung

Das Paper adressiert eine kritische Schwäche aktueller Deep-Learning-Modelle: die Out-of-Support (OoS) Generalisierung.

Definition: OoS tritt auf, wenn Testdaten ( $X_{te}$ ) in Bereichen des Eingaberaums liegen, in denen die Trainingsdichte null ist ( $\text{Supp}(X_{tr}) \cap \text{Supp}(X_{te}) = \emptyset$ ). Im Gegensatz zur allgemeinen Out-of-Distribution (OoD) Generalisierung sind die Trainings- und Testbereiche hier disjunkt.
Herausforderung: Herkömmliche neuronale Netze versagen bei OoS-Samples oft katastrophal. Sie liefern unrealistische, aber übermäßig selbstbewusste Vorhersagen, da sie keine inhärente Unsicherheit für Bereiche außerhalb des Trainingsbereichs besitzen.
Limitationen bestehender Ansätze:
- Induktive Biases: Methoden, die bekannte Dynamiken erzwingen, scheitern, wenn diese nicht bekannt sind.
- Meta-Learning & DRO: Erfordern oft Vorwissen über die Testverteilung.
- Gaussian Processes (GPs): Bieten zwar Unsicherheitsschätzungen, skalieren aber schlecht mit großen Datensätzen.

2. Methodik: Der WeightCaster Framework

Die Autoren schlagen WeightCaster vor, ein Framework, das das OoS-Problem als Sequenzmodellierungsaufgabe im Gewichtsraum reformuliert. Statt ein einziges globales Modell zu lernen, wird der Eingaberaum in eine Sequenz von Schichten zerlegt, um die Evolution der Modellparameter zu modellieren.

Kernkomponenten:

A. Domänenzerlegung (Domain Decomposition)

Der Eingaberaum wird basierend auf einem gewählten Ankerpunkt ( $x_{anchor}$ ) und einer Distanzmetrik $d(\cdot, \cdot)$ in konzentrische Schalen (im 1D-Fall Intervalle, im 2D-Fall Ringe) unterteilt.
Diese Schalen werden als „Ringe" ( $R_t$ ) bezeichnet. Jeder Ring entspricht einem diskreten Zeitschritt in einer Sequenz.
Das Ziel ist nicht, ein Modell für alle Daten zu lernen, sondern für jeden Ring $t$ ein spezifisches Modellgewicht $\theta_t$ zu finden.

B. Sequenzmodellierung im Gewichtsraum (Weight-Space Sequence Modelling)

Die optimalen Gewichte $\theta_t$ für jeden Ring werden als Folge betrachtet.
Ein höherstufiges neuronales Funktional $G_\phi$ (z. B. ein rekurrentes Netzwerk oder ein linearer Zustandstransition) lernt die Dynamik, wie sich die Gewichte von einem Ring zum nächsten entwickeln: $\theta_{t+1} = G_\phi(\theta_t)$ .
Training: Das Modell wird nur auf den Ringen trainiert, die Trainingsdaten enthalten ( $t \le T_{tr}$ ).
Inferenz (Extrapolation): Für Testdaten in OoS-Bereichen ( $t > T_{tr}$ ) wird die Sequenz $G_\phi$ einfach weitergeführt („Roll-out"), um die vorhergesagten Gewichte $\theta_t$ für den neuen Ring zu generieren. Dies ermöglicht eine Extrapolation ohne explizite induktive Biases.

C. Stochastischer Rahmen für Unsicherheit

Um Unsicherheiten zu quantifizieren, wird $G_\phi$ so erweitert, dass sie nicht nur Punkt-Schätzungen, sondern die Parameter einer Verteilung über die Gewichte ausgibt (Gaussian $N(\mu_t, \sigma_t^2)$ ).
Reparametrisierungs-Trick: Ermöglicht Backpropagation durch das Sampling.
Linearisierung: Da die Integration über die Gewichte analytisch nicht lösbar ist, wird eine Taylor-Entwicklung erster Ordnung um die Mittelwerte der Gewichte verwendet. Dies erlaubt die Berechnung einer prädiktiven Verteilung $p(y|x)$ mit einer Kovarianzmatrix, die Modellunsicherheit widerspiegelt.
Regularisierung: Eine KL-Divergenz-Strafe im Loss-Function sorgt dafür, dass das Modell in OoS-Bereichen nicht übermäßig selbstbewusst wird, sondern sanft zu einer Prior-Verteilung zurückkehrt.

3. Hauptbeiträge

Induktionsbias-freier Ansatz: Ein parametrisches, interpretierbares und recheneffizientes Framework für OoS-Extrapolation, das keine Vorannahmen über die zugrunde liegende Dynamik benötigt.
Unsicherheitsschätzung: Eine Strategie zur Linearisierung, die sowohl für In-Distribution (InD) als auch für OoS-Daten prinzipielle Unsicherheitsschätzungen liefert.
Effizienz: Das Modell erreicht hohe Leistung bei extrem geringer Parameteranzahl (im Experiment nur 6 Parameter), was es deutlich effizienter macht als Standard-MLPs oder komplexe Meta-Learning-Ansätze.

4. Ergebnisse und Evaluation

Das Framework wurde auf zwei Datensätzen evaluiert und mit Standard-MLPs, Gaussian Processes (GP) und Engression verglichen:

Synthetischer Cosinus-Datensatz:
- Aufgabe: Extrapolation einer periodischen Funktion ( $y = \cos(10x) + 0.5x$ ) in disjunkte Bereiche.
- Ergebnis: WeightCaster erkannte die Periodizität der Gewichtsverläufe und sagte die OoS-Werte präzise voraus. Standard-MLPs scheiterten katastrophal (hoher MSE), und GPs zeigten zwar Unsicherheit, aber schlechtere Vorhersagegenauigkeit.
AirQuality-Datensatz (Echtwelt):
- Aufgabe: Vorhersage von NOx-Sensordaten basierend auf O3-Werten, wobei Trainings- und Testdaten durch einen Schwellenwert getrennt sind.
- Ergebnis: WeightCaster erzielte die besten Ergebnisse im OoS-Bereich (niedrigster MSE) und war mit Engression vergleichbar, übertraf diesen jedoch in der Effizienz.
Parameter-Effizienz: WeightCaster benötigte nur 6 Parameter ( $D_{WeightCaster} = 6$ ), während andere Methoden deutlich mehr Parameter benötigen, um ähnliche oder schlechtere Ergebnisse zu erzielen.

Tabelle 1 (Zusammenfassung MSE):

Cosine OoS: WeightCaster (0.3502) vs. MLP (2.3672) vs. GP (1.3973).
AirQuality OoS: WeightCaster (0.1381) vs. Engression (0.1603) vs. GP (0.7053).

5. Bedeutung und Ausblick

Sicherheitskritische Anwendungen: Die Fähigkeit, zuverlässig in unbekannten Bereichen zu extrapolieren und Unsicherheiten zu quantifizieren, ist entscheidend für den Einsatz von KI in Bereichen wie Umweltmonitoring, Gesundheitswesen und autonomes Fahren.
Interpretierbarkeit: Da die Dynamik der Gewichte durch eine lineare Rekursion (bzw. Matrix $\phi$ ) modelliert wird, ist das Verhalten des Modells besser interpretierbar als bei Black-Box-Netzen. Eine Eigenwertzerlegung von $\phi$ könnte Aufschluss über das Verhalten im unendlichen OoS-Bereich geben.
Herausforderungen: Die Wahl des Ankerpunkts und die Abstimmung mehrerer Hyperparameter (z. B. Ringbreite $\delta$ , Regularisierung $\beta$ ) bleiben als offene Probleme bestehen.

Fazit: WeightCaster bietet einen neuen Paradigmenwechsel, indem es das Lernen von Funktionen in das Lernen von Gewichtssequenzen überführt. Dies ermöglicht robuste Extrapolation ohne die Notwendigkeit komplexer induktiver Biases oder teurer nicht-parametrischer Methoden.