Importance Weighting Correction of Regularized Least-Squares for Target Shift

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je een voorspellingsmachine aanpast als de wereld verandert (Zonder de kaart te verliezen)

Stel je voor dat je een zeer slimme kok bent die een recept heeft ontwikkeld om de perfecte taart te bakken. Je hebt duizenden keren geoefend in je keuken (de trainingsdata). Je weet precies hoe je de ingrediënten moet mengen, hoe lang je moet bakken en hoe heet de oven moet zijn.

Maar nu moet je die taart gaan bakken in een heel andere keuken (de testdata). De ingrediënten zijn hetzelfde, maar de verhoudingen zijn veranderd. Misschien heb je in je oude keuken veel meer aardbeien gebruikt dan nu, of juist minder.

Dit artikel van Davit Gogolashvili gaat over hoe je je recept (je wiskundig model) aanpast als de verhoudingen van de uitkomsten (de taarten) veranderen, maar de manier waarop je ze bakt (de relatie tussen ingrediënten en taart) hetzelfde blijft.

Hier is de uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: Twee soorten "Veranderingen"

In de wereld van kunstmatige intelligentie zijn er twee manieren waarop de wereld kan veranderen tussen het leren en het toepassen:

Situatie A: De ingrediënten veranderen (Covariate Shift).
Stel, in je oude keuken bak je alleen taarten met aardbeien, maar in de nieuwe keuken bak je alleen met blauwe bessen. De soort taart (de uitkomst) is hetzelfde, maar de input (de bes) is anders.
- De oplossing: Je kunt dit vaak oplossen door gewoon wat meer blauwe bessen te gebruiken in je berekening. Als je model slim genoeg is (veel "capaciteit" heeft), kan het dit vaak zelf wel oplossen zonder speciale hulp.
Situatie B: De taarten veranderen (Target Shift) - Dit is waar dit artikel over gaat.
Stel, je bakt nog steeds met dezelfde aardbeien, maar in de nieuwe keuken zijn er ineens veel meer "aardbeientaarten" en veel minder "chocoladetaarten" dan in je oude keuken. De verdeling van de uitkomsten is veranderd.
- Het gevaar: Als je je oude recept gebruikt, ga je denken dat aardbeientaarten zeldzaam zijn, terwijl ze nu juist de standaard zijn. Je voorspellingen worden dus systematisch fout.

2. De Oplossing: "Gewichten" als een weegschaal

Om dit op te lossen, gebruiken de onderzoekers een techniek genaamd Importance Weighting (Belangrijkheidsweging).

Stel je voor dat je een grote weegschaal hebt.

In je oude keuken (trainingsdata) heb je 100 aardbeientaarten en 100 chocoladetaarten.
In je nieuwe keuken (testdata) zijn er 900 aardbeientaarten en 100 chocoladetaarten.

Om je model te leren wat er in de nieuwe keuken gebeurt, geef je elke "aardbeientaart" in je oude dataset een zwaarder gewicht op de weegschaal. Je zegt tegen je model: "Vergeet niet dat deze ene aardbeientaart eigenlijk 9 aardbeientaarten vertegenwoordigt in de nieuwe wereld!"

Dit heet Importance Weighted Kernel Ridge Regression (IW-KRR). Het is alsof je je oude foto's "opblaast" zodat ze lijken op de nieuwe situatie.

3. De Grote Ontdekking: Waarom dit werkt (en waarom het anders is)

De auteur ontdekt iets fascinerends over deze "Target Shift" (verandering van uitkomsten):

Bij "Covariate Shift" (verandering van input): Als je de weegschaal gebruikt, kan het soms de "ruimte" van je model verstoren. Het is alsof je de weegschaal op een onstabiele vloer zet; het kan je model verwarren en het moeilijker maken om de juiste patronen te zien, vooral als de verhoudingen extreem zijn.
Bij "Target Shift" (verandering van output): Hier werkt het perfect. Omdat je alleen de aardbeien (de uitkomst) weegt en niet de ingrediënten (de input), verandert je model niet de manier waarop het naar de wereld kijkt. Het blijft netjes en stabiel.
- De metafoor: Het is alsof je een fotograaf bent die een foto maakt van een menigte. Als er ineens meer mensen in rode shirts staan (verandering van uitkomst), geef je gewoon een "rode bril" op de foto's van de mensen in rode shirts. De foto zelf (de structuur van de menigte) verandert niet, alleen de telling.

Het resultaat: Je model leert net zo snel en nauwkeurig als in de oude situatie, zolang je de weegschaal maar goed afstelt. De "snelheid" van het leren blijft hetzelfde; alleen de "zwaarte" van de taak (de constante) verandert.

4. Het Gevaar: Als je de weegschaal verkeerd instelt

Wat gebeurt er als je de weegschaal verkeerd instelt? Stel, je denkt dat er 900 aardbeientaarten zijn, maar er zijn er eigenlijk 500.

Bij "Covariate Shift": Als je model heel complex en krachtig is (een "super-kok"), kan het de fout van de verkeerde weegschaal vaak zelf corrigeren. Het model is zo sterk dat het de fout "oplost" door meer te oefenen.
Bij "Target Shift": Hier is het dodelijk. Als je de weegschaal verkeerd instelt, blijft er een onoplosbare fout over.
- De analogie: Stel je voor dat je een kompas hebt dat altijd naar het noorden wijst. Als je de kaart verkeerd omdraait (verkeerde weging), wijst het kompas nog steeds naar het noorden, maar dat is nu het foute noorden voor jouw reis. Geen hoeveelheid oefenen of een nog krachtiger kompas helpt; je blijft in de verkeerde richting lopen.
- Je model zal zich concentreren op een "verkeerde waarheid" die door jouw foutieve weging is gecreëerd. Je kunt dit alleen oplossen door de verhoudingen (de gewichten) precies correct te weten.

5. Samenvatting voor de praktijk

Dit artikel zegt ons drie belangrijke dingen voor mensen die AI bouwen:

Als de verdeling van je uitkomsten verandert (bijvoorbeeld: je leert een systeem om ziektes te herkennen, maar in het ziekenhuis waar je het gaat gebruiken komen er ineens veel meer patiënten met een zeldzame ziekte), dan moet je gebruikmaken van deze "gewichten".
Gelukkig werkt deze methode heel goed en snel, zolang je de verhoudingen maar goed kent. Het verandert niets aan de complexiteit van je model.
Pas op: Als je de verhoudingen niet precies weet (wat vaak het geval is), dan blijft er een fout achter die je niet kunt wegtrainen door je model slimmer te maken. Je moet eerst proberen de verhoudingen zo goed mogelijk te schatten.

Kortom: Bij Target Shift is het "correctie-recept" (de gewichten) essentieel en onmisbaar. Als je het recept verkeerd volgt, kun je het niet redden door je keuken (model) groter te maken; je moet gewoon het recept (de gewichten) beter begrijpen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Correctie van Geregulariseerde Kleinste-Kwadraten door Gewichtigheid voor Doelverschuiving (Target Shift)

Auteur: Davit Gogolashvili (Weierstrass Institute for Applied Analysis and Stochastics, Berlijn)

1. Probleemstelling

Het paper richt zich op het probleem van dataset shift in supervised learning, specifiek de situatie waarbij de verdeling van de data tussen training en toepassing (test) verschilt. De focus ligt op target shift (ook wel label shift genoemd).

Definitie van Target Shift: De marginale verdeling van de labels ( $Y$ $Y$ ) verandert tussen de trainingsverdeling ( $\rho_{tr}$ $ρ_{t r}$ ) en de testverdeling ( $\rho_{te}$ $ρ_{t e}$ ), terwijl de conditionele verdeling van de invoer gegeven het label ( $\rho(x|y)$ $ρ (x ∣ y)$ ) stabiel blijft.
- Formeel: $\rho_{tr}(x, y) = \rho(x|y)\rho_{tr}^Y(y)$ en $\rho_{te}(x, y) = \rho(x|y)\rho_{te}^Y(y)$ .
Het Doel: Het schatten van de regressiefunctie $f_{\rho_{te}}(x) = \mathbb{E}_{\rho_{te}}[Y|X=x]$ met minimale fout op de testverdeling.
De Uitdaging: Standaard Empirical Risk Minimization (ERM) is gebiaseerd omdat het de trainingsverdeling minimaliseert. De gebruikelijke correctiemethode is Importance Weighting (IW), waarbij trainingsvoorbeelden worden gewogen met de likelihood-ratio tussen test- en trainingsverdeling. Hoewel IW onder covariate shift (waarbij de invoer verandert) goed is bestudeerd, ontbreekt er scherpe theoretische analyse voor target shift in niet-parametrische regressie, met name wat betreft minimax-optimaliteit en het effect van geschatte (ongenauke) gewichten.

2. Methodologie

De auteur analyseert Importance-Weighted Kernel Ridge Regression (IW-KRR) binnen het raamwerk van Reproducing Kernel Hilbert Spaces (RKHS).

Model: Gegeven een RKHS $\mathcal{H}$ met kernel $K$ , wordt de IW-KRR-estimator gedefinieerd als:
$f_{z,\lambda}^{IW} = \arg\min_{f \in \mathcal{H}} \left( \frac{1}{n} \sum_{i=1}^n w(y_i)(f(x_i) - y_i)^2 + \lambda \|f\|_{\mathcal{H}}^2 \right)$
Waarbij $w(y) = \frac{d\rho_{te}^Y}{d\rho_{tr}^Y}(y)$ de correcte gewichtsfunctie is die alleen van het label afhangt.
Operator-theoretische Benadering: De analyse maakt gebruik van operator-theorie. De kerninzicht is dat onder target shift de gewogen empirische covariantie-operatoren convergeren naar de test-operatoren (in plaats van de trainingsoperatoren), omdat de gewichten alleen op $Y$ werken en de geometrie van de invoerruimte ( $X$ ) intact laten.
Aannames:
1. Source Condition: De doel-functie $f_H$ voldoet aan een regulariteitsvoorwaarde gerelateerd aan de integraaloperator $L$ (parameter $r$ ).
2. Effective Dimension: De complexiteit van de RKHS wordt gekenmerkt door de effectieve dimensie $N(\lambda)$ (parameter $s$ ).
3. Momenten Voorwaarde: De gewichten $w_Y(Y)$ voldoen aan een Bernstein-type momentenconditie (beperkte staarten).

3. Belangrijkste Bijdragen en Resultaten

Het paper levert vier hoofdresultaten:

A. Finite-Sample Garantieën (Convergentie)

Onder de bovengenoemde aannames wordt bewezen dat IW-KRR onder target shift dezelfde convergentiesnelheid bereikt als in het geval zonder verschuiving (no-shift).

Resultaat: De $L^2$ -fout op de testverdeling convergeert met snelheid $O(n^{-\frac{r}{2r+s}})$ .
Invloed van Shift: De ernst van de verschuiving (hoe groot de verandering in labelverdeling is) beïnvloedt alleen de constanten in de foutbound (via de momenten $W_Y$ en $\sigma_Y$ van de gewichten), maar niet de exponent van de convergentiesnelheid.
Vergelijking met Covariate Shift: Bij covariate shift kunnen zware staarten in de gewichten de effectieve dimensie van het probleem veranderen en de convergentiesnelheid verslechteren. Bij target shift blijft de invoergeometrie onveranderd, wat leidt tot robuustere resultaten.

B. Minimax Optimaliteit

De auteur bewijst een bijpassende minimax ondergrens.

Het is onmogelijk om een schatter te construeren die de schaling in de gewichtsparameter $W$ (die de ernst van de shift meet) uniform verbetert.
De gevonden snelheid $O((W/n)^{\frac{r}{2r+s}})$ is dus optimaal; de afhankelijkheid van de shift-ernst is fundamenteel en geen artefact van de analyse.

C. Irreducibele Bias bij Onjuiste Gewichten

Een cruciaal inzicht is het effect van het gebruik van geschatte of onjuiste gewichten ( $v_Y \neq w_Y$ ).

Bias Mechanisme: Onjuiste gewichten leiden tot een irreducibele bias. De estimator convergeert niet naar de ware test-regressiefunctie $f_{\rho_{te}}$ , maar naar een "geïnduceerde" regressiefunctie $f_H^\eta$ die afhangt van de verhouding tussen de geschatte en ware gewichten.
Verschil met Covariate Shift: Bij covariate shift kan deze bias verdwijnen als de modelcapaciteit (grootte van het RKHS) toeneemt. Bij target shift blijft de bias bestaan, ongeacht hoe groot het model is, omdat de onjuiste gewichten een fundamenteel andere populatiedoelstelling creëren.
Conclusie: Accurate schatting van de label-ratio $w_Y$ is essentieel bij target shift; een groot model kan dit niet compenseren.

D. Toepassing op Classificatie

De resultaten worden vertaald naar binaire classificatie via plug-in regels (tekenfunctie van de regressie-uitvoer).

Onder Tsybakov-ruiscondities (margin conditions) worden snelle classificatiesnelheden afgeleid.
De analyse toont aan dat zelfs bij classificatie de correcte schatting van de label-verdeling cruciaal is om de Bayes-optimale beslissingsgrens te bereiken.

4. Significatie en Conclusie

Dit paper vult een belangrijke theoretische lacune in het domein van dataset shift op:

Fundamenteel Inzicht: Het onderscheidt duidelijk tussen de mechanismen van covariate shift en target shift. Target shift is "minder schadelijk" voor de convergentiesnelheid omdat de gewichten de input-ruimte-geometrie niet verstoren, maar het vereist wel strikte accurate schatting van de label-verdeling om bias te voorkomen.
Praktische Implicatie: Voor practitioners betekent dit dat bij target shift (bijv. verandering in populatie-samenstelling) het simpelweg vergroten van het model niet genoeg is. Men moet zich richten op het nauwkeurig schatten van de nieuwe label-verdeling (bijv. via EM-procedures of moment-matching) voordat de regressie wordt uitgevoerd.
Theoretische Strenheid: De paper biedt de eerste scherpe, minimax-optimale garanties voor niet-parametrische regressie onder target shift en kwantificeert exact hoe de shift-ernst de prestaties beïnvloedt.

De simulaties in het paper bevestigen deze theorie: bij target shift presteert een ongewogen model (zelfs met hoge capaciteit) slecht, terwijl IW-correctie essentieel is, ongeacht de modelcomplexiteit. Dit staat in contrast met covariate shift, waar ongewogen modellen soms goed kunnen presteren als het model goed gespecificeerd is.