A Quantitative Characterization of Forgetting in Post-Training

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (zoals een chatbot of een kunstenaar) een meester is in het schilderen van landschappen. Ze kan bergen en bossen perfect nabootsen. Maar dan krijgt ze een nieuwe opdracht: ze moet ook zeeën en stranden leren schilderen.

Het probleem? Als ze te veel tijd besteedt aan het oefenen van de zee, begint ze te vergeten hoe ze bergen moet schilderen. Dit fenomeen heet "catastrophic forgetting" (catastrofale vergeetachtigheid). Ze wordt zo goed in de zee, dat de bergen uit haar geheugen verdwijnen.

Deze paper onderzoekt precies waarom dit gebeurt en hoe we het kunnen voorkomen, met behulp van wiskundige modellen die lijken op het mengen van twee soorten verf.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Nieuwe Verf" vs. De "Oude Verf"

Stel je voor dat het geheugen van de AI een grote emmer is met verf.

Oude taak: De emmer zit vol met blauwe verf (bergen).
Nieuwe taak: Je wilt groene verf (zee) toevoegen, maar je wilt dat er nog steeds een beetje blauw in blijft zitten.

De auteurs zeggen: "Hoe we de AI trainen, bepaalt of de blauwe verf verdwijnt of blijft." Ze kijken naar twee hoofdmethodeën om de AI te leren:

Methode A: "Kijken naar de nieuwe foto's" (Forward-KL / SFT)

Stel je voor dat je de AI alleen maar foto's van de zee laat zien en zegt: "Schilder dit na."

Wat er gebeurt: De AI kijkt naar de foto's en denkt: "Ik zie geen enkele berg. Dus, bergen bestaan niet. Ik ga al mijn blauwe verf wegdoen en alles groen maken."
Het resultaat: De AI vergeet de bergen volledig. De "blauwe verf" (het oude gewicht) klapst in en verdwijnt naar nul.
De oplossing: Om dit te voorkomen, moet je replay gebruiken. Dat betekent dat je enkele oude foto's van bergen tussen de nieuwe zee-foto's mengt. Als je dat doet, ziet de AI: "Ah, er zijn nog steeds bergen!" en houdt ze een beetje blauwe verf vast.
- Kernboodschap: Bij deze methode moet je de input (de foto's die je laat zien) veranderen om het vergeten te stoppen.

Methode B: "De AI vergelijken met een ideale meester" (Reverse-KL / RL)

Stel je voor dat je de AI niet alleen foto's geeft, maar zegt: "Je huidige schilderij is een mengsel van bergen en zee. Ik wil dat het exact zo blijft, maar dat de zee er iets mooier uitziet." Je vergelijkt haar werk met een "ideale versie" die al beide bevat.

Wat er gebeurt: De AI probeert haar werk zo dicht mogelijk bij dit ideale doel te brengen. Omdat het doel bevat dat er bergen in moeten zitten, zal de AI de blauwe verf nooit volledig weggooien.
Het risico: Zelfs als ze de bergen niet weggooit, kan ze ze wel een beetje verschuiven. Misschien worden de bergen een beetje paars in plaats van blauw. Dit noemen ze "drift" (drijven).
De oplossing: Gelukkig blijkt dat als de bergen en de zee heel verschillend zijn (bijvoorbeeld: bergen zijn hoog en zee is laag), de AI de bergen nauwelijks aanraakt. Ze focust zich op de zee, en de bergen blijven veilig, tenzij ze heel erg op elkaar lijken.
- Kernboodschap: Bij deze methode is het doel (de ideale versie) al goed ingesteld. Je hoeft de input niet te veranderen, maar je moet zorgen dat de AI tijdens het oefenen niet per ongeluk "vergeten" is dat ze ook de oude foto's moet bekijken (dit heet "starvation").

2. De Drie Moderne Trucs (SDFT, TTT-Discover, OAPL)

De paper kijkt ook naar drie nieuwe, slimme manieren om AI's bij te trainen die recent zijn bedacht. Ze gebruiken allemaal een mix van de bovenstaande principes:

SDFT (Self-Distillation): De AI leert van zichzelf, maar met een "leraar" die een voorbeeld geeft. Als de leraar goed is, blijft de AI de oude kennis behouden. Het is alsof een leerling een meester observeert die zowel bergen als zee schildert; de leerling leert beide, zolang de meester maar niet verandert.
TTT-Discover: Deze methode probeert de "beloning" te maximaliseren (bijv. "wat ziet er het mooist uit?"). Het risico is dat de AI alles naar de zee neigt als de zee meer punten oplevert. Maar als je een "anker" gebruikt (een strenge regel die zegt: "je mag niet te ver van je oude stijl afwijken"), blijft de AI stabiel.
OAPL: Deze methode gebruikt een "vaste referentie" (een oude versie van de AI) als kompas. De AI kan alleen dingen veranderen die al in dat kompas zaten. Ze kan geen nieuwe bergen uit het niets creëren, maar ze kan wel de bestaande bergen iets mooier maken zonder ze te verliezen.

3. De Grote Conclusie (De "Gouden Regel")

De auteurs hebben ontdekt dat het allemaal draait om overlap en richting:

Als de oude en nieuwe taak heel verschillend zijn (zoals bergen vs. zee), is het makkelijk om beide te onthouden. De AI kan zich focussen op de nieuwe taak zonder de oude aan te raken.
Als ze erg op elkaar lijken, wordt het lastig. Dan moet je heel voorzichtig zijn met hoe je de AI traint.
Forward-KL (SFT) is als een stroom die alles meeneemt naar de nieuwe data. Je moet zelf oude data toevoegen om het tegen te houden.
Reverse-KL (RL) is als een magneet die de AI naar een ideaal doel trekt. Als dat doel de oude kennis bevat, blijft de AI die onthouden, mits je zorgt dat de AI tijdens het oefenen niet per ongeluk alleen naar de nieuwe data kijkt.

Kortom:
Om een AI niet te laten vergeten wat ze al kon, moet je kiezen voor de juiste trainingsmethode. Als je de AI alleen maar nieuwe dingen laat zien, vergeet ze het oude. Als je haar laat werken met een doel dat zowel oud als nieuw bevat, en je zorgt dat ze niet "verdorst" in een bad van alleen nieuwe data, dan kan ze zowel bergen als zee schilderen zonder dat de ene de andere verdringt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "A Quantitative Characterization of Forgetting in Post-Training" in het Nederlands.

Titel: Een Kwantitatieve Karakterisering van Vergeten in Post-Training

Auteurs: Krishnakumar Balasubramanian en Shiva Prasad Kasiviswanathan (UC Davis & Amazon)
Datum: 13 maart 2026

1. Probleemstelling

Continu leren (Continual Learning) bij generatieve modellen, met name tijdens post-training, wordt vaak gebruikt om nieuwe taken te leren zonder bestaande kennis te verliezen. Een fundamenteel probleem hierbij is catastrofaal vergeten, waarbij de prestaties op eerdere taken snel verslechteren. Hoewel er veel algoritmische oplossingen zijn, ontbreekt er een principieel theoretisch inzicht in wanneer en waarom vergeten optreedt, vooral bij moderne generatieve modellen waarbij gedrag wordt gemodelleerd als een kansverdeling.

De auteurs stellen de volgende kernvraag: Kunnen we precies kwantificeren wanneer een post-training procedure vergeten induceert en wanneer niet?

2. Methodologie en Model

De auteurs ontwikkelen een theoretisch raamwerk gebaseerd op een twee-moden mengselmodel (two-mode mixture model), zoals voorgesteld door Chen et al. (2025). Dit model abstracteert continu leren naar een "oude" en een "nieuwe" verdeling.

De Verdelingen:
- $p_o$ : De oude data-genererende verdeling.
- $p_n$ : De nieuwe data-genererende verdeling.
- Doelverdeling: $p_\alpha = \alpha p_o + (1-\alpha)p_n$ , waarbij $\alpha$ het gewenste behoud van oud gedrag voorstelt.
Het Leermodel: Een model $q_\beta = \beta q_o + (1-\beta)q_n$ , waarbij $\beta$ het mengselgewicht is en $q_o, q_n$ de componenten zijn.
Aannames: De componenten worden gemodelleerd als Gaussische verdelingen met gelijke covariantie ( $N(\mu, \Sigma)$ ). De scheiding tussen de modi wordt gemeten via de Mahalanobis-afstand $\delta = \|\mu_n - \mu_o\|_{\Sigma^{-1}}$ .

De analyse focust op twee vormen van vergeten:

Massa-vergeten (Mass Forgetting): Het mengselgewicht $\beta$ op de oude modus collapseert naar 0, zelfs als het model de oude verdeling perfect kan representeren.
Drift van de oude component (Old-Component Drift): Het model behoudt een niet-nul gewicht, maar de parameters van de oude component ( $\mu_o$ ) verschuiven weg van de ware verdeling.

3. Kernbijdragen en Theoretische Resultaten

De paper vergelijkt twee fundamentele trainingsdoelen: Forward-KL (vergelijkbaar met Supervised Fine-Tuning, SFT) en Reverse-KL (vergelijkbaar met Reinforcement Learning, RL, met KL-regularisatie).

A. Forward-KL (SFT) en Massa-Vergeten

Resultaat: Wanneer Forward-KL ( $\min KL(p_n \| q_\beta)$ ) wordt geoptimaliseerd op alleen nieuwe data, is de unieke populatie-minimizer $\beta^* = 0$ .
Mechanisme: De gradiënt voor het gewicht $\beta$ wordt bepaald door het verschil tussen het huidige gewicht en de verwachte "verantwoordelijkheid" (responsibility) van de nieuwe data voor de oude modus. Omdat de modi goed gescheiden zijn, is deze verantwoordelijkheid exponentieel klein. De update duwt $\beta$ dus continu naar 0.
Conclusie: Forward-KFT induceert onvermijdelijk massa-vergeten bij alleen nieuwe data, ongeacht hoe goed de oude component gemodelleerd is.

B. Reverse-KL (RL) en Behoud

Resultaat: Reverse-KL ( $\min KL(q_\beta \| p_\alpha)$ ) is consistent met het doel om oude en nieuwe kennis te behouden. Het globale minimum ligt bij $\beta^* = \alpha$ en de juiste parameters.
Drift-analyse: De gradiënt voor de oude parameter $\mu_o$ (als deze al correct is) wordt volledig bepaald door misassignement-kansen (samples die ten onrechte aan de verkeerde modus worden toegewezen).
Kwantificering: Deze misassignement-kansen worden begrensd door de Bhattacharyya-coëfficiënt, die exponentieel afneemt met de kwadratische Mahalanobis-scheiding ( $\exp(-\delta^2/8)$ ).
Conclusie: Reverse-KL voorkomt massa-vergeten en zorgt ervoor dat drift van de oude component exponentieel klein is naarmate de modi verder uit elkaar liggen. De lokale geometrie is goed conditioerd, wat leidt tot exponentiële convergentie.

C. De Rol van Replay (Herhaling)

De auteurs analyseren hoe replay (het toevoegen van oude data) interacteert met deze doelen:

Bij Forward-KL: Replay moet de trainingsverdeling (de teller in de KL-divergentie) veranderen. Als men alleen oude data toevoegt aan het model (de noemer), verandert dit de populatie-optimum niet; het model zal nog steeds naar $\beta=0$ convergeren, tenzij de data-verdeling zelf gemengd is.
Bij Reverse-KL: Replay verandert de populatie-doelfunctie niet, maar lost een stochastisch falen op in eindige batches. Zonder replay kunnen minibatches geen oude samples bevatten ("old-mode starvation"), wat de update doet lijken op een "alleen-nieuwe" update. Replay met gebonden importance weights zorgt ervoor dat oude samples altijd aanwezig zijn in de gradiënt-schatting zonder de variantie te explodeer.

D. Analyse van Nieuwe Methoden

De theorie wordt toegepast op drie recente "near-on-policy" methoden:

SDFT (Self-Distillation Fine-Tuning): Gedraagt zich als een Reverse-KL update naar een lerende leraar. Vermijdt massa-vergeten als de demonstrator sterk genoeg is en controleert drift via overlap.
TTT-Discover: Gebruikt een entropische doelstelling. Zonder een sterke KL-anchor kan het toch leiden tot massa-collapse (naar de hoogste beloning), maar de drift van een correcte oude modus blijft exponentieel klein.
OAPL (Optimal Advantage Regression): Baseert zich op een bevroren referentie. Kan alleen modi behouden die al in de referentie aanwezig zijn. De updates zijn lokaal en de kruis-invloed wordt gecontroleerd door exponentieel kleine overlap-termen.

4. Belangrijkste Conclusies en Betekenis

Kwantitatief Inzicht: De paper biedt voor het eerst een exacte kwantificering van vergeten in termen van divergentierichting (Forward vs. Reverse KL), geometrische overlap (Bhattacharyya-coëfficiënt) en steekproefregimes.
Fundamenteel Onderscheid: Er is een scherp onderscheid tussen SFT (Forward-KL) en RL (Reverse-KL). SFT op nieuwe data is inherent destructief voor oude kennis (massa-collapse), terwijl Reverse-KL intrinsiek behoudend is, mits de doelverdeling de oude kennis expliciet bevat.
Rol van Overlap: Vergeten is niet binair; het is een functie van de scheiding tussen taken. Hoe beter gescheiden de taken (grote $\delta$ ), hoe minder drift er optreedt bij Reverse-KL-methoden.
Praktische Implicaties:
- Voor SFT is het essentieel om oude data in de trainingsdataset te mengen (numerator replay) om vergeten te voorkomen.
- Voor RL-methoden is replay vooral nuttig om stochastische variabiliteit en "starvation" in minibatches te voorkomen, niet om de theoretische optimum te veranderen.
- Moderne methoden zoals SDFT en OAPL kunnen effectief zijn, maar hun stabiliteit hangt af van de sterkte van hun "anchors" (demonstrators of referentiebeleidsregels) en de overlap tussen taken.

Deze resultaten leggen een theoretische basis voor het ontwerpen van nieuwe post-training algoritmen die een balans vinden tussen exploratie van nieuw gedrag en behoud van oude capaciteiten, gebaseerd op de wiskundige eigenschappen van divergentiemaatstaven.