A Quantitative Characterization of Forgetting in Post-Training

Dit artikel biedt een kwantitatieve theoretische analyse van vergeten tijdens post-training van generatieve modellen, waarbij wordt aangetoond dat de richting van de divergentie (forward-KL versus reverse-KL), de overlap tussen taken en het gebruik van replay bepalen of massaal vergeten optreedt of dat vergeten beperkt blijft tot een gecontroleerde drift.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan

Gepubliceerd Fri, 13 Ma
📖 6 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (zoals een chatbot of een kunstenaar) een meester is in het schilderen van landschappen. Ze kan bergen en bossen perfect nabootsen. Maar dan krijgt ze een nieuwe opdracht: ze moet ook zeeën en stranden leren schilderen.

Het probleem? Als ze te veel tijd besteedt aan het oefenen van de zee, begint ze te vergeten hoe ze bergen moet schilderen. Dit fenomeen heet "catastrophic forgetting" (catastrofale vergeetachtigheid). Ze wordt zo goed in de zee, dat de bergen uit haar geheugen verdwijnen.

Deze paper onderzoekt precies waarom dit gebeurt en hoe we het kunnen voorkomen, met behulp van wiskundige modellen die lijken op het mengen van twee soorten verf.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Nieuwe Verf" vs. De "Oude Verf"

Stel je voor dat het geheugen van de AI een grote emmer is met verf.

  • Oude taak: De emmer zit vol met blauwe verf (bergen).
  • Nieuwe taak: Je wilt groene verf (zee) toevoegen, maar je wilt dat er nog steeds een beetje blauw in blijft zitten.

De auteurs zeggen: "Hoe we de AI trainen, bepaalt of de blauwe verf verdwijnt of blijft." Ze kijken naar twee hoofdmethodeën om de AI te leren:

Methode A: "Kijken naar de nieuwe foto's" (Forward-KL / SFT)

Stel je voor dat je de AI alleen maar foto's van de zee laat zien en zegt: "Schilder dit na."

  • Wat er gebeurt: De AI kijkt naar de foto's en denkt: "Ik zie geen enkele berg. Dus, bergen bestaan niet. Ik ga al mijn blauwe verf wegdoen en alles groen maken."
  • Het resultaat: De AI vergeet de bergen volledig. De "blauwe verf" (het oude gewicht) klapst in en verdwijnt naar nul.
  • De oplossing: Om dit te voorkomen, moet je replay gebruiken. Dat betekent dat je enkele oude foto's van bergen tussen de nieuwe zee-foto's mengt. Als je dat doet, ziet de AI: "Ah, er zijn nog steeds bergen!" en houdt ze een beetje blauwe verf vast.
    • Kernboodschap: Bij deze methode moet je de input (de foto's die je laat zien) veranderen om het vergeten te stoppen.

Methode B: "De AI vergelijken met een ideale meester" (Reverse-KL / RL)

Stel je voor dat je de AI niet alleen foto's geeft, maar zegt: "Je huidige schilderij is een mengsel van bergen en zee. Ik wil dat het exact zo blijft, maar dat de zee er iets mooier uitziet." Je vergelijkt haar werk met een "ideale versie" die al beide bevat.

  • Wat er gebeurt: De AI probeert haar werk zo dicht mogelijk bij dit ideale doel te brengen. Omdat het doel bevat dat er bergen in moeten zitten, zal de AI de blauwe verf nooit volledig weggooien.
  • Het risico: Zelfs als ze de bergen niet weggooit, kan ze ze wel een beetje verschuiven. Misschien worden de bergen een beetje paars in plaats van blauw. Dit noemen ze "drift" (drijven).
  • De oplossing: Gelukkig blijkt dat als de bergen en de zee heel verschillend zijn (bijvoorbeeld: bergen zijn hoog en zee is laag), de AI de bergen nauwelijks aanraakt. Ze focust zich op de zee, en de bergen blijven veilig, tenzij ze heel erg op elkaar lijken.
    • Kernboodschap: Bij deze methode is het doel (de ideale versie) al goed ingesteld. Je hoeft de input niet te veranderen, maar je moet zorgen dat de AI tijdens het oefenen niet per ongeluk "vergeten" is dat ze ook de oude foto's moet bekijken (dit heet "starvation").

2. De Drie Moderne Trucs (SDFT, TTT-Discover, OAPL)

De paper kijkt ook naar drie nieuwe, slimme manieren om AI's bij te trainen die recent zijn bedacht. Ze gebruiken allemaal een mix van de bovenstaande principes:

  1. SDFT (Self-Distillation): De AI leert van zichzelf, maar met een "leraar" die een voorbeeld geeft. Als de leraar goed is, blijft de AI de oude kennis behouden. Het is alsof een leerling een meester observeert die zowel bergen als zee schildert; de leerling leert beide, zolang de meester maar niet verandert.
  2. TTT-Discover: Deze methode probeert de "beloning" te maximaliseren (bijv. "wat ziet er het mooist uit?"). Het risico is dat de AI alles naar de zee neigt als de zee meer punten oplevert. Maar als je een "anker" gebruikt (een strenge regel die zegt: "je mag niet te ver van je oude stijl afwijken"), blijft de AI stabiel.
  3. OAPL: Deze methode gebruikt een "vaste referentie" (een oude versie van de AI) als kompas. De AI kan alleen dingen veranderen die al in dat kompas zaten. Ze kan geen nieuwe bergen uit het niets creëren, maar ze kan wel de bestaande bergen iets mooier maken zonder ze te verliezen.

3. De Grote Conclusie (De "Gouden Regel")

De auteurs hebben ontdekt dat het allemaal draait om overlap en richting:

  • Als de oude en nieuwe taak heel verschillend zijn (zoals bergen vs. zee), is het makkelijk om beide te onthouden. De AI kan zich focussen op de nieuwe taak zonder de oude aan te raken.
  • Als ze erg op elkaar lijken, wordt het lastig. Dan moet je heel voorzichtig zijn met hoe je de AI traint.
  • Forward-KL (SFT) is als een stroom die alles meeneemt naar de nieuwe data. Je moet zelf oude data toevoegen om het tegen te houden.
  • Reverse-KL (RL) is als een magneet die de AI naar een ideaal doel trekt. Als dat doel de oude kennis bevat, blijft de AI die onthouden, mits je zorgt dat de AI tijdens het oefenen niet per ongeluk alleen naar de nieuwe data kijkt.

Kortom:
Om een AI niet te laten vergeten wat ze al kon, moet je kiezen voor de juiste trainingsmethode. Als je de AI alleen maar nieuwe dingen laat zien, vergeet ze het oude. Als je haar laat werken met een doel dat zowel oud als nieuw bevat, en je zorgt dat ze niet "verdorst" in een bad van alleen nieuwe data, dan kan ze zowel bergen als zee schilderen zonder dat de ene de andere verdringt.