A Quantitative Characterization of Forgetting in Post-Training

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein genialer Koch, der einen fantastischen alten Rezeptbuch besitzt. Deine Kunden lieben deine klassischen Gerichte (das sind die "alten Aufgaben"). Aber plötzlich möchtest du auch neue, trendige Gerichte lernen (die "neuen Aufgaben"), ohne dass deine Kunden enttäuscht sind, wenn du die alten Rezepte vergisst.

Das Problem, das dieses Papier untersucht, nennt man "Katastrophales Vergessen". Wenn du einfach nur anfängst, neue Rezepte zu üben, ohne auf die alten zu achten, passiert oft eines von zwei Dingen:

Du vergisst die alten Rezepte komplett (du kochst sie nie wieder).
Du vergisst nicht dass du sie kannst, aber du veränderst sie so stark, dass sie nicht mehr so schmecken wie früher (sie "driften" davon).

Die Forscher (Krishnakumar Balasubramanian und Shiva Prasad Kasiviswanathan) haben sich angesehen, wie moderne KI-Modelle (wie große Sprachmodelle) lernen, neue Dinge zu tun, ohne die alten zu verlieren. Sie haben eine einfache, aber mächtige Theorie entwickelt, um zu erklären, warum das passiert und wie man es verhindern kann.

Hier ist die Erklärung in einfachen Worten, mit ein paar kreativen Vergleichen:

1. Das Grundproblem: Der "Ein-Weg-Tunnel" vs. der "Rundweg"

Stell dir das Lernen als eine Reise vor. Es gibt zwei Hauptmethoden, wie die KI ihre "Rezepte" (Wahrscheinlichkeiten) anpasst:

Methode A: Der "Ein-Weg-Tunnel" (Forward-KL / SFT)
- Wie es funktioniert: Die KI schaut sich nur die neuen Rezepte an und versucht, sie perfekt nachzumachen. Sie ignoriert dabei völlig, was sie vorher wusste.
- Das Ergebnis: Stell dir vor, du hast einen Tunnel, der nur in eine Richtung führt. Sobald du hineingehst, siehst du nichts mehr von dem Weg, den du gekommen bist. Die KI vergisst die alten Rezepte komplett. Selbst wenn sie die alten Rezepte noch "im Kopf" hat, drückt sie sie in den Hintergrund, weil sie im neuen Tunnel keine Rolle spielen.
- Das Problem: Die alte Mischung (der Anteil an alten Rezepten) kollabiert auf Null. Das alte Wissen ist weg.
Methode B: Der "Rundweg" (Reverse-KL / RL)
- Wie es funktioniert: Hier vergleicht die KI ihre eigenen neuen Versuche mit einem Zielbild, das sowohl alte als auch neue Rezepte enthält. Sie fragt sich: "Wie sehr weiche ich von meinem Ideal ab?"
- Das Ergebnis: Dieser Weg ist wie ein Rundweg. Die KI behält den alten Teil bei, solange er im Zielbild enthalten ist. Sie passt sich an, ohne die alten Dinge zu löschen.
- Der Trick: Wenn die alten und neuen Rezepte sich sehr stark unterscheiden (z. B. Suppe vs. Pizza), passiert fast nichts mit den alten Rezepten. Die KI lernt die Pizza, ohne die Suppe zu verändern. Wenn sie sich aber sehr ähnlich sind, gibt es eine kleine Überlappung, die zu winzigen Veränderungen führt, aber nicht zum Vergessen.

2. Der "Replay"-Effekt: Die alte Speisekarte

Was passiert, wenn wir alte Daten (Rezepte) wieder in den Trainingsprozess einmischen? Das nennt man Replay (Wiederholung).

Bei Methode A (Ein-Weg-Tunnel):
Es bringt nichts, alte Rezepte nur auf die Karte zu legen, wenn die Küche (die KI) nur nach neuen Rezepten sucht. Du musst die alten Rezepte tatsächlich in den Topf werfen (in die Trainingsdaten mischen). Nur dann ändert sich das Ziel der KI, und sie behält die alten Rezepte bei.
- Analogie: Wenn du nur nach neuen Rezepten suchst, hilft es nicht, alte Rezepte in dein Notizbuch zu kleben, wenn du sie beim Kochen nie benutzt. Du musst sie aktiv beim Kochen verwenden.
Bei Methode B (Rundweg):
Hier ist es anders. Die KI sucht ohnehin nach einem Gleichgewicht. Aber manchmal passiert ein kleines Problem: Wenn die KI gerade sehr wenig von den alten Rezepten produziert, könnte sie in einer kleinen Stichprobe (einem "Mini-Topf") zufällig gar keine alten Rezepte finden. Dann denkt sie, sie müsste sie gar nicht mehr üben.
- Die Lösung: Durch das Hinzufügen von ein paar alten Rezepten (Replay) stellst du sicher, dass in jedem Mini-Topf immer etwas von den alten Sachen ist. Die KI vergisst sie also nicht aus Versehen, weil sie sie nie sieht.

3. Die neuen Helden: SDFT, TTT-Discover und OAPL

Das Papier schaut sich auch drei moderne Methoden an, die versuchen, das Beste aus beiden Welten zu vereinen:

SDFT (Selbst-Distillation):
Stell dir vor, die KI hat einen "Lehrer", der ihr zeigt, wie man alte und neue Dinge kombiniert. Dieser Lehrer wird aber nicht starr festgelegt, sondern passt sich langsam an.
- Ergebnis: Solange der Lehrer stark genug ist (also klare Anweisungen gibt), vergisst die KI nichts. Sie bleibt stabil.
TTT-Discover:
Diese Methode sucht nach den "besten" neuen Rezepten (hohe Belohnung), versucht aber gleichzeitig, sich nicht zu weit vom alten Standard zu entfernen (ein "Anker").
- Ergebnis: Wenn der Anker zu schwach ist, springt die KI zu den neuen, coolen Rezepten und vergisst die alten. Ist der Anker stark genug, bleibt sie stabil. Aber: Wenn die alten und neuen Rezepte sich sehr ähneln, kann es zu kleinen Verwirrungen kommen.
OAPL:
Diese Methode nutzt einen "eingefrorenen Referenz-Koch" (ein altes Modell), um neue Ideen zu entwickeln.
- Ergebnis: Sie kann nur Dinge behalten, die im alten Referenzkoch schon vorhanden waren. Sie kann keine völlig neuen alten Rezepte erfinden, aber sie verändert die bestehenden sehr vorsichtig und lokal.

Die große Erkenntnis (Zusammenfassung)

Die Forscher haben herausgefunden, dass man Vergessen genau messen und vorhersagen kann, indem man drei Dinge betrachtet:

Die Richtung des Lernens: Geht die KI nur auf die neuen Daten zu (Vergessen) oder vergleicht sie mit einem Ziel, das beides enthält (Erinnern)?
Die Distanz: Wie unterschiedlich sind die alten und neuen Aufgaben? Je unterschiedlicher sie sind (wie Suppe vs. Pizza), desto weniger stören sie sich gegenseitig.
Die Sichtbarkeit: Werden die alten Daten auch tatsächlich gesehen und verarbeitet, oder nur theoretisch vorhanden sein?

Fazit für den Alltag:
Wenn du eine KI (oder auch dich selbst) etwas Neues lernen lassen willst, ohne das Alte zu verlieren, musst du sicherstellen, dass du nicht nur auf das Neue schaust. Du musst ein Ziel haben, das beides umfasst, und du musst sicherstellen, dass die alten Informationen immer wieder sichtbar bleiben, damit sie nicht aus dem Gedächtnis verschwinden. Die Art und Weise, wie du lernst (die mathematische "Richtung"), ist entscheidend dafür, ob du vergisst oder erinnerst.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „A Quantitative Characterization of Forgetting in Post-Training" auf Deutsch:

1. Problemstellung

Das Paper adressiert das Phänomen des katastrophalen Vergessens (Catastrophic Forgetting) beim kontinuierlichen Nachtrainieren (Continual Post-Training) generativer Modelle. Obwohl Techniken wie Continual Learning weit verbreitet sind, fehlt ein prinzipielles theoretisches Verständnis dafür, wann und warum Vergessen auftritt.

Die Autoren untersuchen speziell Post-Training-Pipelines für generative Modelle, deren Verhalten als Wahrscheinlichkeitsverteilung über Ausgaben modelliert wird. Das zentrale Problem ist: Wie können Modelle neue Fähigkeiten erlernen, ohne alte zu verlieren? Die Arbeit fragt präzise:

Unter welchen Bedingungen induziert ein Trainingsverfahren Vergessen?
Wie lässt sich Vergessen quantitativ messen?

2. Methodik und Modellierung

Die Autoren verwenden ein abstraktes Zwei-Modus-Mischungsmodell (Two-Mode Mixture Model), das von Chen et al. (2025) vorgeschlagen wurde, um den Lernschritt zu vereinfachen:

Verteilungen: Es gibt eine alte Verteilung $p_o$ (altes Wissen) und eine neue Verteilung $p_n$ (neues Wissen).
Zielverteilung: Ein ideales Ziel ist eine Mischung $p_\alpha = \alpha p_o + (1-\alpha)p_n$ , die einen Anteil $\alpha$ des alten Verhaltens bewahrt.
Lernmodell: Das Modell ist ebenfalls eine Mischung $q_\beta = \beta q_o + (1-\beta)q_n$ , wobei $\beta$ das Mischgewicht und $q_o, q_n$ die Komponentenverteilungen sind.
Annahmen: Die Komponenten werden als Gaußsche Verteilungen mit gleicher Kovarianz ( $N(\mu, \Sigma)$ ) angenommen. Die Trennung der Modi wird durch die Mahalanobis-Distanz $\delta = \|\mu_n - \mu_o\|_{\Sigma^{-1}}$ quantifiziert.

Die Analyse konzentriert sich auf zwei Haupttypen von Trainingszielen (Divergenzen):

Forward-KL: $\min KL(p_{data} \parallel q_\theta)$ (entspricht Supervised Fine-Tuning, SFT).
Reverse-KL: $\min KL(q_\theta \parallel p_{target})$ (entspricht RL-Updates mit KL-Regularisierung).

Zudem werden zwei Formen des Vergessens definiert:

Mass Forgetting (Massenkollaps): Das optimale Mischgewicht $\beta^*$ kollabiert auf 0, d.h., das Modell vergisst das alte Verhalten vollständig, selbst wenn die Modellklasse es darstellen könnte.
Old-Component Drift: Das alte Mischgewicht bleibt erhalten ( $\beta > 0$ ), aber die Parameter der alten Komponente ( $\mu_o$ ) verschieben sich weg vom wahren Wert.

3. Wichtige Ergebnisse und Theoreme

A. Forward-KL (SFT) führt zu Massenkollaps

Ergebnis: Wenn Forward-KL nur auf neuen Daten ( $p = p_n$ ) trainiert wird, ist der eindeutige Minimierer $\beta^* = 0$ .
Mechanismus: Der Gradient bezüglich des Gewichts $\beta$ ist proportional zu $\beta - E_{p_n}[r_o(Y)]$ , wobei $r_o$ die Wahrscheinlichkeit ist, dass ein neues Datum dem alten Modus zugeordnet wird. Da die Modi gut getrennt sind, ist diese Zuordnungswahrscheinlichkeit exponentiell klein ( $\sim e^{-\delta^2/8}$ ). Der Gradient drückt $\beta$ daher monoton auf 0.
Replay-Effekt: Beim Forward-KL verhindert Replay nur dann Vergessen, wenn es die Trainingsverteilung selbst ändert (Zähler-Replay, d.h. alte Daten werden in den Datensatz gemischt). Wenn alte Daten nur im Modell (Nenner) gemischt werden, ändert dies das Populations-Optimum nicht; das Modell kollabiert immer noch, und das alte Gewicht wird nur durch eine externe „Boden"-Schranke erzwungen.

B. Reverse-KL (RL) vermeidet Kollaps und kontrolliert Drift

Ergebnis: Reverse-KL, optimiert auf eine Zielverteilung $p_\alpha$ , die explizit das alte Verhalten enthält, ist konsistent. Der globale Minimierer ist genau $(\beta^*, \mu_n^*) = (\alpha, \mu_n)$ . Es tritt kein Massenkollaps auf.
Drift-Kontrolle: Selbst wenn das alte Modell korrekt ist ( $\mu_o = \mu_o^{true}$ ), erzeugt der Gradient für $\mu_o$ nur eine Verschiebung, die durch Fehlzuordnungswahrscheinlichkeiten (Misassignment Probabilities) gesteuert wird.
Quantifizierung: Diese Fehlzuordnungen werden durch den Bhattacharyya-Koeffizienten begrenzt, der exponentiell mit dem Quadrat der Mahalanobis-Distanz $\delta$ abfällt ( $\sim e^{-\delta^2/8}$ ). In gut getrennten Szenarien ist der Drift also vernachlässigbar klein.
Konvergenz: Die Reverse-KL-Objektivfunktion zeigt in der Nähe des Optimums eine lokale Polyak-Łojasiewicz (PL)-Geometrie, was exponentielle Konvergenz unter Gradientenfluss garantiert.

C. Rolle von Replay (Wiedergabe alter Daten)

Bei Forward-KL: Replay muss die Datenverteilung ändern, um das Optimum zu verschieben.
Bei Reverse-KL: Replay ändert das Populations-Optimum nicht, verhindert aber ein stochastisches „Verhungern" (Starvation) des alten Modus in Minibatches. Durch das Mischen alter Daten in die Stichprobenverteilung (mit begrenzten Importance Weights) wird sichergestellt, dass alte Modi auch bei kleinem $\beta$ in jedem Batch sichtbar bleiben, ohne die Erwartungswerte des Gradienten zu verzerren.

D. Analyse moderner Near-On-Policy-Methoden

Die Autoren wenden ihre Analyse auf drei aktuelle Methoden an:

SDFT (Self-Distillation Fine-Tuning): Verhält sich wie ein Reverse-KL-Update gegenüber einem sich entwickelnden Lehrer. Verhindert Kollaps, wenn der Demonstrator stark genug ist, und kontrolliert den Drift durch die Überlappung.
TTT-Discover: Nutzt eine entropische Belohnungsfunktion. Ohne starken KL-Anker (Reference Policy) kann es zum Kollaps kommen, wenn der neue Modus höhere Belohnung verspricht. Der Drift korrekter alter Modi bleibt jedoch durch Überlappung kontrolliert.
OAPL (Optimal Advantage Regression): Arbeitet mit einer eingefrorenen Referenzpolitik. Kann nur Modi bewahren oder neu gewichten, die bereits in der Referenz vorhanden sind. Die Updates sind geometrisch lokal, und der Einfluss zwischen Modi ist exponentiell klein.

4. Signifikanz und Beiträge

Prinzipielle Unterscheidung: Das Paper liefert eine klare theoretische Trennung zwischen Forward-KL (SFT) und Reverse-KL (RL) in Bezug auf Vergessen. Forward-KL neigt bei neuen Daten zu massivem Vergessen, während Reverse-KL inhärent stabil ist.
Quantitative Metriken: Die Arbeit quantifiziert Vergessen nicht nur qualitativ, sondern liefert explizite Schranken, die exponentiell von der Distanz zwischen den Aufgaben ( $\delta$ ) abhängen.
Rolle von Replay: Es wird gezeigt, dass Replay in SFT und RL fundamental unterschiedliche Rollen spielt (Änderung des Ziels vs. Stabilisierung der Stochastik).
Erweiterbarkeit: Die Ergebnisse werden auf allgemeine $f$ -Divergenzen und stark log-konkave Verteilungsfamilien erweitert, was die Allgemeingültigkeit der Schlussfolgerungen unterstreicht.

Fazit

Die Arbeit zeigt, dass Vergessen in generativen Modellen präzise durch die Interaktion von Divergenzrichtung, geometrischer Überlappung der Modi und dem Sampling-Regime quantifiziert werden kann. Reverse-KL-basierte Ansätze (wie RL mit KL-Regularisierung) bieten eine natürliche Garantie gegen katastrophales Vergessen, solange die Zielverteilung das alte Verhalten explizit enthält und die Modi hinreichend getrennt sind. Forward-KL-basierte Ansätze (SFT) erfordern hingegen zwingend das Mischen alter Daten in den Trainingsdatensatz, um Vergessen zu verhindern.