Grow, Don't Overwrite: Fine-tuning Without Forgetting

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein genialer Koch, der ein riesiges Kochbuch mit tausenden Rezepten für alles Mögliche besitzt – von der perfekten Pizza bis hin zu komplexen französischen Saucen. Dieses Buch ist dein vortrainiertes Modell. Es kann fast alles.

Jetzt möchtest du ein neues, sehr spezifisches Rezept lernen: wie man Quantenphysik-Gerichte kocht.

Das Problem, das in diesem Papier beschrieben wird, nennt sich „Katastrophisches Vergessen". Wenn du versuchst, dieses neue Rezept zu lernen, indem du einfach alte Seiten in deinem Kochbuch überschreibst oder die Tinte übermalst, passiert Folgendes: Du lernst zwar das neue Quanten-Rezept, aber dabei vergisst du plötzlich, wie man eine Pizza backt oder wie man Eier kocht. Dein Wissen wird überschrieben.

Bisherige Methoden waren wie ein Dilemma:

Alles neu lernen: Du schreibst das neue Rezept auf ein leeres Blatt, vergisst aber dabei alles Alte (weil du dich nur aufs Neue konzentrierst).
Alles schützen: Du klebst das neue Rezept vorsichtig daneben, aber du darfst den Rest des Buches nicht anfassen. Das Problem: Du kannst das neue Rezept dann nicht richtig mit deinem alten Wissen verknüpfen, und es schmeckt nicht so gut.

Die Autoren dieses Papiers haben eine geniale Lösung gefunden, die sie „Grow, Don't Overwrite" (Wachsen, nicht überschreiben) nennen.

Die Lösung: Ein erweiterbares Kochbuch

Stell dir vor, dein Kochbuch hat eine magische Eigenschaft. Anstatt eine Seite zu überschreiben, kopierst du eine ganze Seite und fügst sie als neue Seite ein.

Hier ist der Trick, wie sie das technisch (aber einfach erklärt) machen:

Verdoppeln: Wenn du eine neue Fähigkeit lernen willst, verdoppeln sie den Platz für die „Zubereitungsschritte" (die sogenannten MLP-Schichten im neuronalen Netz). Sie nehmen die alten Anweisungen und kopieren sie.
Der Zaubertrick (Skalierung): Damit das Buch am Ende genau so funktioniert wie vorher (damit du die Pizza immer noch perfekt backen kannst), halbieren sie die Anweisungen auf der neuen Seite.
- Analogie: Stell dir vor, du hast zwei Köche, die genau das Gleiche tun. Wenn du beide gleichzeitig arbeiten lässt, wäre das Ergebnis doppelt so groß. Also sagt der Chef: „Macht beide nur zur Hälfte so viel." Das Ergebnis ist exakt dasselbe wie mit einem einzigen Koch.
Das Ergebnis: In diesem Moment ist dein Buch mathematisch identisch mit dem alten. Du hast mehr Platz, aber das Ergebnis ist genau dasselbe. Niemand merkt einen Unterschied.

Jetzt kommt der eigentliche Lernprozess

Da du jetzt diesen extra Platz (die kopierte Seite) hast, kannst du darauf das neue Quanten-Rezept schreiben, ohne das alte zu berühren.

G-Freeze (Die sichere Variante): Du trainierst nur die neuen, kopierten Seiten. Das alte Wissen bleibt unberührt und perfekt erhalten. Du lernst das Neue, ohne das Alte zu vergessen.
G-Train (Die mutige Variante): Bei sehr schwierigen Aufgaben (wie Mathe oder komplexer Logik) erlauben sie, dass auch die alten Seiten leicht angepasst werden, aber nur in einer bestimmten Richtung, die das Grundwissen nicht zerstört.

Warum ist das so toll?

Kein Vergessen mehr: Das Papier zeigt, dass man mit dieser Methode neue Aufgaben perfekt lernen kann, während die alten Fähigkeiten (wie Mathe oder Sprache) zu 100 % erhalten bleiben. Es gibt keinen Kompromiss mehr.
Effizienz: Man muss nicht das ganze Buch neu schreiben. Oft reicht es, nur ein paar wenige Seiten (bestimmte Schichten im Netzwerk) zu erweitern, um das gleiche Ergebnis zu erzielen wie beim kompletten Umbau. Das spart enorm viel Rechenleistung und Zeit.
Modularität: Es ist wie ein Baukasten. Du kannst entscheiden, welche Teile des Gehirns (welche Schichten) wachsen sollen, je nachdem, was du lernen musst.

Zusammenfassung in einem Satz

Statt dein Gehirn (das Modell) zu überlasten und alte Erinnerungen zu löschen, wenn du etwas Neues lernst, baust du einfach einen neuen Anbau an dein Haus an, der perfekt mit dem alten verbunden ist. Du kannst dort neue Dinge tun, ohne dass das Wohnzimmer (dein Grundwissen) auch nur einen Zentimeter verrutscht.

Das Papier beweist also: Man kann klüger werden, ohne dümmer zu werden. Man muss nicht wählen zwischen „Experte im Neuen" und „Allrounder im Alten". Mit dieser Methode kann man beides gleichzeitig sein.

Each language version is independently generated for its own context, not a direct translation.

Titel: Grow, Don't Overwrite: Feinabstimmung ohne Vergessen (Fine-tuning Without Forgetting)

Autoren: Dyah Adila et al. (University of Wisconsin-Madison & Google Research)

1. Das Problem: Katastrophales Vergessen

Das zentrale Problem, das in diesem Paper adressiert wird, ist das katastrophale Vergessen (Catastrophic Forgetting) bei der Feinabstimmung (Fine-tuning) vortrainierter Sprachmodelle auf neue, spezialisierte Aufgaben.

Phänomen: Wenn ein Modell auf einer neuen Aufgabe trainiert wird, überschreiben die Standard-Optimierungsverfahren die Parameter des Modells. Dies führt dazu, dass das Modell fundamentale Fähigkeiten verliert, die es während des Vortrainings erworben hat (z. B. verliert ein auf Quantenphysik spezialisiertes Modell möglicherweise seine Fähigkeit zur einfachen Arithmetik).
Bestehende Lösungen & deren Mängel:
- Regularisierung: Versucht, das Modell nahe am ursprünglichen Zustand zu halten, führt jedoch zu einem Nullsummenspiel: Ressourcen für das Behalten alter Kenntnisse gehen zu Lasten des Lernens neuer Fähigkeiten.
- Kapazitätsvergrößerung (Capacity Growth): Fügt neue Parameter hinzu, während das alte Modell eingefroren wird. Bisherige Methoden scheitern jedoch an einem Dilemma: Entweder werden zufällig initialisierte Module hinzugefügt (ineffizient, da Vorkenntnisse ignoriert werden) oder vortrainierte Gewichte werden wiederverwendet, was jedoch die funktionserhaltende Bedingung (function-preserving) verletzt und zu instabilem Training führt.

2. Methodik: Funktionserhaltende Expansion

Die Autoren stellen eine neuartige Methode vor, die die Kapazität des Modells erweitert, ohne die ursprüngliche Funktion zu verändern. Der Ansatz basiert auf der Erweiterung der MLP-Submodule (Multi-Layer Perceptrons) innerhalb der Transformer-Architektur.

Der Kernprozess:

Duplizierung der Up-Projection: Die innere Dimension des MLP wird verdoppelt, indem die Gewichtsmatrix der Up-Projection-Schicht ( $W^{(1)}$ $W^{(1)}$ ) horizontal dupliziert wird.
- Transformation: $W^{(1)}_{h \times p} \rightarrow \hat{W}^{(1)}_{h \times 2p} = [W^{(1)} \mid W^{(1)}]$
Kompensatorische Skalierung der Down-Projection: Um sicherzustellen, dass die Ausgabe des MLP-Submoduls exakt gleich bleibt, wird die Down-Projection-Matrix ( $W^{(2)}$ $W^{(2)}$ ) vertikal dupliziert und mit dem Faktor $1/2$ skaliert.
- Transformation: $W^{(2)}_{p \times h} \rightarrow \hat{W}^{(2)}_{2p \times h} = \begin{bmatrix} 0.5 \cdot W^{(2)} \\ 0.5 \cdot W^{(2)} \end{bmatrix}$
Mathematische Äquivalenz: Durch diese Konstruktion ist die Ausgabe des erweiterten Modells bei Initialisierung mathematisch identisch mit der des ursprünglichen Modells:
$[Y \mid Y] \cdot \begin{bmatrix} 0.5 \cdot W^{(2)} \\ 0.5 \cdot W^{(2)} \end{bmatrix} = 0.5 \cdot Y W^{(2)} + 0.5 \cdot Y W^{(2)} = Y W^{(2)}$

Feinabstimmungs-Strategien:

G-Freeze (Standard): Nur die neu hinzugefügten Gewichte werden trainiert; die ursprünglichen Parameter bleiben eingefroren. Dies garantiert maximale Stabilität.
G-Train: Für komplexe Aufgaben (z. B. Mathematik) wird die gesamte erweiterte Up-Projection-Matrix trainiert, während die Down-Projection eingefroren bleibt. Dies basiert auf der Annahme, dass faktisches Wissen in der Down-Projection lokalisiert ist.

Modularität: Es ist nicht notwendig, das gesamte Netzwerk zu erweitern. Das Paper zeigt, dass das gezielte Erweitern einer kleinen Teilmenge von Schichten (basierend auf der Magnitude der Gewichtsaktualisierung) ausreicht, um die Leistung einer vollständigen Expansion zu erreichen.

3. Schlüsselbeiträge

Neue Methode: Eine funktionserhaltende Netzwerk-Expansionsmethode, die vortrainiertes Wissen wiederverwendet, um neue Fähigkeiten zu lernen.
Eliminierung des Trade-offs: Die Methode erreicht die Leistung des vollständigen Fine-tunings auf neuen Aufgaben, beseitigt jedoch gleichzeitig das katastrophale Vergessen vollständig.
Effizienz: Durch das gezielte Erweitern nur einer Teilmenge von Schichten wird der Rechenaufwand erheblich reduziert (Trainieren von nur ~30% der Parameter statt ~60% bei voller Expansion und 100% bei Standard-Fine-tuning).

4. Ergebnisse

Die Experimente wurden an Modellen der Größe Gemma-1B und Gemma-4B durchgeführt und umfassten Aufgaben wie Übersetzung, wissenschaftliche Schlussfolgerung (Entailment), Frage-Antwort und Mathematik.

Kein Vergessen: Im Gegensatz zum Standard-Fine-tuning (das bei großen Domänenverschiebungen wie Übersetzung die Leistung auf der Ursprungsaufgabe auf fast Null fallen lässt), behält die vorgeschlagene Methode die ursprünglichen Fähigkeiten nahezu perfekt bei.
Leistungsgleichheit: Die Methode erreicht auf neuen Aufgaben eine Leistung, die mit dem vollständigen Fine-tuning (SFT) gleichzieht oder diese sogar übertrifft.
Skalierbarkeit: Die Leistung auf neuen Aufgaben korreliert positiv mit der Anzahl der erweiterten Schichten. Komplexe Aufgaben (wie MathQA) profitieren stärker von einer größeren Erweiterung als einfachere Aufgaben.
Repräsentationsstabilität: Mithilfe von Function Vectors (FVs) wurde gezeigt, dass die interne Darstellung des Modells erhalten bleibt. Während SFT die Ähnlichkeit der FVs drastisch reduziert (von 0,95 auf 0,28), bleibt sie bei der neuen Methode hoch (0,95), was beweist, dass die neuronalen Schaltkreise für die ursprünglichen Aufgaben intakt bleiben.
Vergleich mit Alternativen:
- Eine naive Erweiterung mit Null-Initialisierung führt entweder zu schlechtem Lernen (wenn alles trainiert wird) oder zu Vergessen (wenn nur Neues trainiert wird).
- Das Erweitern von Attention-Schichten ist weniger effektiv als das Erweitern von MLP-Schichten.

5. Bedeutung und Fazit

Dieses Paper schließt eine kritische Lücke in der Literatur zum Continuous Learning und Fine-tuning von LLMs. Es beweist, dass der scheinbar unvermeidliche Kompromiss zwischen Plastizität (Lernen neuer Dinge) und Stabilität (Behalten alter Dinge) durch eine geschickte Architektur-Expansion umgangen werden kann.

Die Methode ist besonders relevant für:

Spezialisierte Anwendungen: Ermöglicht die Anpassung von Modellen auf hochspezialisierte Domänen (z. B. Medizin, Recht), ohne dass sie ihre allgemeinen Fähigkeiten verlieren.
Ressourceneffizienz: Da nur ein Teil der Parameter trainiert werden muss, ist die Methode deutlich kostengünstiger als das vollständige Fine-tuning.
Zukunftsfähigkeit: Sie bietet einen Weg, Modelle kontinuierlich zu erweitern, ohne dass sie bei jeder neuen Aufgabe neu trainiert oder durch Rehearsal-Daten (Wiederholung alter Daten) überlastet werden müssen.

Zusammenfassend bietet „Grow, Don't Overwrite" einen eleganten mathematischen Rahmen, der es Modellen erlaubt, zu wachsen, anstatt ihre Vergangenheit zu überschreiben.

Grow, Don't Overwrite: Fine-tuning Without Forgetting

Die Lösung: Ein erweiterbares Kochbuch

Jetzt kommt der eigentliche Lernprozess

Warum ist das so toll?

Zusammenfassung in einem Satz

Titel: Grow, Don't Overwrite: Feinabstimmung ohne Vergessen (Fine-tuning Without Forgetting)

1. Das Problem: Katastrophales Vergessen

2. Methodik: Funktionserhaltende Expansion

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions