Grow, Don't Overwrite: Fine-tuning Without Forgetting

Die vorgestellte Arbeit führt eine neuartige Methode zur funktionserhaltenden Erweiterung von Transformer-Modellen ein, die durch das replizieren und skalieren von Parametern das Vergessen ursprünglicher Fähigkeiten verhindert und gleichzeitig die Leistung bei neuen Aufgaben ohne Kompromisse erreicht.

Dyah Adila, Hanna Mazzawi, Benoit Dherin, Xavier Gonzalvo

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein genialer Koch, der ein riesiges Kochbuch mit tausenden Rezepten für alles Mögliche besitzt – von der perfekten Pizza bis hin zu komplexen französischen Saucen. Dieses Buch ist dein vortrainiertes Modell. Es kann fast alles.

Jetzt möchtest du ein neues, sehr spezifisches Rezept lernen: wie man Quantenphysik-Gerichte kocht.

Das Problem, das in diesem Papier beschrieben wird, nennt sich „Katastrophisches Vergessen". Wenn du versuchst, dieses neue Rezept zu lernen, indem du einfach alte Seiten in deinem Kochbuch überschreibst oder die Tinte übermalst, passiert Folgendes: Du lernst zwar das neue Quanten-Rezept, aber dabei vergisst du plötzlich, wie man eine Pizza backt oder wie man Eier kocht. Dein Wissen wird überschrieben.

Bisherige Methoden waren wie ein Dilemma:

  1. Alles neu lernen: Du schreibst das neue Rezept auf ein leeres Blatt, vergisst aber dabei alles Alte (weil du dich nur aufs Neue konzentrierst).
  2. Alles schützen: Du klebst das neue Rezept vorsichtig daneben, aber du darfst den Rest des Buches nicht anfassen. Das Problem: Du kannst das neue Rezept dann nicht richtig mit deinem alten Wissen verknüpfen, und es schmeckt nicht so gut.

Die Autoren dieses Papiers haben eine geniale Lösung gefunden, die sie „Grow, Don't Overwrite" (Wachsen, nicht überschreiben) nennen.

Die Lösung: Ein erweiterbares Kochbuch

Stell dir vor, dein Kochbuch hat eine magische Eigenschaft. Anstatt eine Seite zu überschreiben, kopierst du eine ganze Seite und fügst sie als neue Seite ein.

Hier ist der Trick, wie sie das technisch (aber einfach erklärt) machen:

  1. Verdoppeln: Wenn du eine neue Fähigkeit lernen willst, verdoppeln sie den Platz für die „Zubereitungsschritte" (die sogenannten MLP-Schichten im neuronalen Netz). Sie nehmen die alten Anweisungen und kopieren sie.
  2. Der Zaubertrick (Skalierung): Damit das Buch am Ende genau so funktioniert wie vorher (damit du die Pizza immer noch perfekt backen kannst), halbieren sie die Anweisungen auf der neuen Seite.
    • Analogie: Stell dir vor, du hast zwei Köche, die genau das Gleiche tun. Wenn du beide gleichzeitig arbeiten lässt, wäre das Ergebnis doppelt so groß. Also sagt der Chef: „Macht beide nur zur Hälfte so viel." Das Ergebnis ist exakt dasselbe wie mit einem einzigen Koch.
  3. Das Ergebnis: In diesem Moment ist dein Buch mathematisch identisch mit dem alten. Du hast mehr Platz, aber das Ergebnis ist genau dasselbe. Niemand merkt einen Unterschied.

Jetzt kommt der eigentliche Lernprozess

Da du jetzt diesen extra Platz (die kopierte Seite) hast, kannst du darauf das neue Quanten-Rezept schreiben, ohne das alte zu berühren.

  • G-Freeze (Die sichere Variante): Du trainierst nur die neuen, kopierten Seiten. Das alte Wissen bleibt unberührt und perfekt erhalten. Du lernst das Neue, ohne das Alte zu vergessen.
  • G-Train (Die mutige Variante): Bei sehr schwierigen Aufgaben (wie Mathe oder komplexer Logik) erlauben sie, dass auch die alten Seiten leicht angepasst werden, aber nur in einer bestimmten Richtung, die das Grundwissen nicht zerstört.

Warum ist das so toll?

  1. Kein Vergessen mehr: Das Papier zeigt, dass man mit dieser Methode neue Aufgaben perfekt lernen kann, während die alten Fähigkeiten (wie Mathe oder Sprache) zu 100 % erhalten bleiben. Es gibt keinen Kompromiss mehr.
  2. Effizienz: Man muss nicht das ganze Buch neu schreiben. Oft reicht es, nur ein paar wenige Seiten (bestimmte Schichten im Netzwerk) zu erweitern, um das gleiche Ergebnis zu erzielen wie beim kompletten Umbau. Das spart enorm viel Rechenleistung und Zeit.
  3. Modularität: Es ist wie ein Baukasten. Du kannst entscheiden, welche Teile des Gehirns (welche Schichten) wachsen sollen, je nachdem, was du lernen musst.

Zusammenfassung in einem Satz

Statt dein Gehirn (das Modell) zu überlasten und alte Erinnerungen zu löschen, wenn du etwas Neues lernst, baust du einfach einen neuen Anbau an dein Haus an, der perfekt mit dem alten verbunden ist. Du kannst dort neue Dinge tun, ohne dass das Wohnzimmer (dein Grundwissen) auch nur einen Zentimeter verrutscht.

Das Papier beweist also: Man kann klüger werden, ohne dümmer zu werden. Man muss nicht wählen zwischen „Experte im Neuen" und „Allrounder im Alten". Mit dieser Methode kann man beides gleichzeitig sein.