Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – auf Deutsch und mit ein paar bildhaften Vergleichen.

Das große Problem: Lernen und Vergessen

Stell dir vor, ein großes Sprachmodell (ein KI-„Gehirn") ist wie ein allwissender Bibliothekar. Dieser Bibliothekar kennt die Weltgeschichte, kann Gedichte aufsagen und Bilder beschreiben. Er hat alles in seiner Bibliothek (dem „Vorwissen") gespeichert.

Nun wollen wir ihm eine ganz neue Fähigkeit beibringen: Ein Puzzle aus 9 Teilen zusammenzusetzen, das er noch nie gesehen hat.

Es gibt zwei Methoden, um ihm das beizubringen:

SFT (Supervised Fine-Tuning): Der Lehrer (wir) gibt dem Bibliothekar die Lösung direkt vor. „Schau her, das ist die richtige Reihenfolge!" Wir zeigen ihm tausende Male die fertige Lösung.
RFT (Reinforcement Fine-Tuning): Der Bibliothekar darf selbst probieren. Er legt die Teile hin, macht Fehler, bekommt ein Lob, wenn es passt, und eine Strafe, wenn es nicht passt. Er lernt durch Versuch und Irrtum.

Was die Forscher herausfanden

Die Forscher (von der Universität Fudan) haben etwas Überraschendes entdeckt:

Die schnelle Methode (SFT): Der Bibliothekar lernt das Puzzle sehr schnell. Nach ein paar Stunden kann er es perfekt lösen. Aber der Preis ist hoch: Er vergisst fast alles andere! Seine alte Bibliothek wird verwüstet. Er kann plötzlich keine Gedichte mehr aufsagen oder Bilder nicht mehr beschreiben. Es ist, als würde er, um das Puzzle zu lernen, die Wände seiner Bibliothek einreißen, um Platz für die Puzzle-Teile zu schaffen.
Die langsame Methode (RFT): Der Bibliothekar braucht viel länger, um das Puzzle zu lernen. Er stolpert oft. Aber am Ende kann er das Puzzle genauso gut lösen wie der andere – und seine alte Bibliothek bleibt intakt! Er hat das neue Wissen hinzugefügt, ohne das Alte zu zerstören.

Warum ist das so? (Die Geheimnisse der Daten)

Die Forscher haben sich gefragt: Warum ist das so? Es liegt nicht an der Methode selbst, sondern an den Daten, mit denen gelernt wird.

1. Der Unterschied zwischen „Vorgabe" und „Selbstentdeckung"

Bei SFT (Die harte Vorgabe): Wenn wir dem Modell die Lösung direkt geben (ohne dass es selbst nachdenkt), ist das wie ein Befehl, der gegen seinen bisherigen Charakter verstößt. Das Gehirn muss sich komplett umstrukturieren, um diese neue, fremde Information aufzunehmen. Das stört die alten Verbindungen (das Vorwissen) massiv.
Bei RFT (Die sanfte Entdeckung): Wenn das Modell selbst Lösungen findet (durch Ausprobieren), sucht es nach Wegen, die zu seinem bisherigen Wissen passen. Es findet „Lücken" in seinem eigenen Verständnis, die es füllen kann, ohne die alten Strukturen zu brechen.

2. Die Analogie des „Wegs im Wald"

Stell dir das Wissen des Modells als einen Wald vor.

SFT versucht, einen neuen Weg durch den Wald zu bahnen, indem es einfach Bäume umhaut und den Boden aufreißt. Das ist schnell, aber der Wald sieht danach verwüstet aus.
RFT lässt das Modell selbst durch den Wald laufen. Es findet natürliche Pfade, die schon existieren (vielleicht kleine Trampelpfade, die es vorher nicht beachtet hat). Es nutzt diese bestehenden Pfade, um zum Ziel zu kommen. Der Wald bleibt erhalten.

Die wichtigste Erkenntnis: Die Daten sind der Schlüssel

Das Coolste an der Studie ist, dass sie bewiesen haben: Es liegt am Algorithmus, sondern an den Daten.

Die Forscher haben einen Trick ausprobiert:
Sie haben das Modell erst mit der langsamen, guten Methode (RFT) trainiert, bis es das Puzzle konnte. Dann haben sie genau diese Lösungen (die das Modell selbst gefunden hat) gesammelt und damit das Modell mit der schnellen Methode (SFT) trainiert.

Das Ergebnis?
Das Modell lernte das Puzzle schnell (wie bei SFT), vergaß aber nicht das Alte (wie bei RFT)!

Das bedeutet: Wenn wir dem Modell Daten geben, die natürlich zu seinem bisherigen Denken passen (also Daten, die es selbst „erzeugt" hat, statt von Menschen vorgeschrieben), können wir es schnell lernen lassen, ohne dass es vergisst.

Fazit für die Zukunft

Diese Forschung sagt uns:
Wenn wir KI-Modelle weiterentwickeln wollen, sollten wir nicht nur an besseren Algorithmen schrauben. Wir müssen bessere Daten finden.

Statt dem Modell einfach nur die Antworten zu geben, sollten wir es dazu bringen, selbst zu denken und Lösungen zu finden, die zu seinem bisherigen Wissen passen. So können wir KI-Modelle bauen, die immer mehr lernen, ohne dabei ihre alte Weisheit zu verlieren.

Kurz gesagt:

SFT (Direkte Anleitung): Schnell, aber zerstört das Alte.
RFT (Selbstentdeckung): Langsam, aber schont das Alte.
Der Geheimtipp: Nutze die Lösungen aus der „Selbstentdeckung", um das Modell mit der „Direkten Anleitung" zu trainieren. So bekommst du das Beste aus beiden Welten: Schnelles Lernen ohne Vergessen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „WHY REINFORCEMENT FINE-TUNING PRESERVES PRIOR KNOWLEDGE BETTER: A DATA PERSPECTIVE" auf Deutsch:

1. Problemstellung

Das Paper adressiert das kritische Problem des katastrophalen Vergessens (Catastrophic Forgetting) bei Large Language Models (LLMs) und Multimodalen Large Language Models (MLLMs) während des Post-Trainings. Während Algorithmen wie Supervised Fine-Tuning (SFT) und Reinforcement Fine-Tuning (RFT) effektiv sind, um Modelle an neue Downstream-Aufgaben anzupassen, ist unklar, wie stark sie das bereits erlernte Vorwissen (Prior Knowledge) beeinträchtigen.
Bisherige Studien konzentrieren sich oft nur auf die Leistungssteigerung in der neuen Aufgabe, vernachlässigen aber den Verlust von Fähigkeiten in anderen Bereichen. Das Paper stellt die Frage: Warum führt SFT oft zu einem massiven Verlust an Vorwissen, während RFT dies vermeidet, obwohl beide Methoden die Wahrscheinlichkeit korrekter Antworten erhöhen?

2. Methodik

A. Neue Evaluierungsaufgabe: Jigsaw Puzzles

Um einen fairen und echten Test für das Erlernen völlig neuer Aufgaben zu schaffen, führen die Autoren Jigsaw-Puzzles (Puzzle aus Bildteilen) als neue Aufgabe ein.

Begründung: Vorab-Experimente zeigen, dass selbst state-of-the-art Modelle (z. B. GPT-4o, Qwen2.5-VL-72B) diese Aufgabe im Zero-Shot-Modus nicht lösen können (Accuracy nahe 0). Dies garantiert, dass das Wissen nicht aus dem Pre-Training stammt, sondern neu gelernt werden muss.
Aufgabenstellung: Ein Bild wird in 9 Teile zerlegt und zufällig gemischt. Das Modell muss die korrekte Reihenfolge der Teile (0-8) bestimmen.

B. Experimentelles Setup

Die Autoren fine-tunen die Open-Source-Modelle Qwen2.5-VL-3B und Qwen2.5-VL-7B (sowie reine LLMs Qwen2.5-Instruct für Mathematik-Aufgaben) mit drei verschiedenen Datensatz-Strategien:

SFT-Non-Rea: Klassisches SFT mit direkten Antworten ohne Denkprozess.
SFT-Rea-4o-Rollout: SFT mit Antworten, die von GPT-4o generiert wurden (inklusive Chain-of-Thought/Reasoning).
RFT (GRPO): Reinforcement Fine-Tuning mit dem GRPO-Algorithmus (Group Relative Policy Optimization), bei dem das Modell selbst Rollouts generiert und durch regelbasierte Belohnungen (Hit-Reward, Accuracy-Reward, Format-Reward) optimiert wird.
SFT-Rea-GRPO-Rollout: Ein hybrider Ansatz, bei dem SFT auf den korrekten Rollouts des RFT-Modells trainiert wird.

C. Theoretische Analyse: Lern-Dynamik (Learning Dynamics)

Um das Phänomen zu erklären, nutzen die Autoren die Theorie der Lern-Dynamik (basierend auf Ren & Sutherland, 2024). Sie analysieren, wie ein einzelnes Trainingsbeispiel $x_u$ die Wahrscheinlichkeit eines anderen Beispiels $x_v$ (repräsentierend für altes Wissen) beeinflusst.

Interferenz-Messung: Sie verwenden die empirische Neuronale Tangenten-Kernel (eNTK)-Norm, um die Stärke der Interferenz zwischen neuem und altem Wissen zu quantifizieren.
Symmetrie-Eigenschaft: Sie nutzen die Symmetrie der Lern-Dynamik, um zu zeigen, dass das Training auf Daten, die dem Modell bereits vertraut sind (niedrige Perplexität), weniger störend für das alte Wissen ist.

3. Wichtige Beiträge

Entlarvung der Datenverteilung als Hauptursache: Das Paper zeigt, dass nicht der Algorithmus (SFT vs. RFT) an sich das Vergessen verursacht, sondern die Verteilung der Trainingsdaten. RFT vermeidet Vergessen, weil es Daten generiert, die besser mit der Wahrscheinlichkeitslandschaft des Basis-Modells übereinstimmen.
Rolle des Reasoning (Denkprozesses): Die Einführung expliziter Reasoning-Pfade (Chain-of-Thought) in SFT reduziert das Vergessen im Vergleich zu reinen Antworten, aber nicht so stark wie RFT.
Hybrider Ansatz (RFT-generiertes SFT): Ein zentraler Befund ist, dass SFT, das auf den selbst generierten, korrekten Rollouts eines RFT-Modells trainiert wird, die Geschwindigkeit von SFT mit der Stabilität von RFT kombiniert. Dies erreicht hohe Genauigkeit in der neuen Aufgabe bei minimalem Verlust an Vorwissen.
Theoretische Erklärung durch Perplexität und eNTK:
- Perplexität: RFT-Daten liegen in Bereichen niedriger Perplexität des Basis-Modells (das Modell „versteht" sie bereits teilweise), während GPT-4o-generierte Daten oft in Bereichen hoher Perplexität liegen.
- eNTK-Norm: Daten mit Reasoning-Pfaden und niedriger Perplexität zeigen eine geringere eNTK-Norm in Bezug auf altes Wissen, was eine schwächere Interferenz und weniger Vergessen bedeutet.

4. Ergebnisse

Leistung auf neuen Aufgaben:
- SFT lernt extrem schnell (wenige hundert Schritte), erreicht aber oft nur eine moderate Genauigkeit auf Jigsaw-Puzzles und führt zu katastrophalem Vergessen.
- RFT benötigt deutlich mehr Trainingsschritte (Zehntausende), lernt aber die Aufgabe von Grund auf neu und erreicht hohe Genauigkeit, ohne das Vorwissen zu zerstören.
Vergessen von Vorwissen:
- SFT-Non-Rea führt zu massiven Einbrüchen in Benchmarks für Grounding, OCR und allgemeines VQA (z. B. Rückgang der RefCOCO-Accuracy um >50%).
- SFT-Rea-4o-Rollout (mit GPT-4o-Daten) ist besser als Non-Rea, forgettet aber immer noch signifikant mehr als RFT.
- RFT und SFT-Rea-GRPO-Rollout behalten die Leistung in alten Aufgaben (Grounding, Math, OCR) fast auf dem Niveau des Basis-Modells bei.
Validierung: Die Ergebnisse wurden nicht nur auf multimodalen Jigsaw-Puzzles, sondern auch auf reinen LLM-Aufgaben (Mathematisches Reasoning mit Open-Reasoner-Zero-Daten und wissenschaftliche Multiple-Choice-Fragen) bestätigt. Die Hierarchie des Vergessens bleibt konsistent: Non-Rea > Rea-4o > Rea-GRPO.

5. Bedeutung und Fazit

Das Paper liefert einen paradigmatischen Wechsel in der Betrachtung von Post-Training:

Daten über Algorithmen: Die Stabilität des Lernens hängt primär von der Qualität und Verteilung der Trainingsdaten ab, nicht allein von der Wahl des Optimierungsalgorithmus.
RFT als Daten-Generator: RFT ist nicht nur ein Trainingsverfahren, sondern ein effektiver Mechanismus, um „sichere" Trainingsdaten zu generieren, die das Modell bereits teilweise kennt (niedrige Perplexität).
Praktische Implikation: Um katastrophales Vergessen zu vermeiden, sollte SFT nicht auf manuell kuratierten oder extern generierten Daten basieren, sondern auf selbstgenerierten Rollouts (aus RFT oder kurzen RFT-Phasen), die Reasoning-Pfade enthalten. Dies ermöglicht eine stabile kontinuierliche Weiterentwicklung von Modellen, ohne dass das Basiswissen verloren geht.

Zusammenfassend zeigt die Arbeit, dass Reinforcement Fine-Tuning durch die natürliche Entdeckung von linguistischen Regionen, die mit dem Vorwissen des Modells kompatibel sind, eine stabile Lernumgebung schafft, die SFT durch die Verwendung externer, hoch-perplexer Daten nicht bieten kann.