Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Each language version is independently generated for its own context, not a direct translation.

Waarom Reinforcement Fine-Tuning (RFT) beter is voor het onthouden van oude kennis: Een verhaal over puzzels en hersenen

Stel je voor dat je een zeer slimme robot hebt die alles over de wereld weet: hij kan rekenen, teksten begrijpen en zelfs foto's analyseren. Dit is een "Large Language Model" (LLM). Nu wil je deze robot een nieuwe vaardigheid leren: puzzels oplossen. Maar hier is het probleem: als je de robot te hard traint op deze nieuwe puzzels, vergeet hij vaak alles wat hij daarvoor al wist. Dit noemen we "catastrophic forgetting" (catastrofaal vergeten).

De onderzoekers van deze paper hebben uitgezocht waarom dit gebeurt en hoe je het kunt voorkomen. Ze vergelijken twee methoden om de robot te trainen: SFT (Supervised Fine-Tuning) en RFT (Reinforcement Fine-Tuning).

Hier is de uitleg in simpele taal, met behulp van een paar creatieve metaforen:

1. De Twee Trainingsmethoden: De Leraar vs. De Ontdekker

Stel je voor dat je een student moet leren een ingewikkeld raadsel op te lossen.

SFT (De Leraar die het antwoord voorschrijft):
Bij deze methode geef je de student direct het juiste antwoord en de oplossing. "Kijk, het antwoord is 2, 1, 3..." De student leert dit heel snel door het antwoord uit het hoofd te leren.
- Het probleem: Omdat de student het antwoord simpelweg "uit het hoofd leert" zonder echt na te denken, begint hij zijn oude kennis te verdringen. Het is alsof je een nieuw, felgekleurd schilderij op de muur hangt, maar je vergeet de oude foto's die daarvoor hingen. De nieuwe informatie is zo dominant dat de oude kennis verdwijnt.
RFT (De Ontdekker die zelf probeert):
Bij deze methode laat je de robot zelf proberen het raadsel op te lossen. Hij probeert, maakt fouten, en krijgt een beloning als hij het goed doet. Hij moet zelf nadenken over hoe de stukjes passen.
- Het voordeel: Dit duurt langer en kost meer tijd, maar omdat de robot zelf de oplossing heeft gevonden, bouwt hij deze nieuwe kennis op op wat hij al wist. Hij "ontdekt" een nieuwe weg die aansluit bij zijn bestaande kennis. Hij vergeet zijn oude vaardigheden niet, omdat hij ze nodig heeft om de nieuwe weg te vinden.

2. De Puzzel: Een Nieuwe Taak die Niemand Kent

Om dit te testen, gebruikten de onderzoekers puzzels (jigsaw puzzles). Ze namen een foto, sneden hem in 9 stukjes, en hielden ze door elkaar. De taak voor de robot was om de stukjes in de juiste volgorde te leggen.

De verrassing: Zelfs de slimste robots (zoals GPT-4o) konden dit in het begin helemaal niet. Het was een taak die ze nog nooit hadden gezien.
Het resultaat: De robot die met de "Leraar-methode" (SFT) werd getraind, leerde de puzzel snel, maar verloor daarna zijn vermogen om tekst te begrijpen of objecten op foto's te vinden. De robot met de "Ontdekker-methode" (RFT) leerde de puzzel iets langzamer, maar bleef perfect zijn oude kennis behouden.

3. Het Geheim: Waarom werkt RFT beter?

De onderzoekers keken diep in de "hersenen" van de robot om te zien wat er gebeurt. Ze ontdekten twee belangrijke dingen:

A. De "Ruis" van de Data (De Geluidsdruk)

Stel je voor dat je in een drukke kamer zit.

Bij SFT (met antwoorden van een andere AI of mens) krijg je instructies die soms heel vreemd klinken voor de robot. Het zijn zinnen die de robot zelf nooit zou hebben bedacht. Het is alsof iemand in de kamer schreeuwt met een stem die totaal niet bij de robot past. Dit creëert veel "ruis" en verstoort de oude herinneringen.
Bij RFT genereert de robot zelf de oplossingen. Omdat hij zelf de antwoorden bedenkt, klinken deze instructies heel natuurlijk voor zijn eigen "brein". Het is alsof hij in zijn eigen taal spreekt. Er is minder ruis, en dus minder schade aan zijn oude kennis.

B. De "Vlakke Weg" vs. De "Berg"

De onderzoekers gebruikten een wiskundig concept om dit te verklaren: Perplexity (een maatstaf voor hoe "onverwacht" iets is voor de robot).

SFT-data (van GPT-4o) ligt vaak in een gebied dat voor de robot heel "onverwacht" is (hoge perplexity). Het is alsof je de robot dwingt om over een steile berg te klimmen waar hij niet aan gewend is. Dit kost veel energie en verstoort zijn evenwicht.
RFT-data ligt in een gebied dat de robot al kent (lage perplexity). Het is alsof hij een pad volgt dat al een beetje is uitgestippeld in zijn eigen brein. Hij hoeft niet alles opnieuw te leren, maar bouwt verder op wat er al is.

4. De Grootste Leerles: Het gaat om de Data, niet de Methode

Het meest interessante ontdekking van dit paper is dit:
Het maakt niet uit hoe je de robot traint (de algoritme), maar wat je hem laat leren.

Als je de "Leraar-methode" (SFT) gebruikt, maar je geeft de robot antwoorden die de robot zelf heeft bedacht (de RFT-uitkomsten), dan werkt het ook goed! De robot leert de puzzel snel, maar vergeet zijn oude kennis niet.

Dit betekent dat het geheim niet in de complexe wiskunde van RFT zit, maar in het feit dat RFT data genereert die perfect aansluit bij wat de robot al weet.

Conclusie voor de Toekomst

Deze paper leert ons dat als we AI-modellen willen laten leren zonder dat ze hun oude kennis verliezen, we niet zomaar antwoorden van mensen of andere AI's moeten kopiëren. We moeten de AI eerst laten "nadenken" en zelf oplossingen vinden, en die oplossingen dan gebruiken om de AI verder te trainen.

Kort samengevat:

SFT is als het plakken van een nieuwe poster op een muur, waardoor de oude foto's eraf vallen.
RFT is als het bouwen van een nieuwe kamer aan je huis, die perfect aansluit op de bestaande structuur.
De beste manier om te leren? Laat de AI zelf de blauwdruk maken, en gebruik die om te bouwen. Dan vergeet hij nooit wie hij is.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "WHY REINFORCEMENT FINE-TUNING PRESERVES PRIOR KNOWLEDGE BETTER: A DATA PERSPECTIVE", geschreven in het Nederlands.

Probleemstelling

In het tijdperk van grote taalmodellen (LLMs) en multimodale grote taalmodellen (MLLMs) zijn Supervised Fine-Tuning (SFT) en Reinforcement Fine-Tuning (RFT) de standaardmethoden om modellen aan te passen aan specifieke taken. Hoewel deze methoden effectief zijn voor het leren van nieuwe vaardigheden, is hun impact op het behoud van vooraf bestaande kennis (prior knowledge) onduidelijk. Bestaande praktijken richten zich vaak puur op prestatieverbetering voor de nieuwe taak, wat leidt tot het risico van catastrophic forgetting: het verlies van eerder aangeleerde kennis. De vraag is waarom RFT vaak beter presteert in het behoud van kennis dan SFT, en of dit komt door het algoritme zelf of door de aard van de trainingsdata.

Methodologie

De auteurs introduceren een nieuwe aanpak om dit probleem te onderzoeken, bestaande uit drie hoofdelementen:

Nieuwe Taak: Jigsaw Puzzles:
- Om een eerlijke test te creëren voor het leren van volledig nieuwe kennis, introduceren de auteurs jigsaw puzzles (legpuzzels) als de doeltaak.
- Bestaande state-of-the-art modellen (zoals GPT-4o en Qwen2.5-VL) kunnen deze taak niet oplossen in een zero-shot setting (0% nauwkeurigheid), wat aangeeft dat het een taak is die niet voorkomt in de bestaande pre-training corpora.
- De taak bestaat uit het herschikken van 9 geschudde afbeeldingstegels naar de juiste volgorde.
Vergelijkende Experimenten:
- De auteurs fine-tunen de open-source Qwen2.5-VL modellen (3B en 7B parameters) met zowel SFT als RFT (specifiek het GRPO-algoritme).
- Ze vergelijken verschillende datasets voor SFT:
  - Non-Reasoning: Directe antwoorden zonder redenering.
  - Rea-4o-Rollout: Redeneringstrajecten gegenereerd door GPT-4o.
  - Rea-GRPO-Rollout: Redeneringstrajecten gegenereerd door het model zelf tijdens RFT-training.
- De prestaties worden gemeten op de nieuwe puzzeltaak én op een reeks benchmarks voor oude kennis (zoals Grounding, OCR, General VQA en Hallucinaties).
Theoretische Analyse via Learning Dynamics:
- De auteurs analyseren het vergeten gedrag vanuit het perspectief van learning dynamics. Ze onderzoeken hoe een trainingsvoorbeeld ( $x_u$ ) de waarschijnlijkheid van een ander voorbeeld ( $x_v$ , vertegenwoordigend voor oude kennis) beïnvloedt.
- Ze gebruiken de Empirical Neural Tangent Kernel (eNTK) om de interferentie tussen nieuwe en oude kennis te kwantificeren.
- Ze analyseren twee factoren: de grootte (magnitude) van de interferentie en de richting (direction), gemeten via de perplexity (PPL) van de trainingsdata onder het basismodel.

Belangrijkste Resultaten

SFT vs. RFT Prestaties:
- SFT leert de nieuwe puzzeltaak extreem snel (in slechts enkele honderden stappen), maar veroorzaakt catastrophic forgetting. De prestaties op oude taken (zoals Grounding en OCR) storten in, vooral bij datasets zonder redenering.
- RFT leert langzamer (vereist tienduizenden stappen), maar bereikt vergelijkbare nauwkeurigheid op de puzzeltaak terwijl het vooraf bestaande kennis behoudt.
De Rol van Data (Niet het Algoritme):
- Een cruciale bevinding is dat het algoritme niet de enige oorzaak is. Als SFT wordt getraind op de correcte rollouts gegenereerd door RFT (Rea-GRPO-Rollout), behoudt het model veel beter zijn oude kennis dan wanneer het wordt getraind op menselijke annotaties of GPT-4o-gegenereerde data.
- Dit suggereert dat de distributie van de trainingsdata de belangrijkste factor is voor vergeten, niet het trainingsalgoritme zelf.
Learning Dynamics Analyse:
- Interferentie (Magnitude): Data zonder redenering (Non-Rea) heeft een veel grotere eNTK-norm ten opzichte van oude kennis, wat wijst op sterke interferentie. Data met redeneringstrajecten heeft een lagere norm.
- Perplexity (Richting): RFT-gegenereerde data (Rea-GRPO) bevindt zich in gebieden met lage perplexiteit onder het basismodel. Dit betekent dat deze data al gedeeltelijk overeenkomt met de bestaande verdeling van het model.
- Symmetrie: Volgens de theorie van learning dynamics is de invloed van het leren van $x_u$ op $x_v$ symmetrisch. Omdat het basismodel al lage perplexiteit heeft voor RFT-gegenereerde redeneringen, verstoort het trainen op deze data de oude kennis minder dan het trainen op data met hoge perplexiteit (zoals GPT-4o-gegenereerde data).
Generalisatie:
- De bevindingen zijn consistent over verschillende domeinen, waaronder wiskundig redeneren (Math Reasoning) en wetenschappelijke vragen (Sci-MCQ4), wat de robuustheid van de conclusies onderstreept.

Bijdragen

Empirisch Bewijs: Het paper toont aan dat RFT nieuwe taken kan leren zonder catastrofisch vergeten, en dat SFT getraind op RFT-gegenereerde data (rollouts) dit voordeel deelt. Dit benadrukt de centrale rol van dataconstructie in post-training.
Theoretisch Kader: De auteurs bieden een nieuwe interpretatie van vergeten gebaseerd op learning dynamics, die interferentie decomposeert in grootte (via eNTK) en richting (via perplexiteit). Dit biedt een principieel inzicht in waarom bepaalde data schadelijker is dan andere.
Praktische Richtlijn: Het paper suggereert dat het gebruik van RL-gebaseerde sampling (die natuurlijke, lage-perplexity voorbeelden vindt) een effectieve strategie is voor stabiele continue post-training, en dat SFT kan worden verbeterd door gebruik te maken van deze zelf gegenereerde data.

Betekenis en Conclusie

De studie verlegt de focus van puur algoritmische verschillen (SFT vs. RFT) naar de kwaliteit en distributie van de trainingsdata. Het concludeert dat RFT succesvol is omdat het actief nieuwe kennis ontdekt in linguïstische gebieden die al compatibel zijn met het basismodel (lage perplexiteit), waardoor de interferentie met oude kennis minimaal blijft.

Voor de toekomst betekent dit dat ontwikkelaars van post-training pipelines niet alleen moeten kijken naar het trainingsalgoritme, maar vooral moeten investeren in het selecteren of genereren van data die goed aansluit bij de bestaande verdeling van het model. Een hybride aanpak waarbij een korte RFT-fase wordt gebruikt om hoogwaardige, zelf-consistente data te genereren voor daaropvolgende SFT, lijkt een veelbelovende strategie voor stabiel en continu leren van nieuwe vaardigheden.

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

1. De Twee Trainingsmethoden: De Leraar vs. De Ontdekker

2. De Puzzel: Een Nieuwe Taak die Niemand Kent

3. Het Geheim: Waarom werkt RFT beter?

A. De "Ruis" van de Data (De Geluidsdruk)

B. De "Vlakke Weg" vs. De "Berg"

4. De Grootste Leerles: Het gaat om de Data, niet de Methode

Conclusie voor de Toekomst

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers