On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een meesterkok bent die een enorme receptenboekerij (het "voorgerechte model") bezit. Deze kok kan al duizenden gerechten maken: van Italiaanse pasta tot Japanse sushi. Nu wil je hem leren om ook Nederlandse stamppot te maken.

In de wereld van kunstmatige intelligentie noemen we dit fine-tuning: het aanpassen van een slimme machine voor een nieuwe taak.

Het Probleem: De Vergetelheid

Het probleem is dat deze kok, zodra hij stamppot leert, zijn oude vaardigheden begint te vergeten. Hij vergeet misschien hoe hij sushi moet rollen of hoe hij pasta moet koken. Dit fenomeen heet catastrophic forgetting (catastrofaal vergeten).

De onderzoekers in dit paper kijken naar een slimme truc om dit te voorkomen: PEFT (Parameter-Efficient Fine-Tuning). In plaats van de hele receptenboekerij opnieuw te schrijven (wat veel tijd en papier kost), schrijven ze alleen kleine post-it notes bij de bestaande recepten. Ze veranderen de basisrecepten niet, ze voegen alleen kleine aanpassingen toe.

De Drie Manieren om te Leren (De Analogieën)

De onderzoekers hebben gekeken naar vier verschillende manieren om die "post-it notes" te schrijven. Ze hebben ontdekt dat hoe je die notities schrijft, bepaalt of de kok zijn oude vaardigheden behoudt.

Hier zijn de vier methoden, vertaald naar alledaagse voorbeelden:

1. LoRA: De "Kleine Notitieblokjes"

Hoe het werkt: Je schrijft kleine, simpele notities op een klein blokje papier. Je beperkt jezelf tot een paar regels.
Het probleem: Als je te weinig ruimte hebt (te kleine notities), moet je voor iedere nieuwe taak (stamppot, curry, taart) dezelfde paar regels gebruiken. De notities gaan over elkaar heen. De kok raakt in de war: "Moet ik nu boter gebruiken voor de stamppot of voor de curry?"
Resultaat: Als je de notities iets groter maakt (meer regels), vergeet hij minder. Maar als ze te klein zijn, is de verwarring groot.

2. PiSSA: De "Alleen de Hoofdlijnen"

Hoe het werkt: Deze methode zegt: "We schrijven alleen notities op de belangrijkste, meest algemene regels." Denk aan de basisregels van koken: "Gebruik vuur" of "Meng ingrediënten".
Het probleem: Omdat deze basisregels voor alles hetzelfde zijn, raken ze volledig in de war als je ze aanpast voor een specifieke taak. Als je de regel "Gebruik vuur" aanpast voor stamppot, werkt die aanpassing misschien niet meer voor sushi.
Resultaat: Dit bleek de slechtste methode te zijn. De kok vergeet zijn oude gerechten het snelst, omdat hij de basis van zijn vaardigheid heeft verstoord.

3. WeGeFT: De "Speciale Schuiflade"

Hoe het werkt: Deze methode zegt: "We schrijven notities, maar alleen op plekken die al bestaan in de receptenboekerij." Het is alsof je een speciale schuiflade hebt die perfect past in de bestaande structuur van het boek.
Het voordeel: Omdat je niet tegen de oude structuur indrukt, maar er juist in "vloeit", blijft de oude kennis veilig. De kok kan stamppot leren zonder dat zijn sushi-vaardigheden veranderen.
Resultaat: Zeer goed! Hij vergeet bijna niets, zelfs met weinig notities.

4. LoRETTA: De "3D-Puzzel"

Hoe het werkt: In plaats van een plat stuk papier (zoals LoRA), gebruikt deze methode een 3D-puzzel of een kubus. Je kunt veel meer informatie opslaan in een heel klein ruimte, omdat je de notities in drie dimensies kunt draaien en vouwen.
Het voordeel: Je kunt een heleboel complexe details over stamppot opslaan in een mini-ruimte, zonder dat het de oude sushi-recepten verstoort.
Resultaat: Ook dit werkt fantastisch. De kok vergeet weinig en leert snel, zelfs als hij heel weinig ruimte heeft.

Wat hebben ze ontdekt?

De onderzoekers hebben twee belangrijke lessen geleerd:

Ruimte is belangrijk: Als je de kok te veel beperkt (te kleine notities of te starre regels), gaat hij zijn oude vaardigheden vergeten. Hij heeft "bewegingsruimte" nodig om nieuwe dingen te leren zonder de oude te beschadigen.
De vorm van de ruimte is cruciaal:
- Als je de basis van de kennis verstoort (zoals PiSSA), is het slecht.
- Als je slimme, complexe vormen gebruikt (zoals de 3D-puzzel van LoRETTA) of als je je aanpast aan de bestaande structuur (zoals WeGeFT), blijft de kennis veilig.

Conclusie voor de Gemiddelde Mens

Als je een slimme AI wilt trainen om steeds meer nieuwe dingen te doen zonder dat hij vergeet wat hij al wist, moet je niet zomaar "bezuinigen" op de aanpassingen. Je moet kiezen voor een slimme manier van aanpassen:

Ofwel geef je hem voldoende ruimte om te bewegen.
Ofwel zorg je dat de aanpassingen perfect in de oude structuur passen of slim samengeperst zijn in 3D-vormen.

Kortom: Hoe je de nieuwe kennis opslaat, is net zo belangrijk als hoeveel ruimte je hebt. Als je het verkeerd doet, is de kok na het leren van stamppot vergeten hoe hij pasta maakt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning" in het Nederlands.

Probleemstelling

Parameter-efficiënt fijnafstemmen (PEFT), met name methoden gebaseerd op lage-rang decompositie zoals LoRA, is een standaard geworden voor het aanpassen van grote voorgeprogrammeerde modellen. Deze methoden updaten slechts een klein deel van de parameters om kosten te besparen. Echter, het gedrag van deze methoden in sequentiële leeromgevingen (waarbij een model achtereenvolgens meerdere taken leert) is onvoldoende onderzocht.

De kernproblematiek is catastrofaal vergeten (catastrophic forgetting): het fenomeen waarbij de prestaties op eerder geleerde taken sterk achteruitgaan terwijl nieuwe taken worden getraind. Het is onduidelijk of het beperken van updates tot een laag-dimensionale deelruimte (low-rank subspace) taakinterferentie vermindert of juist verergert, en hoe verschillende re-parameterisatie-ontwerpen de kennisbehoud over taken beïnvloeden.

Methodologie

De auteurs voeren een gecontroleerde empirische studie uit om het vergeten te analyseren binnen PEFT-methoden.

Basismodel: Een Vision Transformer (ViT) vooraf getraind op ImageNet-1K. De backbone-parameters worden bevroren; alleen de PEFT-modules worden bijgewerkt.
Protocol: Sequentiële training op vier opeenvolgende beeldclassificatietaken met verschillende domeinen (vogelsoorten, landgebruik, natuurlijke scènes, sporten). Na elke taak wordt het model geëvalueerd op alle eerdere taken.
Vergelijkde Methoden:
1. Full Fine-Tuning (FF): De baseline waarbij alle parameters worden bijgewerkt.
2. LoRA: Decompositie van gewichtsupdates in rang-beperkte matrices.
3. PiSSA: Aanpassing van alleen de hoofdcomponenten (principale singuliere waarden en vectoren) van de voorgeprogrammeerde gewichten.
4. LoRETTA: Gebruikt Tensor-Train (TT) decompositie voor ultra-efficiënte fijnafstemming via getensoriseerde adapters.
5. WeGeFT: Beperkt updates tot een deelruimte die is uitgelijnd met de voorgeprogrammeerde gewichten en deelt parameters over lagen.
Metingen:
- Vergeten ( $F_j$ ): Gedefinieerd als het verschil tussen de beste prestatie op taak $j$ tijdens het trainen van latere taken en de prestatie na het trainen van alle taken.
- Gemiddeld Vergeten: Het gemiddelde van het vergeten over alle taken.
- Eindnauwkeurigheid: De gemiddelde nauwkeurigheid over alle taken na voltooiing.

Belangrijkste Bijdragen en Bevindingen

De studie onthult een sterke correlatie tussen de geometrie en parameterisatie van de update-deelruimte en de mate van vergeten.

Invloed van Flexibiliteit (LoRA):
- Bij kleine rangen (rank) wordt vergeten verergerd omdat updates van verschillende taken gedwongen worden om een beperkt aantal richtingen te delen.
- Naarmate de rang toeneemt, neemt het vergeten af. Dit suggereert dat een minder restrictieve update-ruimte leidt tot betere kennisbehoud, omdat taken meer onderscheidende richtingen kunnen innemen.
Het Gevaar van Strikte Principal Subspaces (PiSSA):
- PiSSA toont het slechtste vergeten van alle methoden, zelfs bij vergelijkbare rangen als LoRA.
- De oorzaak is dat PiSSA updates strikt beperkt tot de principale singuliere deelruimte van de voorgeprogrammeerde gewichten. Deze richting encodeert vaak zeer algemene, taak-overstijgende representaties. Het forceren van updates in deze ruimte verstoort de bestaande voorgeprogrammeerde representaties, wat leidt tot ernstige interferentie.
Structuur en Alignement (WeGeFT):
- WeGeFT presteert consistent goed met laag vergeten, zelfs onder strikte parameterbudgetten.
- Het succes komt door het beperken van updates tot een deelruimte die uitgelijnd is met de voorgeprogrammeerde gewichten. Dit behoudt de bestaande representaties en minimaliseert verstoring.
Tensor Decompositie (LoRETTA):
- LoRETTa breekt met het traditionele matrix-decompositieframe door gewichten om te vormen tot hoge-dimensionale tensors en Tensor-Train decompositie te gebruiken.
- Dit stelt het model in staat rijkere structurele informatie en afhankelijkheden te vangen binnen uiterst compacte budgetten. Het resulteert in minimale vergeten en hoge nauwkeurigheid, vergelijkbaar met Full Fine-Tuning, maar met veel minder parameters.

Resultaten (Kwantitatief)

Uit de experimenten op ViT-Base en ViT-Large blijkt:

Vergeten: PiSSA heeft de hoogste vergeten-waarden (bijv. 0.2339 op ViT-Large), terwijl LoRETTA (0.0338) en WeGeFT (0.0294) prestaties dicht bij Full Fine-Tuning (0.0685) behalen, maar met een fractie van de trainbare parameters.
Nauwkeurigheid: Hoewel PiSSA goed presteert op de laatste taak, lijdt het onder slechte retentie van eerdere taken. LoRETTA en WeGeFT behouden een hoge eindnauwkeurigheid (rond 95-96% voor ViT-Large) terwijl ze vergeten minimaliseren.
Parameter-efficiëntie: LoRETTA en WeGeFT gebruiken aanzienlijk minder parameters dan LoRA (bijv. 57K vs 313K op ViT-Base) en presteren toch beter in sequentiële settingen.

Significantie en Conclusie

Dit werk biedt cruciale inzichten voor het ontwerpen van PEFT-methoden voor continu leren:

Ontwerp van de Update-deelruimte is cruciaal: Het is niet alleen belangrijk hoeveel parameters er worden bijgewerkt, maar hoe die updates geometrisch zijn georganiseerd.
Twee succesvolle regimes:
- Voldoende flexibiliteit: Ofwel door hoge rangen te gebruiken (LoRA) of door tensor-decompositie te gebruiken om complexe structuren in te vangen met weinig parameters (LoRETTA).
- Structuurbehoud: Het beperken van updates tot een ruimte die de voorgeprogrammeerde representaties respecteert (WeGeFT).
Waarschuwing: Methodes die updates strikt beperken tot een kleine, gedeelde deelruimte die de voorgeprogrammeerde structuur verstoort (zoals PiSSA bij lage rangen), leiden tot ernstig catastrofaal vergeten.

De studie concludeert dat voor robuust continu leren PEFT-methoden een zorgvuldige balans moeten vinden tussen de grootte, geometrie en structurele efficiëntie van de update-deelruimte om zowel aanpassing aan nieuwe taken als behoud van historische kennis te waarborgen.