Unlocking [CLS] Features for Continual Post-Training

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, goed opgeleide assistent hebt die alles over de wereld weet: dieren, auto's, landschappen en kunst. Deze assistent is getraind op een enorme hoeveelheid data (een "Foundation Model"). Nu wil je deze assistent leren om ook nieuwe dingen te herkennen, zoals een nieuw type vogel of een specifiek soort satellietbeeld, zonder dat hij de oude kennis vergeet.

Dit is het probleem van voortdurend leren (Continual Learning). Als je de assistent gewoon opnieuw traint op de nieuwe informatie, raakt hij in de war en vergeet hij alles wat hij eerder wist. Dit heet "catastrofale forgetting".

De auteurs van dit paper hebben een slimme oplossing bedacht die ze TOSCA noemen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Te veel aanpassing of te weinig

Tot nu toe hadden mensen twee manieren om dit op te lossen, maar beide hadden een nadeel:

De "Prompt"-methode: Je geeft de assistent een klein briefje met instructies (een "prompt") voor elke nieuwe taak. Dit is veilig (hij vergeet niets), maar soms te star. Hij kan niet goed aanpassen aan de details van de nieuwe taak.
De "Adapter"-methode: Je plakt kleine extra hersencellen op elke laag van de assistent. Dit maakt hem heel flexibel, maar het is alsof je een hele nieuwe bibliotheek moet bouwen voor elke nieuwe taak. Het kost enorm veel ruimte (geheugen) en tijd.

2. De Oplossing: TOSCA (De Slimme Regisseur)

De auteurs kijken naar hoe het menselijk brein werkt.

Het visuele systeem (achter in je hoofd) ziet de wereld en vormt stabiele beelden (een hond is een hond, of hij nu in de zon of schaduw staat). Dit is de "Foundation Model".
De prefrontale cortex (voor in je hoofd) is de regisseur. Hij neemt die stabiele beelden en past ze snel aan voor de specifieke situatie die je nu nodig hebt.

TOSCA imiteert dit precies:

Laat de basis intact: Ze veranderen niets aan de grote, slimme assistent. Die blijft zijn werk doen en herinnert zich alles.
Alleen op het laatste moment: Ze voegen een heel klein, slim moduletje toe, alleen op het allerlaatste moment, net voordat de assistent zijn antwoord geeft.
De "LuCA" module: Dit kleine moduletje bestaat uit twee delen:
- De Aanpasser (Adapter): Hij pakt de informatie en maakt er een nieuwe versie van voor de specifieke taak.
- De Kalibrator: Dit is de slimste deel. Hij fungeert als een "versterker" of "filter". Hij kijkt naar de nieuwe informatie en zegt: "Dit deel is belangrijk voor deze nieuwe vogelsoort, versterk dat! En dat andere deel is ruis, zet dat lager."

3. Waarom is dit zo geweldig? (De Creatieve Vergelijkingen)

De "Sleutel" in plaats van de "Huisverbouwing":
Stel je voor dat je een nieuw slot wilt op je deur.
- Oude methoden: Je bouwt een hele nieuwe vleugel aan je huis (veel werk, veel kosten).
- TOSCA: Je plakt een klein, slim slotje op je bestaande deur. Het werkt perfect, kost bijna niets en je hoeft je hele huis niet aan te passen.
De "Orde in de chaos":
Zonder TOSCA is het geheugen van de assistent als een rommelige kast waar nieuwe kleding over de oude heen wordt gegooid. Alles wordt een brij.
Met TOSCA is het alsof je voor elke nieuwe taak een specifiek vakje maakt in die kast. Dankzij een slimme regel (de $\ell_1$ -regularisatie) zorgen deze vakjes ervoor dat ze elkaar niet storen. Ze zijn als "orthogonale" experts: de expert voor vogels praat niet met de expert voor auto's, dus er is geen ruis.
De "Entropie" (De Zekerheidsmeter):
Tijdens het gebruik (inference) laat TOSCA alle kleine moduletjes (voor vogels, auto's, etc.) even meedenken. Het kiest dan het antwoord van het moduletje dat het meest zeker is (de minst "verwarde" uitkomst). Het is alsof je een groep experts vraagt naar hun mening en je luistert naar degene die het minst twijfelt.

4. De Resultaten in het Kort

Snelheid: Het is veel sneller dan andere methoden (ongeveer 2,5x sneller).
Geheugen: Het gebruikt ongeveer 8 keer minder geheugen dan de beste alternatieven.
Prestaties: Het werkt beter dan alles wat er nu is, zelfs als de nieuwe data heel anders is dan de oude data (bijvoorbeeld van gewone foto's naar satellietbeelden).

Conclusie:
TOSCA is een slimme, energiezuinige manier om AI-modellen te laten leren zonder dat ze hun geheugen verliezen. Het doet dit door niet het hele brein te herschrijven, maar alleen een klein, slim "regisseurs-deel" toe te voegen op het moment dat het antwoord gegeven wordt. Het is efficiënt, snel en werkt wonderwel.

Each language version is independently generated for its own context, not a direct translation.

Titel: Unlocking [CLS] Features for Continual Post-Training

Auteurs: Murat Onur Yildirim, Elif Ceren Gok Yildirim, Joaquin Vanschoren (TU/e)
Publicatie: Transactions on Machine Learning Research (02/2026)

1. Het Probleem: Stabiliteit-Plasticiteit Dilemma in Continual Learning

Continual Learning (CL), en specifiek Class-Incremental Learning (CIL), vereist dat modellen nieuwe klassen of domeinen leren zonder het eerder verworven kennis te vergeten (catastrophic forgetting).

Huidige uitdaging: Foundation Models (FMs), zoals Vision Transformers (ViT), bieden sterke prestaties door robuuste pre-getrainde representaties. Echter, bij sequentiële fine-tuning van deze modellen veranderen de pre-getrainde representaties, wat leidt tot aanzienlijk vergeten.
Bestaande oplossingen en hun beperkingen:
- Learnable Prompts: Zeer stabiel (veranderen de kern niet), maar vaak beperkt in aanpassingsvermogen (plasticiteit) voor specifieke taken.
- Adapters: Voegen kleine neurale netwerken toe aan elke laag van het model. Dit biedt hoge plasticiteit, maar leidt tot een kwadratische toename van parameters bij diepere modellen en introduceert cumulatieve afwijkingen in de feature-ruimte.
De kernvraag: Hoe kunnen we het stabiliteit-plasticiteit-dilemma efficiënt oplossen tijdens post-training van foundation models zonder complexe procedures of enorme rekenkosten?

2. Methodologie: LuCA en TOSCA

De auteurs inspireren zich op de neurowetenschap: het ventrale visuele systeem (stabiele representaties) wordt gefineerd door circuits in de prefrontale cortex (flexibele aanpassing). Ze vertalen dit naar twee componenten:

A. LuCA (Learn and Calibrate) Module

Een nieuwe parameter-efficiënte fine-tuning (PEFT) module bestaande uit twee delen:

Residual Adapter: Voert taak-specifieke feature-transformaties uit via een bottleneck (vergelijkbaar met standaard adapters), maar behoudt de oorspronkelijke semantiek via skip-connections.
Calibrator: Een gating-mechanisme (vergelijkbaar met attention) dat de output van de adapter opnieuw weegt. Het versterkt discriminatieve features en dempt ruis of over-geactiveerde kanalen. Dit zorgt voor een "gekalibreerde" representatie.
- Complexiteit: $O(dr)$ in plaats van $O(d^2)$ , waarbij $d$ de embedding-grootte is en $r$ de bottleneck-dimensie.

B. TOSCA (Token-level Sparse Calibration and Adaptation)

De specifieke implementatie van LuCA voor CIL:

Locatie: In plaats van adapters in elke laag toe te voegen, wordt één enkele LuCA-module geplaatst direct voor de classifier, die uitsluitend werkt op het laatste [CLS]-token (de globale beeldrepresentatie) van de ViT.
Werkingsprincipe:
- De pre-getrainde backbone (feature extractor) blijft volledig bevroren.
- Voor elke nieuwe taak $t$ wordt een nieuwe, sparsere LuCA-module ( $\Theta_t$ ) getraind.
- Regularisatie: Er wordt $\ell_1$ -regularisatie toegepast op de parameters van de module. Dit dwingt de modules om orthogonaal te worden, waardoor ze verschillende subruimtes van de features gebruiken en interferentie tussen taken wordt voorkomen.
Inferentie Protocol:
- Er is geen task-identifier nodig.
- De input passeert één keer de bevroren backbone.
- Vervolgens worden alle beschikbare taak-modules parallel toegepast op het [CLS]-token.
- De module die de laagste entropie (hoogste zekerheid) produceert voor de voorspelling, wordt geselecteerd als de juiste module voor die specifieke input.

3. Belangrijkste Bijdragen

LuCA Module: Introductie van een hybride adapter-calibrator structuur die features niet alleen aanpast, maar ook verfijnt via gating.
TOSCA Framework: Een neuro-geïnspireerde aanpak die adaptatie beperkt tot het [CLS]-token. Dit behoudt de stabiliteit van de lage/midden-niveau features (stabiliteit) terwijl het flexibiliteit biedt op het beslispunt (plasticiteit). Het aantal parameters is model-agnostisch en schaalt niet met de diepte van het model.
State-of-the-Art Prestaties: Uitgebreide validatie op zes benchmarks, waarbij TOSCA aanzienlijk beter presteert dan bestaande prompt- en adapter-methoden, met name op Out-of-Distribution (OOD) datasets.

4. Resultaten en Experimenten

De auteurs testten TOSCA op zes benchmarks (CIFAR-100, CUB-200, ImageNet-R, ImageNet-A, OmniBenchmark, VTAB) en EuroSAT (voor OOD-testen) met ViT-B/16 als backbone.

Prestatie:
- TOSCA behaalde de hoogste gemiddelde nauwkeurigheid op alle zes datasets.
- Verbetering: 7–21% hoger dan prompt-based methoden en 4–12% hoger dan adapter-based methoden op OOD-datasets.
- Op de CUB-200 dataset (fijne granulariteit) behaalde TOSCA een gemiddelde taak-nauwkeurigheid van 97.6%, wat superieur is aan alle concurrenten.
Efficiëntie:
- Parameters: TOSCA introduceert ongeveer 8x minder parameters dan layer-wise adapter-methoden.
- Snelheid: Ongeveer 2.5x sneller in totale runtime door het ontbreken van redundante berekeningen in meerdere lagen.
Ablatie Studies:
- De volgorde van Adapter -> Calibrator is cruciaal; omgekeerd werkt minder goed.
- $\ell_1$ -regularisatie ( $\lambda = 5e^{-4}$ ) is essentieel voor orthogonaliteit, wat zorgt voor betere module-selectie tijdens inferentie (geen task-identifiers nodig).
- t-SNE visualisaties tonen aan dat TOSCA clusters veel scherper scheidt dan alleen adapters of de originele ViT.

5. Betekenis en Conclusie

Dit werk biedt een fundamenteel nieuwe richting voor continual learning met foundation models:

Paradigmaverschuiving: Het bewijst dat je niet de hele modelarchitectuur hoeft aan te passen of prompts door alle lagen moet sturen. Adaptatie op het hoogste semantische niveau ([CLS]-token) is voldoende en efficiënter.
Praktische Toepasbaarheid: De methode is replay-vrij (geen opslag van oude data nodig), privacy-vriendelijk en schaalbaar voor real-world scenario's met beperkte rekenkracht.
Balans: TOSCA lost het stabiliteit-plasticiteit dilemma elegant op door de "stabiliteit" van de basis te behouden en alleen de "plasticiteit" toe te passen op het moment van beslissing, wat leidt tot robuustere generalisatie, zelfs bij grote domeinverschuivingen.

Samenvattend introduceert TOSCA een lichtgewicht, neuro-geïnspireerde architectuur die de prestaties van continual learning aanzienlijk verbetert terwijl de kosten (rekenkracht en geheugen) drastisch worden verlaagd.

Unlocking [CLS] Features for Continual Post-Training

1. Het Probleem: Te veel aanpassing of te weinig

2. De Oplossing: TOSCA (De Slimme Regisseur)

3. Waarom is dit zo geweldig? (De Creatieve Vergelijkingen)

4. De Resultaten in het Kort

Titel: Unlocking [CLS] Features for Continual Post-Training

1. Het Probleem: Stabiliteit-Plasticiteit Dilemma in Continual Learning

2. Methodologie: LuCA en TOSCA

A. LuCA (Learn and Calibrate) Module

B. TOSCA (Token-level Sparse Calibration and Adaptation)

3. Belangrijkste Bijdragen

4. Resultaten en Experimenten

5. Betekenis en Conclusie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank