One Adapter for All: Towards Unified Representation in Step-Imbalanced Class-Incremental Learning

Each language version is independently generated for its own context, not a direct translation.

Titel: Één Adapter voor Alles: Slim Leren in een Onvoorspelbare Wereld

Stel je voor dat je een superintelligente robot bouwt die nieuwe dingen moet leren, terwijl hij zijn oude kennis niet mag vergeten. Dit noemen we in de tech-wereld Class-Incremental Learning (CIL).

Normaal gesproken denken onderzoekers dat deze robot elke dag precies evenveel nieuwe dingen leert. Bijvoorbeeld: maandag leert hij 10 soorten vogels, dinsdag 10 soorten auto's, woensdag 10 soorten bloemen. Alles is netjes en gebalanceerd.

Maar in het echte leven is dat niet zo. Soms krijg je een enorme stroom nieuwe informatie (bijvoorbeeld: "Hier zijn 50 nieuwe soorten kledingstukken!"), en soms slechts een paar druppels (bijvoorbeeld: "Oh, er is net één nieuwe rare schelpsoort gevonden").

Deze paper, getiteld "One Adapter for All", pakt precies dit probleem aan. Ze noemen het Step-Imbalance: onbalans in de grootte van de taken.

Hier is hoe ze dit oplossen, vertaald in een simpel verhaal met analogieën:

Het Probleem: De Luie Leraar en de Schreeuwerige Klas

Stel je een klaslokaal voor waar de robot (de leraar) zit.

De Grote Taken: Dit zijn de dagen met 50 nieuwe kledingstukken. Dit is een drukke, volle klas. De leraar krijgt veel informatie en leert hard.
De Kleine Taken: Dit zijn de dagen met maar 1 of 2 schelpen. Dit is een lege klas. De leraar krijgt weinig informatie.

Hoe werkt het nu (de oude manier)?
De robot behandelt elke dag precies hetzelfde. Hij luistert even hard naar de drukke klas als naar de lege klas.

Het gevolg: De kleine, lege klas (met weinig info) begint te schreeuwen en verstoort de rustige, sterke kennis die de robot van de drukke klas heeft opgedaan. De robot wordt verward, vergeet de oude kledingstijlen en maakt veel fouten. Het is alsof een fluisterende leerling de hele klas stil probeert te maken, waardoor de leraar de instructies van de docent niet meer hoort.

De Oplossing: "One-A" (Één Adapter)

De auteurs van dit paper, Xiaoyan Zhang en Jiangpeng He, hebben een slimme oplossing bedacht genaamd One-A. In plaats van voor elke dag een nieuwe leraar aan te stellen (wat veel ruimte en tijd kost), houden ze één enkele, flexibele leraar aan en passen ze die stap voor stap aan.

Ze gebruiken drie slimme trucs om de onbalans te overwinnen:

1. De Onzichtbare Muur (Asymmetrische Subruimte Uitlijning)

Stel je voor dat de kennis van de robot bestaat uit verschillende "richtingen" in zijn hoofd.

De grote taken (de drukke klas) bouwen een sterke, stabiele muur van kennis. Dit is de "hoofdrichting".
De kleine taken (de lege klas) proberen ook iets te bouwen, maar ze zijn zwak.

De oude methoden lieten de kleine taken de muur van de grote taken veranderen. One-A doet het anders:

De Analogie: De robot zegt: "Jullie (de grote taken) hebben een sterke muur gebouwd. Die laten we staan, die is heilig. Jullie (de kleine taken) mogen alleen maar kleine gaten boren of steentjes toevoegen in de hoekjes waar de muur nog dun is. Jullie mogen de hoofdstructuur niet verstoren."

Dit zorgt ervoor dat de sterke kennis van de grote taken veilig blijft, terwijl de kleine taken toch een beetje kunnen bijdragen zonder chaos te stichten.

2. De Weegschaal (Informatie-Adaptieve Weging)

Niet alle dagen zijn even belangrijk. Een dag met 50 nieuwe kledingstukken is informatiever dan een dag met 1 schelp.

De Oude Manier: Alle dagen tellen even zwaar mee.
One-A: De robot kijkt naar de "gewicht" van de dag.

De Analogie: Het is alsof je een weegschaal gebruikt. De dag met 50 kledingstukken krijgt een zware gewicht (hij telt veel mee). De dag met 1 schelp krijgt een lichte veer (hij telt weinig mee). Zo wordt de beslissing van de robot gebaseerd op waar de meeste echte kennis zit, niet op het aantal dagen.

3. De Slimme Deurwachter (Directionele Gating)

Dit is de meest creatieve truc. De robot kijkt niet alleen naar hoeveel informatie er is, maar ook naar waar die informatie zit.

Sommige kennis is heel belangrijk en moet vastgehouden worden (de "hoofdrichtingen").
Andere kennis is minder belangrijk en kan makkelijk worden aangepast (de "staartrichtingen").

De Analogie: Stel je een beveiligingsdeur voor met verschillende sloten.

Voor de belangrijke sloten (de sterke kennis) is de deurwachter erg streng: "Nee, hier mag niets veranderen!" (Stabiliteit).

Voor de minder belangrijke sloten (de nieuwe, kleine kennis) is de deurwachter soepel: "Kom maar binnen, we passen ons aan!" (Plasticiteit).

Zo kan de robot nieuwe dingen leren zonder zijn oude, sterke basis kapot te maken.

Waarom is dit zo cool?

Efficiëntie: Veel andere methoden slaan voor elke nieuwe dag een apart "geheugenblok" op. Als je 100 dagen hebt, moet je 100 blokken doorzoeken. Dat is traag en duur. One-A smelt alles samen tot één blok. Je hebt dus altijd maar één geheugenblok nodig, ongeacht hoeveel dagen er voorbij zijn. Het is alsof je in plaats van 100 losse notitieboekjes, één slimme, zichzelf herschrijvende agenda hebt.
Stabiliteit: De robot vergeet minder snel wat hij eerder heeft geleerd, zelfs als de nieuwe taken heel klein en verwarrend zijn.
Wereldwijd toepasbaar: Of je nu kleding herkent, vogels identificeert of kunst analyseert, deze methode werkt goed omdat hij rekening houdt met de onvoorspelbare grootte van nieuwe informatie.

Samenvatting in één zin

One-A is een slimme manier voor robots om te leren in een chaotische wereld: ze houden hun sterke kennis vast, negeren de ruis van kleine taken, en passen zich moeiteloos aan aan grote stroom van nieuwe informatie, alles in één compact pakketje.

Het bewijst dat je niet hoeft te kiezen tussen "veel leren" en "goed onthouden"; je kunt beide, als je de juiste sleutels (deze adapter-methode) gebruikt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "One Adapter for All: Towards Unified Representation in Step-Imbalanced Class-Incremental Learning", geschreven in het Nederlands.

1. Het Probleem: Stap-ongelijkheid in Class-Incremental Learning (CIL)

Class-Incremental Learning (CIL) richt zich op het geleidelijk aanleren van nieuwe klassen terwijl kennis van eerdere klassen behouden blijft. De meeste bestaande methoden veronderstellen echter een evenwichtige taakstroom, waarbij elke stap (taak) hetzelfde aantal klassen introduceert.

In de praktijk is dit zelden het geval. Het artikel introduceert het concept Step-Imbalanced Class-Incremental Learning (SI-CIL). Hierbij varieert het aantal klassen per taak sterk:

Grote taken: Bevat veel klassen, leveren stabiele gradiënten en rijke supervisie.
Kleine taken: Bevat weinig klassen, genereren ruis en instabiele updates.

Huidige uitdagingen:

Bestaande methoden behandelen alle taken uniform. Hierdoor domineren grote taken de gedeelde representatieruimte, terwijl kleine taken onstabiele updates injecteren die leiden tot catastrofaal vergeten (catastrophic forgetting).
Eenvoudige oplossingen zoals het opsplitsen van grote taken in kleinere, evenwichtige micro-taken verhogen de rekentijd en versterken de taakinterferentie, wat de prestaties verslechtert.
Bestaande adapter-methoden (zoals EASE of CL-LoRA) behouden vaak aparte adapters per taak, wat de inferentiekosten en parameteroverhead doet toenemen naarmate er meer taken worden verwerkt.

2. Methodologie: One-A Framework

De auteurs stellen One-A voor, een unificerend raamwerk dat een enkele, asymmetrisch samengevoegde adapter gebruikt om updates van alle taken te integreren. Het doel is om een constante inferentiekost te behouden terwijl het systeem adaptief blijft voor dynamische taakgroottes.

De kerncomponenten van One-A zijn:

A. Asymmetrische Subruimte-uitlijning (Asymmetric Subspace Alignment)

In plaats van alle updates symmetrisch te behandelen (zoals bij eerdere methoden zoals KnOTS), identificeert One-A de "grootste" taak (meeste data/klassen) als de basisadapter en de kleinere taak als de align-adapter.

De dominante subruimte van de basisadapter wordt gefixeerd via Singular Value Decomposition (SVD).
De updates van de kleinere taak worden geprojecteerd op deze vaste subruimte.
Doel: Voorkomen dat kleine, ruisachtige taken de dominante representaties van grote taken verdraaien of verschuiven.

B. Informatie-adaptieve Globale Weging (Information-Adaptive Global Weighting)

Niet alle taken dragen evenveel informatie bij. One-A gebruikt een wegingsmechanisme gebaseerd op het aantal klassen per taak als proxy voor informatierijkdom.

Grote taken krijgen een hogere weging bij het samenvoegen van de rechter singuliere componenten ( $V$ ).
Dit zorgt voor een grofkorrelige balans tussen de dominante kennis (grote taken) en aanvullende kennis (kleine taken).

C. Richtingsgerichte Gating (Directional Gating)

Om het compromis tussen stabiliteit (behoud van oude kennis) en plasticiteit (leren van nieuwe kennis) op een fijnkorrelig niveau te regelen, wordt per singuliere richting een "gate" ( $g_i$ ) toegepast.

Hoog-energie richtingen (belangrijk voor oude kennis): Worden conservatief behouden (lage gate-waarde).
Laag-energie richtingen: Kunnen flexibeler nieuwe informatie opnemen (hoge gate-waarde).
Dit mechanisme voorkomt dat nieuwe updates de kritieke subruimtes van eerdere taken beschadigen, terwijl het toch ruimte biedt voor nieuwe patronen.

D. Optimisatie en Training

Contrastive Loss: Voor kleine taken met weinig klassen wordt een contrastive loss toegevoegd als extra regularisatie om de representaties stabiel te houden en intra-class compactness te bevorderen.
Dynamische Epochs: Grotere taken krijgen meer trainings-epochs, terwijl kleinere taken korter worden getraind maar zwaarder worden geregulariseerd.
Exemplar-vrij: Het systeem werkt zonder het opslaan van eerdere trainingsdata (exemplars), wat cruciaal is voor privacy en schaalbaarheid.

3. Belangrijkste Bijdragen

Definitie en Analyse van SI-CIL: Het artikel formaliseert het probleem van stap-ongelijkheid in CIL, een setting die realistischer is dan de traditionele evenwichtige aannames, en analyseert waarom bestaande methoden hierin falen.
One-A Framework: Een nieuw raamwerk dat een enkele adapter behoudt door middel van een richtingsbewuste, asymmetrische samenvoegingsstrategie. Dit lost het probleem op van onstabiele updates van kleine taken zonder de inferentiekost te verhogen.
Efficiëntie en Prestaties: Het bewijst dat het mogelijk is om hoge nauwkeurigheid te behalen met slechts één adapter tijdens de inferentie, wat een aanzienlijke verbetering is ten opzichte van methoden die meerdere adapters moeten laden of doorzoeken.

4. Resultaten

One-A is geëvalueerd op meerdere benchmarks (CIFAR-100, CUB200, ImageNet-A, ImageNet-R) met verschillende ongelijkheidsfactoren ( $\gamma$ ) en taaklengtes ( $T$ ).

Nauwkeurigheid: One-A behaalt de hoogste nauwkeurigheid ( $A_T$ en $\bar{A}$ ) op alle datasets, vaak met een significante marge ten opzichte van state-of-the-art methoden zoals EASE, CL-LoRA en ACMap. Op ImageNet-A en ImageNet-R werden verbeteringen van respectievelijk 7,8% en 9,4% geboekt.
Robuustheid: De methode presteert consistent goed, zelfs bij extreme ongelijkheid (waarbij kleine taken zeer weinig klassen hebben) en bij lange taakstroommen.
Inferentie-efficiëntie:
- FLOPs: One-A heeft een constante inferentiekost (ongeveer 1x), terwijl methoden met meerdere adapters (zoals MOS) lineair toenemen met het aantal taken (tot wel 40x hoger).
- Snelheid: Door slechts één adapter te gebruiken, is de inferentietijd constant en laag, ongeacht hoeveel taken er zijn verwerkt.
Ablatiestudies: Experimenten tonen aan dat elke component (asymmetrische uitlijning, globale weging, directionele gating) essentieel is voor de uiteindelijke prestaties en het evenwicht tussen stabiliteit en plasticiteit.

5. Betekenis en Impact

Dit werk is significant omdat het een brug slaat tussen theoretische CIL-methoden en realistische, onvoorspelbare implementatiescenario's.

Praktische Toepasbaarheid: In echte toepassingen (bijv. een kledingherkenningsapp met seizoensgebonden updates) zijn taken zelden even groot. One-A biedt een oplossing die schaalbaar is en geen extra rekenkracht vereist bij het toevoegen van nieuwe klassen.
Efficiëntie: Het demonstreert dat het behoud van meerdere modellen of adapters niet nodig is om goede prestaties te behalen; een slimme, asymmetrische samenvoeging van één adapter is superieur.
Toekomstige Richting: Het artikel legt de basis voor verder onderzoek naar continual learning in ongelijkmatige omgevingen, inclusief de combinatie van stap-ongelijkheid en langstaart-distributies binnen taken.

Kortom, One-A lost het fundamentele probleem op van onbalans in CIL door een asymmetrische, subruimte-gebaseerde fusiestrategie te gebruiken, wat leidt tot een systeem dat zowel robuust, nauwkeurig als extreem efficiënt is.