One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning

Each language version is independently generated for its own context, not a direct translation.

SMoPE: De Slimme "All-in-One" Prompt voor AI die niet vergeet

Stel je voor dat je een zeer getalenteerde chef-kok hebt (de AI) die al duizenden recepten kent. Je wilt deze chef nu leren nieuwe gerechten te maken, één voor één, zonder dat hij de oude recepten vergeet. Dit is wat wetenschappers Continual Learning (doorlopend leren) noemen.

Het probleem is dat AI-modellen vaak "catastrofaal vergeten": zodra ze een nieuw gerecht leren, raken ze de details van de oude recepten kwijt.

Tot nu toe waren er twee manieren om dit op te lossen, maar beide hadden nadelen:

De "Eén Chef per Taak"-methode: Je maakt voor elk nieuw gerecht een volledig nieuwe set instructies (prompts). Dit werkt goed, maar is inefficiënt. Het is alsof je voor elke nieuwe klant een nieuwe chef inhuurt. Het kost veel ruimte en geld.
De "Één Chef voor Alles"-methode: Je gebruikt één set instructies voor alle gerechten. Dit is heel efficiënt, maar de chef raakt in de war. De instructies voor sushi en de instructies voor pizza botsen met elkaar, en de kwaliteit van beide gerechten zakt.

De Oplossing: SMoPE

De auteurs van dit paper hebben een slimme tussenweg bedacht, genaamd SMoPE (Sparse Mixture of Prompt Experts). Ze gebruiken een creatieve analogie uit de keuken om dit uit te leggen:

De Creatieve Analogie: De "Slimme Keukenbrigade"

Stel je voor dat de AI niet één chef is, maar een grote keukenbrigade met 25 specialisten (de "experts").

De Oude Aanpak: Als je een nieuwe taak had, kiest de chef alle 25 specialisten tegelijk om te helpen. Ze roepen allemaal tegelijk, wat chaos veroorzaakt en de oude kennis overstemt.
De SMoPE Aanpak: Voor elke nieuwe opdracht (bijvoorbeeld: "Maak een visgerecht") kijkt de chef eerst naar de ingrediënten. Vervolgens kiest hij slechts 5 specialisten uit de brigade die het beste bij vis passen. De andere 20 specialisten blijven rustig in de hoek staan.

Dit is het geheim van SMoPE: Selectieve Activering.

Hoe werkt het in de praktijk?

De "All-in-One" Instructie: In plaats van 100 verschillende instructieboekjes te maken voor 100 verschillende taken, heeft SMoPE één groot boek met 25 verschillende "hoofdstukken" (de experts).
De Slimme Keuzemachine (De Router): Wanneer de AI een nieuwe foto ziet (bijvoorbeeld een vogel), berekent hij direct welke 5 van de 25 experts het beste bij die vogel passen. Alleen die 5 worden "aan" gezet om het antwoord te geven. De rest blijft "uit".
- Vergelijking: Het is alsof je in een bibliotheek niet alle boeken tegelijk opent, maar alleen de 5 boeken die precies over het onderwerp gaan waar je naar op zoek bent.
De "Stoornis-Remmer" (Adaptief Ruis): Soms kiezen de specialisten steeds dezelfde 5 mensen, terwijl er andere experts zijn die ook slim zijn maar nooit worden gebruikt. SMoPE heeft een slimme truc: het geeft een kleine "schok" (ruis) aan de favoriete specialisten om hen te dwingen even te stoppen, zodat de minder gebruikte specialisten ook een kans krijgen. Dit zorgt voor een eerlijke verdeling van het werk.
Het Onzichtbare Geheugen (Prototypes): Om te voorkomen dat de specialisten hun oude kennis verliezen, onthoudt SMoPE de "stijl" van de oude taken. Het is alsof de chef een foto van een oud gerecht in zijn hoofd houdt. Als hij een nieuw gerecht maakt, kijkt hij naar die foto om zeker te weten dat hij de oude smaak niet verpest.

Waarom is dit geweldig?

Efficiëntie: Omdat ze maar 5 specialisten per taak gebruiken in plaats van 25, is de berekening 50% sneller en kost het veel minder computerkracht.
Geen Vergeten: Omdat ze niet alles tegelijk updaten, blijven de oude kennis en vaardigheden veilig bewaard.
Beter dan de rest: In tests bleek SMoPE beter te presteren dan methoden die duizenden parameters gebruiken, terwijl ze zelf veel minder ruimte innemen.

Kortom:
SMoPE is als een super-efficiënte keukenbrigade die niet iedereen tegelijk laat roepen, maar slim de juiste specialisten selecteert voor elke klus. Zo blijft de brigade snel, goedkoop, en vergeet hij nooit hoe hij de oude gerechten moet maken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-Based Continual Learning" in het Nederlands.

Probleemstelling

Continu Leren (Continual Learning - CL) richt zich op het trainen van neurale netwerken op een sequentie van taken zonder dat eerder geleerde kennis wordt vergeten (catastrofaal vergeten). Een veelbelovende aanpak binnen CL is prompt-based learning, waarbij een klein aantal leerbare parameters (prompts) wordt toegevoegd aan een voorgetraind model om het aan te passen aan nieuwe taken.

Er zijn echter twee dominante strategieën met elk hun nadelen:

Taak-specifieke prompts: Elke taak krijgt een eigen subset van prompts toegewezen. Dit presteert goed en isoleert kennis, maar leidt tot een lineaire toename van het aantal parameters en rekenkosten naarmate het aantal taken groeit. Bovendien vereist het vaak een dure zoektocht naar de juiste prompt tijdens inferentie.
Gedeelde prompts: Er wordt één enkele prompt gedeeld over alle taken (zoals in OVOR). Dit is zeer efficiënt qua parameters, maar lijdt vaak aan kennisinterferentie: omdat dezelfde prompt continu wordt bijgewerkt voor nieuwe taken, gaat de specifieke kennis van eerdere taken verloren, wat resulteert in slechtere prestaties.

De centrale vraag is: Hoe kunnen we de parameter-efficiëntie van een gedeelde prompt combineren met de prestaties van taak-specifieke methoden?

Methodologie: SMoPE

De auteurs stellen SMoPE (Sparse Mixture of Prompt Experts) voor, een raamwerk dat de voordelen van beide benaderingen combineert door een Sparse Mixture of Experts (SMoE) architectuur te integreren in Prefix Tuning.

De kerncomponenten van SMoPE zijn:

Sparse Mixture van Prompt Experts:
In plaats van één grote prompt of veel aparte prompts, wordt een enkele gedeelde prompt opgedeeld in meerdere "prompt experts" binnen de attention-heads van het Vision Transformer (ViT) model. Voor elke invoer wordt slechts een selecte subset (de top-K) van deze experts geactiveerd. Dit creëert een impliciete parameter-partitionering die interferentie tussen taken minimaliseert.
Prompt-Attention Score Aggregatie:
In standaard Prefix Tuning heeft elke expert meerdere scores (één per token in de sequentie), wat berekeningsintensief is. SMoPE introduceert een universele proxy-score door de scores van alle tokens te aggregeren tot één gemiddelde token-representatie ( $\tilde{x}$ ). Dit maakt het mogelijk om efficiënt de top-K experts te selecteren zonder de volledige voorwaartse doorvoer van het model te hoeven uitvoeren voor de query-berekening, wat de rekenkosten aanzienlijk verlaagt.
Adaptief Ruismechanisme (Adaptive Noise):
Een veelvoorkomend probleem bij SMoE is dat een kleine groep experts dominant wordt en andere experts onderbenut blijven. SMoPE introduceert een dynamisch ruismechanisme dat de scores van vaak geactiveerde experts (die waarschijnlijk essentiële kennis bevatten) lichtelijk straft. Dit moedigt het gebruik van minder gebruikte experts aan voor nieuwe taken, terwijl de kennis in de belangrijke experts behouden blijft.
Prototype-based Loss:
Om de specialisatie van experts te bevorderen en catastrofaal vergeten te voorkomen, worden de prefix keys van eerdere taken gebruikt als prototypes (impliciete geheugenrepresentaties). Een speciale loss-functie ( $L_{proto}$ ) zorgt ervoor dat de huidige experts niet te ver afwijken van deze prototypes, waardoor kennis uit vorige taken behouden blijft zonder dat de oorspronkelijke data nodig is.

Belangrijkste Bijdragen

SMoPE Architectuur: Een innovatieve integratie van Sparse Mixture of Experts in Prefix Tuning, waardoor één gedeelde prompt kan worden gebruikt die dynamisch wordt opgesplitst in gespecialiseerde experts per invoer.
Efficiënte Selectie: Een nieuwe mechanisme voor het aggregeren van attention-scores dat de complexiteit van expert-selectie verlaagt en de noodzaak van dure query-berekeningen elimineert.
Balans tussen Stabiliteit en Plasticiteit: Een combinatie van adaptieve ruis en prototype-loss die zorgt voor een evenwichtige verdeling van experts en behoud van oude kennis, zonder dat extra geheugen voor oude data nodig is.
Theoretische Onderbouwing: Een analyse die aantoont dat de gebruikte score-aggregatie de steekproefcomplexiteit (sample complexity) voor het schatten van experts niet negatief beïnvloedt ten opzichte van standaard methoden.

Resultaten

SMoPE is uitgebreid getest op drie populaire CL-benchmarks: ImageNet-R, CIFAR-100 en CUB-200.

Prestaties: SMoPE overtreft consequent bestaande state-of-the-art methoden, zowel taak-specifieke (zoals HiDe-Prompt, NoRGa) als gedeelde prompt-methoden (zoals OVOR). Het bereikt de hoogste scores op Final Average Accuracy (FAA) en Cumulative Average Accuracy (CAA).
Efficiëntie:
- Parameters: SMoPE gebruikt aanzienlijk minder leerbare parameters dan taak-specifieke methoden (bijna even efficiënt als OVOR).
- Rekenkosten: Door het vermijden van volledige model-doorlopen voor prompt-selectie, reduceert SMoPE de inferentie- en trainingskosten met tot 50% ten opzichte van andere prompt-methoden.
Robuustheid: De methode presteert consistent goed over verschillende voor-trainingsparadigmas (supervised en self-supervised) en bij variërende aantallen taken (tot 50 taken).

Significantie

Dit paper is significant omdat het een fundamenteel compromis in Continu Leren oplost: de keuze tussen efficiëntie (gedeelde prompts) en prestaties (taak-specifieke prompts). SMoPE bewijst dat het mogelijk is om één enkele gedeelde prompt te gebruiken die zich dynamisch aanpast aan verschillende taken via een sparse expert-systeem.

Dit leidt tot een schaalbare oplossing voor langdurig continu leren die:

Catastrofaal vergeten effectief tegengaat.
De rekenlast en het geheugengebruik minimaliseert.
Geen toegang vereist tot historische data (rehearsal-free).

De methode biedt een nieuwe richting voor het ontwerpen van efficiënte, adaptieve AI-systemen die in dynamische omgevingen kunnen blijven leren zonder de beperkingen van traditionele fine-tuning of grote parameter-uitbreidingen.

One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning

De Creatieve Analogie: De "Slimme Keukenbrigade"

Hoe werkt het in de praktijk?

Waarom is dit geweldig?

Probleemstelling

Methodologie: SMoPE

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers