Semantic-Guided Dynamic Sparsification for Pre-Trained Model-based Class-Incremental Learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, dein Gehirn ist wie ein riesiges, hochmodernes Bibliothekssystem. Du hast bereits Tausende von Büchern (dein altes Wissen) gelernt und sie perfekt sortiert. Jetzt musst du aber ständig neue Bücher hinzufügen, ohne die alten zu vergessen oder durcheinanderzubringen. Das ist das Problem des Class-Incremental Learning (Klassen-zuwachsendes Lernen): Wie lernt eine KI neue Dinge, ohne das Alte zu verdrängen?

Die meisten aktuellen Methoden versuchen, das Problem zu lösen, indem sie die Regale selbst umbauen. Sie sagen: "Wir bauen für jedes neue Thema ein ganz neues, festes Regal, das sich nicht mit den alten überschneidet." Das Problem dabei: Die Regale werden so starr, dass sie sich kaum noch anpassen können. Wenn ein neues Buch eine seltsame Form hat, passt es vielleicht gar nicht mehr rein. Das nennt man einen Verlust an Plastizität (Anpassungsfähigkeit).

Die Autoren dieses Papers, Ruiqi Liu und sein Team, haben eine viel kreativere Idee: SGDS (Semantic-Guided Dynamic Sparsification).

Statt die Regale (die Parameter) starr zu bauen, verändern sie, wie die Bücher auf die Regale gelegt werden (die Aktivierungen). Hier ist die Erklärung mit einfachen Analogien:

1. Das Problem: Der laute Raum

Stell dir vor, du bist in einer lauten Party. Jeder redet gleichzeitig. Wenn du versuchst, eine neue Sprache zu lernen, während alle anderen schreien, wirst du es nicht schaffen.

Die alte Methode: Sie versuchen, die Lautstärke der einzelnen Gäste (die Parameter der KI) zu dämpfen oder sie in separate, schallisolierende Kabinen zu stecken. Das funktioniert, aber es ist unflexibel.
Die neue Methode (SGDS): Sie ändern nicht die Lautstärke der Gäste, sondern lenken die Gespräche. Sie sorgen dafür, dass Leute, die über das gleiche Thema reden (ähnliche Klassen, z. B. "Hunde"), sich in einer Ecke treffen, während Leute über ganz andere Themen (z. B. "Autos") in einer völlig anderen Ecke sitzen.

2. Wie SGDS funktioniert: Der intelligente Platzhalter

SGDS nutzt zwei kluge Tricks, um diesen "Platzhalter" zu organisieren:

A. Die Semantische Landkarte (Die Orientierung)

Bevor die KI lernt, schaut sie sich an, wie ähnlich die neuen Dinge den alten sind.

Ähnliche Dinge: Wenn das neue Thema "Hammerhai" ist und wir schon "Weißer Hai" kennen, sagt SGDS: "Super, die beiden gehören in dieselbe Ecke!" Sie teilen sich denselben Platz im Gedächtnis. Das spart Energie und fördert das Lernen.
Unterschiedliche Dinge: Wenn das neue Thema "Eisenbahn" ist, sagt SGDS: "Nein, das passt nicht in die Haie-Ecke. Wir bauen eine neue, leere Ecke daneben."
Der Clou: Diese Ecken sind so angelegt, dass sie sich nicht überschneiden. Es ist, als würde man unsichtbare Wände zwischen den Gesprächskreisen ziehen, damit sie sich nicht stören.

B. Das "Einpacken" (Die Verdichtung)

Stell dir vor, die neue Ecke für "Eisenbahn" ist riesig und leer. Das ist ineffizient. SGDS macht die Ecke kleiner und kompakter.

Sie sagen: "Wir brauchen nur die wichtigsten 40% der Informationen für 'Eisenbahn'. Alles andere ist unnötiges Rauschen."
Durch das Weglassen des Unnötigen (Sparsification) wird die Ecke so klein, dass sie kaum Platz wegnimmt.
Der geniale Effekt: Weil die "Eisenbahn-Ecke" so klein ist, bleibt riesig viel leerer Raum (Nullraum) übrig. In diesem leeren Raum können zukünftige Themen (z. B. "Flugzeuge") Platz finden, ohne dass sie die "Eisenbahn" oder die "Haie" stören.

3. Warum ist das besser?

Flexibilität: Die Regale (die Parameter der KI) bleiben starr und unverändert. Das ist gut, weil sie das Grundwissen der KI (das "Pre-Trained Model") bewahren.
Dynamik: Was sich bewegt, ist nur der "Verkehr" der Daten. SGDS lenkt den Verkehr so, dass Staus (Vergessen) vermieden werden.
Privatsphäre: Da die Methode keine alten Daten speichern muss (sie ist "exemplar-free"), ist sie perfekt für sensible Bereiche wie die Medizin. Man muss keine Patientendaten aufbewahren, um sie später zu lernen.

Zusammenfassung in einem Satz

Statt die KI zu zwingen, starr neue Regale zu bauen, die sich nie berühren dürfen, organisiert SGDS den Lernprozess so, dass ähnliche Dinge zusammen und verschiedene Dinge getrennt in kleinen, effizienten Gruppen lernen, wodurch genug Platz für die Zukunft bleibt, ohne das Alte zu vergessen.

Es ist wie ein genialer Tischaufseher auf einer Party, der die Gäste nicht in separate Zimmer schickt, sondern sie so an den Tischen anordnet, dass jeder seine eigene Unterhaltung hat, ohne die Nachbarn zu stören – und dabei immer noch Platz für neue Gäste bleibt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Class-Incremental Learning (CIL) zielt darauf ab, Modelle kontinuierlich neue Klassen beizubringen, ohne dabei das zuvor Gelernte zu vergessen („katastrophales Vergessen"). Ein gängiger Ansatz nutzt vortrainierte Modelle (Pre-Trained Models, PTMs), bei denen der Hauptbackbone eingefroren wird und nur leichte Adapter-Module für neue Aufgaben trainiert werden.

Das zentrale Problem liegt im Stabilitäts-Plastizitäts-Dilemma:

Um Interferenzen zwischen Aufgaben zu verhindern, werden Adapter-Parameter oft durch strenge geometrische Constraints (z. B. Orthogonalität) eingeschränkt.
Die Autoren argumentieren, dass diese Parameter-Einschränkungen die Plastizität des Modells schädigen, da die bereits begrenzten Parameter der Adapter nicht mehr flexibel genug sind, um neue Aufgaben zu lernen.
Die Hypothese der Arbeit ist, dass Interferenz nicht primär von den Parametern selbst, sondern von deren Interaktion mit den neuronalen Aktivierungen ausgeht.

2. Methodik: Semantic-Guided Dynamic Sparsification (SGDS)

SGDS ist eine neuartige Methode, die den Fokus von der Einschränkung des Parameterraums auf die aktive Führung des Aktivierungsraums verlagert. Statt die Parameter zu zwingen, orthogonal zu sein, steuert SGDS die Richtung und den Rang der Aktivierungs-Unterräume durch gezielte Sparsifizierung (Verdünnung).

Der Prozess läuft in zwei Phasen ab, die durch eine semantische Analyse gesteuert werden:

A. Semantische Strategieformulierung (Semantic Strategy Formulation)

Bevor das Training beginnt, wird die semantische Beziehung zwischen neuen Klassen und bereits gelernten Klassen analysiert.

Es werden Prototypen (Durchschnitts-Embeddings) für jede Klasse berechnet.
Basierend auf der kosinussimilarity wird entschieden, ob eine neue Klasse:
1. Wiederverwendung (Knowledge Reuse): Ähnliche Klassen teilen sich denselben Aktivierungs-Unterraum.
2. Neue Zuweisung (New Subspace Allocation): Unähnliche Klassen erhalten einen neuen, orthogonalen Unterraum, um Interferenz zu vermeiden.

B. Zwei-Phasen-Prozess

Semantische Exploration (Semantic Exploration):
- Ziel: Steuerung der Orientierung der Aktivierungs-Unterräume.
- Mechanismus: Für Klassen, die einen neuen Unterraum benötigen, werden Aktivierungseinheiten so ausgewählt, dass sie in den „Nullraum" (Null Space) der bereits gelernten Aufgaben fallen. Dies wird durch eine Wahrscheinlichkeitsverteilung gesteuert, die auf historischen Nutzungszählern basiert. Ähnliche Klassen werden hingegen in denselben Raum gelenkt.
Aktivierungs-Kompression (Activation Compaction):
- Ziel: Minimierung des Rangs (Größe) der Unterräume.
- Mechanismus: Durch gezielte Sparsifizierung wird der Aktivierungsraum für jede Klasse auf einen kompakten Kern reduziert. Dies erzeugt einen größeren Nullraum für zukünftige Aufgaben, ohne die Parameter selbst zu beschneiden.
- Dies verhindert „Representational Drift" und erhöht die Stabilität.

Wichtig: Die Adapter-Parameter bleiben dabei unbeschränkt (keine Orthogonalitäts-Regularisierung), was die Plastizität des Modells erhält.

3. Schlüsselbeiträge

Paradigmenwechsel: Einführung von SGDS als erste Methode, die Interferenz durch die Führung des Aktivierungsraums (Orientierung und Rang) löst, anstatt durch starre Parameter-Constraints.
Überlegene Plastizität: Demonstration, dass das Belassen der Parameter unbeschränkt und stattdessen die Aktivierungen zu steuern, zu einer besseren Balance zwischen Stabilität und Plastizität führt.
State-of-the-Art Performance: SGDS erzielt auf mehreren Benchmarks die besten Ergebnisse im Vergleich zu bestehenden SOTA-Methoden (sowohl parametrischen als auch Rehearsal-basierten).
Exemplar-Free Setting: Die Methode funktioniert ohne Speicherung von Beispielen aus vergangenen Aufgaben, was Datenschutz und Speicherbedarf verbessert.

4. Ergebnisse

Die Methode wurde auf vier Benchmark-Datensätzen evaluiert: CIFAR-100, ImageNet-R, ImageNet-A und ObjectNet.

Leistung: SGDS übertrifft konsistent alle konkurrierenden Methoden.
- Auf ImageNet-R erreicht SGDS eine durchschnittliche Genauigkeit ( $\bar{A}$ ) von 85,41 %, was eine Steigerung von 1,19 % gegenüber dem führenden Parameter-basierten Ansatz (TUNA) darstellt.
- Auf ObjectNet liegt SGDS mit 76,97 % um 7,89 % über dem besten Rehearsal-basierten Verfahren (FOSTER).
Vergleich Parameter vs. Aktivierung: Experimente zeigen, dass das Regularisieren von Parametern (z. B. Orthogonalität von $W_{up}$ ) weniger effektiv ist als die Führung der Aktivierungen, insbesondere in den späteren Schichten des Netzwerks.
Ablationsstudie: Sowohl die semantische Exploration (Orientierung) als auch die Aktivierungskompression (Rangreduktion) sind essenziell; nur in Kombination erzielen sie das beste Ergebnis.
Visualisierung: t-SNE-Visualisierungen zeigen, dass SGDS den Aktivierungsraum in klare, kompakte Cluster organisiert, während Baseline-Modelle gemischte, unstrukturierte Aktivierungen aufweisen.

5. Bedeutung und Ausblick

SGDS adressiert eine fundamentale Schwäche aktueller CIL-Ansätze: den Kompromiss zwischen dem Verhindern von Vergessen und der Fähigkeit, Neues zu lernen.

Technische Relevanz: Die Arbeit beweist, dass die Kontrolle des Aktivierungsraums ein leistungsfähigerer Hebel ist als die Kontrolle des Parameterraums. Dies ermöglicht robustere Modelle für ressourcenbeschränkte Umgebungen (Edge Devices).
Datenschutz: Da SGDS im „Exemplar-Free"-Modus arbeitet, werden keine Daten aus vergangenen Aufgaben gespeichert. Dies macht die Methode besonders geeignet für sensible Anwendungsbereiche wie das Gesundheitswesen, wo Datenschutz kritisch ist.
Zukunft: Die Methode bietet einen neuen Weg für skalierbares und effizientes lebenslanges Lernen in vortrainierten Modellen.