SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der undurchsichtige „Blackbox"-Koch

Stell dir vor, du hast einen genialen Koch (eine künstliche Intelligenz), der dir perfekte Gerichte zubereitet – sei es, um Viren in Computern zu erkennen oder um die Stimmung eines Textes zu verstehen. Aber dieser Koch arbeitet in einer Blackbox. Du siehst nur das fertige Gericht, aber du weißt nicht, wie er es gemacht hat. Welche Zutaten hat er benutzt? Hat er versehentlich Salz statt Zucker genommen?

In sensiblen Bereichen wie der Cybersicherheit oder der Medizin ist das gefährlich. Wenn der Koch einen Fehler macht, könnte das katastrophale Folgen haben. Bisherige Methoden, um herauszufinden, wie der Koch denkt, waren oft nur wie ein Foto vom fertigen Gericht: Sie beschreiben, was passiert ist, aber sie erlauben dir nicht, aktiv einzugreifen, ohne den Koch neu ausbilden zu müssen.

Die Lösung: SYNAPSE – Der „Neuronen-Stresstest"

Die Forscher aus Spanien haben SYNAPSE entwickelt. Stell dir SYNAPSE nicht als neuen Koch vor, sondern als einen super-geübten Kücheninspektor, der den Koch in Echtzeit beobachtet, ohne ihn zu berühren oder neu zu trainieren.

Hier ist, wie SYNAPSE funktioniert, mit ein paar kreativen Vergleichen:

1. Der „Kopfschrei" (Die [CLS]-Repräsentation)

In modernen KI-Modellen (Transformern) gibt es eine spezielle Stelle, die wie ein Chef-Koch fungiert. Dieser Chef sammelt alle Informationen aus dem ganzen Gericht und fasst sie in einem einzigen Satz zusammen. SYNAPSE schaut sich genau diesen „Chef-Satz" an. Anstatt jeden einzelnen Kochlöffel (jedes einzelne Wort) zu analysieren, konzentriert es sich auf die Gesamtzusammenfassung. Das spart Zeit und Energie.

2. Der „Koch-Test" (Der Lineare Probe)

SYNAPSE stellt dem Chef-Koch eine einfache Frage: „Welche Zutaten (Neuronen) waren für dieses Gericht am wichtigsten?"
Dazu trainiert es einen winzigen, schnellen Assistenten (einen „Linearen Probe"), der die Antworten des Chefs analysiert. Dieser Assistent erstellt eine Rangliste:

Welche Zutaten sind für alle Gerichte wichtig? (Global)
Welche Zutaten sind speziell für Pizza wichtig? (Klassenspezifisch)

3. Der „Stresstest" (Die Intervention)

Jetzt wird es spannend. SYNAPSE führt Experimente durch, bei denen es dem Koch nicht sagt, er soll neu lernen. Stattdessen greift es kurzzeitig in den Prozess ein, während das Gericht zubereitet wird:

Das „Stummschalten" (Silencing): SYNAPSE sagt zu den wichtigsten Zutaten: „Du darfst heute nicht mitreden." Es schaltet also die Top-Neuronen stumm.
- Das Ergebnis: Wenn der Koch plötzlich 50 % seiner besten Zutaten nicht mehr nutzen darf, wird das Gericht immer schlechter. Aber oft ist es erstaunlich robust! Das zeigt, dass das Wissen im Gehirn des Kochs verstreut ist – wie ein Sicherheitsnetz. Wenn ein Netzstrang reißt, hält das Netz trotzdem noch.
Der gezielte Angriff: SYNAPSE schaltet nur die Zutaten aus, die für eine bestimmte Kategorie wichtig sind (z. B. nur die für „Böse Viren").
- Das Ergebnis: Hier zeigt sich, dass manche Gerichte sehr fragil sind. Wenn man die spezifischen Zutaten für „Ransomware" wegnimmt, erkennt der Koch diese Viren gar nicht mehr, während er harmlose Dateien weiterhin erkennt. Das ist wie ein gezieltes Hacken, das nur einen bestimmten Fehler ausnutzt.

4. Der „Zauberspruch" (Logit-Bias & Gewichte)

SYNAPSE probiert auch andere Tricks aus:

Logit-Bias: Es flüstert dem Chef-Koch direkt ins Ohr: „Vergiss das Salz, mach es salziger!" (Es verändert die Ausgabe kurzzeitig).
Gewichts-Manipulation: Es schüttelt kurz die Gewürzdosen, bevor der Koch sie benutzt.

Was haben sie herausgefunden?

Das Gehirn ist ein Schwarm: Das Wissen ist nicht in einem einzigen „Genie-Neuron" gespeichert. Es ist wie ein Orchester. Wenn du ein paar Geigen ausblendest, spielt das Orchester immer noch, aber wenn du die Geigen, die die Melodie tragen, alle ausblendest, bricht die Musik zusammen.
Ungleichheit: Manche Modelle sind wie ein stabiler Fels (z. B. Longformer), andere wie ein Kartenhaus (z. B. BigBird bei bestimmten Aufgaben). Ein Modell kann bei Viren sehr stark sein, aber bei Emotionen sehr empfindlich.
Gefahr im Verborgenen: Man braucht oft gar nicht viel zu tun, um den Koch zu verwirren. Eine winzige Veränderung in der Ausgabe (wie ein falsches Salz) kann dazu führen, dass er ein Gift als harmlos einstuft.

Warum ist das wichtig?

SYNAPSE ist wie ein Crash-Test für KI. Bevor wir KI in kritischen Bereichen (wie der Abwehr von Cyberangriffen oder der Diagnose von Krankheiten) einsetzen, müssen wir wissen:

Wie stabil ist das System?
Wo sind die Schwachstellen?
Kann ein Angreifer das System manipulieren, indem er nur ein paar interne Teile „stumm schaltet"?

Die Forscher sagen: „Wir können jetzt sehen, wo die Risse im Fundament sind, ohne das ganze Haus abreißen zu müssen." Das hilft uns, robustere und vertrauenswürdige KI-Systeme zu bauen.

Kurz gesagt: SYNAPSE ist ein Werkzeug, um das Innere von KI-Modellen zu „zerlegen" und wieder zusammenzusetzen, um zu testen, wie stark sie wirklich sind – ganz ohne sie neu zu programmieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die zunehmende Komplexität von KI-Modellen, insbesondere Transformer-Architekturen (wie BERT, GPT), führt zu einem „Black-Box"-Problem. In sensiblen Bereichen wie der Cybersicherheit (z. B. Malware-Erkennung) oder der Medizin ist mangelnde Transparenz ein kritisches Risiko. Bestehende Ansätze zur Neuronen-Interpretierbarkeit leiden unter folgenden Einschränkungen:

Sie sind oft rein deskriptiv oder auf spezifische Aufgaben zugeschnitten.
Viele Methoden erfordern ein erneutes Training des Modells (retraining), was sie als systematische Werkzeuge für den Vergleich verschiedener Architekturen unpraktisch macht.
Es fehlt an einem einheitlichen Rahmenwerk, das die interne Robustheit und die Sensitivität einzelner Neuronen über verschiedene Domänen hinweg (z. B. Text vs. System-Call-Sequenzen) ohne Modifikation des Originalmodells untersucht.

Ziel ist es, zu verstehen, wie interne Repräsentationen strukturiert sind und wie anfällig Modelle gegenüber gezielten Eingriffen auf Neuronenebene sind.

2. Methodik: Das SYNAPSE-Framework

SYNAPSE ist ein systematisches, training-freies Framework, das die interne Verhalten von Transformer-Modellen analysiert und stresst. Es basiert auf einem nicht-destruktiven Ansatz mittels Forward-Hooks in PyTorch, die es ermöglichen, Aktivierungen während der Inferenz zu manipulieren, ohne die Modellgewichte dauerhaft zu ändern.

Der Prozess gliedert sich in drei Hauptblöcke:

Erklärbarkeits-Block (Explainability Block):
- Extrahiert die Aktivierungen des [CLS]-Tokens (Classification Token) aus jeder Schicht des Encoders. Dies dient als komprimierte Repräsentation der gesamten Sequenz.
- Trainiert einen leichten linearen Probe-Klassifikator (Linear Probe) auf diesen [CLS]-Repräsentationen, um die Wichtigkeit jedes Neurons für die Klassifizierung zu quantifizieren.
- Dies ermöglicht die Erstellung von Ranglisten für Neuronen, sowohl global als auch klassenspezifisch.
Analyse-Block (Analysis Block):
- Berechnet die Wichtigkeit der Neuronen basierend auf den Gewichten des Probes.
- Unterscheidet zwischen globaler Rangliste (Summe der absoluten Gewichte über alle Klassen) und klassenspezifischer Rangliste (Gewicht für eine bestimmte Klasse).
- Selektiert die Top- $k$ Neuronen basierend auf einem definierten Prozentsatz $p$ für die nachfolgenden Eingriffe.
Adversarial-Block (Adversarial Block):
- Führt gezielte Eingriffe während der Inferenz durch, ohne das Modell neu zu trainieren.
- Silencing (Stummschaltung): Setzt die Aktivierungen der Top- $k$ $k$ Neuronen auf Null. Dies geschieht in drei Varianten:
  - Global undirigiert: Stummschaltung der insgesamt wichtigsten Neuronen.
  - Global dirigiert: Stummschaltung der Neuronen, die am stärksten eine spezifische Zielklasse beeinflussen.
  - Pro-Klasse: Stummschaltung der Neuronen, die nur für eine bestimmte Klasse relevant sind.
- Weitere Angriffe: Umfasst auch das Hinzufügen von Gaußschem Rauschen, Logit-Bias-Manipulationen und Gewichts-Verzerrungen (Weight-tilting), um die Robustheit unter verschiedenen Bedingungen zu testen.

3. Wichtige Beiträge

SYNAPSE-Framework: Ein modulares, nicht-destruktives Pipeline-System, das Neuronen-Rankings und gezielte Eingriffe ohne Retraining ermöglicht.
Kausale Stummschaltungsstrategien: Einführung komplementärer Interventionsmechanismen (global, klassenorientiert, pro-Klasse), um die funktionale Redundanz und Spezialisierung von Neuronen zu messen.
Effizienz und Architektur-Unabhängigkeit: Durch die Fokussierung auf [CLS]-Repräsentationen ist das Verfahren rechnerisch effizient und skalierbar auf verschiedene Transformer-Encoder anwendbar.
Cross-Domain-Validierung: Das Framework wurde erfolgreich auf zwei heterogenen Domänen getestet:
1. Malware-Erkennung: Analyse von System-Call-Sequenzen (Datensatz: MalwSpecSys) mit Modellen wie BERT, BigBird, DistilBERT und Longformer.
2. Emotionserkennung: Klassifizierung von Texten (Datensatz: GoEmotions) mit einem BERT-Modell.

4. Ergebnisse

Die Experimente lieferten folgende zentrale Erkenntnisse:

Verteilte Repräsentation: Task-relevante Informationen sind nicht in wenigen isolierten Neuronen gespeichert, sondern breit und überlappend über viele Neuronen verteilt. Dies führt zu einer starken funktionalen Stabilität; das Abschalten einzelner Neuronen führt oft nur zu graduellen Leistungsabfällen.
Asymmetrie und Spezialisierung: Trotz der Verteilung zeigen sich starke klassenspezifische Asymmetrien. Bestimmte Klassen sind anfälliger für das Stummschalten ihrer zugehörigen Neuronen als andere. Beispielsweise führte das Stummschalten von Neuronen für die Klasse „TheTick" (Malware) zu einem kompletten Leistungsabfall dieser Klasse, ohne andere Klassen stark zu beeinträchtigen.
Architekturspezifische Schwachstellen:
- Modelle mit hoher Basis-Leistung (wie Longformer) sind nicht zwangsläufig robuster gegen gezielte Neuronen-Angriffe.
- BigBird zeigte sich als besonders anfällig für Gewichts-Manipulationen im Output-Head, während Longformer hier widerstandsfähiger war.
- DistilBERT zeigte eine hohe Robustheit gegenüber Logit-Bias-Angriffen, aber eine empfindlichere Reaktion auf Neuronen-Ablation.
Vergleich mit anderen Angriffen:
- Gaußsches Rauschen und Logit-Bias führten zu strukturierten, modellabhängigen Verzerrungen, oft weniger katastrophal als gezieltes Neuronen-Ablation.
- Gewichts-Manipulationen (Weight-space attacks) konnten Vorhersagen effektiv umlenken, was zeigt, dass kleine, strukturierte Änderungen im Gewichtsraum gefährlicher sein können als reine Neuronen-Stummschaltung.
Domänen-Übergreifende Konsistenz: Die Muster der internen Organisation (breite Verteilung mit lokaler Spezialisierung) waren sowohl bei Malware-Daten als auch bei Emotionstexten konsistent.

5. Bedeutung und Fazit

SYNAPSE füllt eine wichtige Lücke in der Forschung zur Erklärbarkeit und Robustheit von KI. Es bietet einen reproduzierbaren, training-freien Standard, um die interne Stabilität von Modellen zu auditieren.

Für die Sicherheit: Das Framework hilft, Schwachstellen in kritischen Systemen (z. B. Malware-Detektoren) zu identifizieren, bevor sie eingesetzt werden. Es zeigt, dass Modelle zwar robust gegen zufälliges Rauschen sein können, aber anfällig für gezielte, strukturierte Manipulationen sind.
Für die Modellentwicklung: Die Ergebnisse deuten darauf hin, dass zukünftige Modelle nicht nur auf hohe Genauigkeit, sondern auch auf eine gleichmäßigere Verteilung der Repräsentationskapazität optimiert werden sollten, um „brittle" (brüchige) Entscheidungspfade zu vermeiden.
Zukunftsausblick: Das Framework legt den Grundstein für neuronale Verteidigungsmechanismen und die Entwicklung von Visualisierungstools, um die Interpretierbarkeit von Transformer-Modellen in sicherheitskritischen Umgebungen zu verbessern.

Zusammenfassend demonstriert SYNAPSE, dass die interne Struktur von Transformer-Modellen komplexer ist als einfache Zuordnungen: Sie basiert auf redundanter Verteilung mit spezifischen, aber heterogenen Schwachstellen, die nur durch systematische, kausale Eingriffe aufgedeckt werden können.