Causal Interpretation of Neural Network Computations with Contribution Decomposition

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache und kreative Erklärung der Forschung, basierend auf dem Papier, auf Deutsch:

Das große Rätsel: Wie denkt eine KI wirklich?

Stellen Sie sich eine künstliche Intelligenz (KI) wie eine riesige, komplexe Fabrik vor. Wenn Sie ein Foto eines Hundes hineinschmeißen, kommt am anderen Ende ein Label „Hund" heraus. Aber was passiert eigentlich dazwischen?

Bisher haben Forscher versucht, die KI zu verstehen, indem sie einfach hineinschauten, welche Maschinen (Neuronen) in der Fabrik leuchteten, wenn ein Hund gezeigt wurde. Das ist so, als würde man durch ein Fenster schauen und sehen, welche Lichter in einem Haus angehen, ohne zu wissen, welche Schalter diese Lichter einschalten oder welche Arbeit die Leute in den Räumen tatsächlich verrichten.

Das Problem: Nur weil eine Maschine leuchtet, heißt das nicht, dass sie den Hund erkennt. Vielleicht leuchtet sie nur, weil sie im Hintergrund arbeitet, oder sie leuchtet sogar, um das Ergebnis zu verhindern (wie ein Bremser).

Die neue Methode: CODEC (Der „Beitrags-Zerlegungs-Maschinen")

Die Autoren dieses Papiers haben eine neue Methode namens CODEC entwickelt. Man kann sich CODEC wie einen genialen Detektiv vorstellen, der nicht nur schaut, wer im Raum ist, sondern genau misst, was jeder Einzelne zur Lösung des Falls beiträgt.

Statt nur zu fragen: „Welche Lichter gehen an?", fragt CODEC: „Wie viel hat dieser Schalter zum Ergebnis beigetragen? Hat er das Ergebnis gefördert oder behindert?"

1. Der Unterschied zwischen „Leuchten" und „Wirkung"

Stellen Sie sich ein Orchester vor.

Die alte Methode (Aktivierung): Sie zählen einfach, wie laut jedes Instrument spielt. Wenn die Geige laut spielt, denken Sie: „Die Geige ist wichtig!"
Die neue Methode (CODEC): Sie messen, wie sehr die Geige tatsächlich zur Melodie beiträgt. Vielleicht spielt die Geige laut, aber sie spielt die falsche Note und stört die Melodie. CODEC erkennt das: „Die Geige ist laut, aber ihr Beitrag ist negativ – sie bremst die Musik."

CODEC trennt also die positiven Beiträge (die das Ergebnis fördern) von den negativen Beiträgen (die es hemmen). Das ist wie ein Dirigent, der genau weiß, welcher Musiker die Melodie trägt und welcher nur im Hintergrund rauscht.

2. Die Entdeckung: Das Orchester wird disziplinierter

Die Forscher haben CODEC auf verschiedene Schichten einer KI angewendet (von der Eingabe bis zur Ausgabe). Sie stellten eine überraschende Entdeckung fest:

Am Anfang (tief unten): Viele Neuronen sind aktiv, aber ihre Arbeit ist chaotisch. Sie tun alles ein bisschen, und positive und negative Effekte sind durcheinander.
Am Ende (ganz oben): Die KI wird sehr effizient. Nur wenige, spezifische Gruppen von Neuronen übernehmen die Führung. Die „positiven" und „negativen" Kräfte trennen sich voneinander. Es ist, als würde das Orchester am Anfang wild improvisieren, aber gegen Ende jeder genau seine Partitur spielen, um das perfekte Lied zu erzeugen.

3. Die „Baupläne" (Modi) finden

CODEC kann nicht nur einzelne Neuronen analysieren, sondern ganze Gruppen, die zusammenarbeiten. Die Forscher nennen diese Gruppen „Modi".
Stellen Sie sich vor, Sie wollen einen Stuhl bauen.

Die Aktivierung zeigt Ihnen alle Werkzeuge im Raum (Hammer, Säge, Schrauben, Leim).
CODEC zeigt Ihnen die Bauanleitung: „Nimm 3 Schrauben und den Hammer, um die Beine zu befestigen. Lass den Leim weg."

CODEC findet diese Bauanleitungen automatisch. Es zeigt, welche Kombinationen von Neuronen notwendig sind, um ein Bild zu erkennen.

Was bringt uns das?

KI kontrollieren: Da wir wissen, welche „Schaltergruppen" (Modi) für was zuständig sind, können wir die KI gezielt manipulieren. Wenn wir die Gruppe ausschalten, die für „Hunde" zuständig ist, erkennt die KI keinen Hund mehr. Wenn wir sie nur leicht drehen, wird sie vielleicht einen Wolf erkennen. Das ist wie das gezielte Einstellen eines Radios, statt den ganzen Sender abzuschalten.
Biologie verstehen: Die Forscher haben CODEC auch auf Modelle des menschlichen Auges (Netzhaut) angewendet. Sie fanden heraus, wie Nervenzellen im Auge zusammenarbeiten, um Bewegung oder Farben zu erkennen. CODEC half zu verstehen, wie das Gehirn komplexe Bilder aus einfachen Bausteinen zusammenfügt – fast wie ein Puzzle, bei dem man plötzlich sieht, welche Teile zusammengehören.

Zusammenfassung in einem Satz

CODEC ist wie ein Übersetzer, der uns nicht nur sagt, welche Wörter in einem Satz vorkommen (Aktivierung), sondern uns genau erklärt, welche Wörter die Bedeutung des Satzes tragen und welche sie stören, damit wir verstehen, wie die KI (oder das Gehirn) wirklich „denkt".

Dieser Ansatz macht die „Black Box" der KI endlich durchsichtig und hilft uns, sicherere und besser verständliche künstliche Intelligenzen zu bauen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Causal Interpretation of Neural Network Computations with Contribution Decomposition" (CODEC) in deutscher Sprache.

Titel: Kausale Interpretation von Berechnungen in neuronalen Netzen mittels Beitragszerlegung (CODEC)

Veröffentlicht: ICLR 2026 (Konferenzbeitrag)
Autoren: Joshua Brendan Melander, Zaki Alaoui, Shenghua Liu, Surya Ganguli, Stephen A. Baccus (Stanford University)

1. Problemstellung

Das Verständnis, wie neuronale Netze (sowohl biologische als auch künstliche) Eingaben in Ausgaben transformieren, ist entscheidend für die Interpretierbarkeit und Manipulation ihres Verhaltens.

Herausforderung: Bestehende Interpretationsmethoden konzentrieren sich oft auf die Analyse von Aktivierungsmustern in versteckten Schichten, die mit menschlich interpretierbaren Konzepten korrelieren.
Limitierung: Aktivierungen spiegeln lediglich das „rezeptive Feld" (Sensitivität gegenüber Eingaben) wider, nicht aber den kausalen Einfluss auf die Ausgabe. Ein stark aktivierter Neuron kann die Ausgabe sogar hemmen, was in reinen Aktivierungsanalysen unsichtbar bleibt.
Lücke: Es fehlt ein standardisierter Rahmen, um zu verstehen, wie interne Komponenten gemeinsam wirken, um die Ausgabe zu konstruieren, insbesondere wie Gruppen von Einheiten koordiniert werden.

2. Methodik: CODEC (Contribution Decomposition)

Die Autoren stellen CODEC vor, eine Methode, die die Netzwerkleistung in spärliche Motive der Beiträge versteckter Neuronen zerlegt. Der Ansatz geht über Aktivierungen hinaus und analysiert direkte kausale Beiträge.

Der CODEC-Framework besteht aus vier Stufen:

Beitragsziel (Contribution Target): Definition eines skalaren Ziels (z. B. Top-Logit, Summe der Top-k-Logits oder Entropie der Ausgabe), dessen Berechnungsgrundlage verstanden werden soll.
Beitragsalgorithmus: Quantifizierung des Beitrags jedes versteckten Neurons zum Ziel für eine gegebene Eingabe.
- Es werden attributionsbasierte Methoden wie Integrated Gradients (IG), ActGrad oder SmoothGrad verwendet.
- Im Gegensatz zu reinen Aktivierungen werden hier sowohl das rezeptive Feld (Eingabeempfindlichkeit) als auch das projektive Feld (Auswirkung auf die Ausgabe) kombiniert.
- Beiträge können positiv (fördernd) oder negativ (hemmend) sein.
Zerlegung der Beiträge (Decomposition):
- Die Beiträge über alle Eingaben werden mittels eines Sparse Autoencoders (SAE) in eine Menge von „Modi" (Modes) zerlegt.
- Diese Modi repräsentieren koordinierte Aktionen von Neuronengruppen.
- Ein Encoder berechnet Voraktivierungs-Loadings, die durch eine harte Schwelle (Thresholding) und $L_1$ -Regularisierung spärlich gemacht werden.
- Ein nicht-negativer Wörterbuch-Teil (Dictionary) definiert die Modi.
Visualisierung im Eingaberaum:
- Durch Rückprojektion der Beiträge auf den Eingaberaum (Input Space) werden die spezifischen Eingabemerkmale sichtbar gemacht, die die Schlüsselkanäle eines Modus antreiben.

3. Wichtige Beiträge und Innovationen

Kausale statt korrelativer Analyse: CODEC unterscheidet zwischen Bausteinen, die die Ausgabe kausal antreiben, und solchen, die nur aktiv sind, aber irrelevant sind.
Trennung von positiver und negativer Wirkung: Die Methode trennt explizit excitatorische (positive) und inhibitorische (negative) Beiträge, was biologische Mechanismen (wie On/Off-Rezeptorfelder) in künstlichen Netzen sichtbar macht.
Modi als Analyse-Einheit: Statt einzelner Neuronen werden „Contribution Modes" als informative Einheit identifiziert, die zeigen, wie Neuronengruppen zusammenarbeiten.
Architekturagnostisch: Der Ansatz ist auf beliebige trainierte Feedforward-Modelle (CNNs, Vision Transformers, biologische Modelle) anwendbar, ohne Zugriff auf Trainingsdaten oder Labels zu benötigen.

4. Ergebnisse

A. Analyse von Bildklassifizierungsnetzwerken (ResNet-50)

Sparsity und Dimensionalität: Beiträge werden über die Schichten hinweg spärlicher und höherdimensional als Aktivierungen. Nur eine kleine Teilmenge von Kanälen ist für jede Klassifizierungsentscheidung funktional relevant.
Dekorrelation von Vorzeichen: In frühen Schichten sind positive und negative Beiträge innerhalb eines Kanals stark korreliert. Mit zunehmender Tiefe im Netzwerk dekorelieren sie sich zunehmend. Das bedeutet, dass positive und negative Effekte auf die Ausgabe in tieferen Schichten durch separate Neuronengruppen oder Modi gesteuert werden.
Interpretierbarkeit der Modi: Contribution Modes korrelieren stärker mit ImageNet-Klassen als Aktivierungsmodes oder einzelne Kanäle, insbesondere in mittleren Schichten.
Kontrolle des Netzwerks:
- Ablation: Das Entfernen der wichtigsten Kanäle eines contributionsspezifischen Modus reduziert die Genauigkeit für die Zielklasse drastisch, während die Leistung für andere Klassen kaum beeinträchtigt wird.
- Erhaltung: Das Beibehalten nur dieser Kanäle ermöglicht es dem Netz, die Zielklasse korrekt zu klassifizieren, während andere Klassen ignoriert werden.
- Dies ist effektiver als Methoden, die auf Aktivierungen basieren.

B. Biologische neuronale Netze (Retina-Modelle)

CODEC wurde auf CNN-Modelle angewendet, die die Aktivität von Ganglienzellen im Wirbeltier-Retina nachbilden.
Die Methode enthüllt kombinatorische Aktionen von Modell-Interneuronen.
Sie identifiziert die Quellen dynamischer rezeptiver Felder: Wenn mehrere Modi gleichzeitig eine Zelle antreiben, variiert das resultierende rezeptive Feld dynamisch (von zentrisch-surround bis hin zu orientierten oder texturierten Antworten).

C. Vision Transformer (ViT)

CODEC wurde auf ViT-B angewendet, wobei Token als räumliche Dimension und versteckte Dimensionen als Kanäle behandelt wurden.
Auch hier zeigten sich Beiträge als spärlicher als Aktivierungen.
Contribution Modes ermöglichten gezieltere Störungsexperimente als Aktivierungsbasierte Ansätze, obwohl die absolute Ablationsleistung aufgrund der fehlenden räumlichen Äquivarianz-Bias in ViTs geringer war als bei CNNs.

5. Signifikanz und Ausblick

Mechanistische Einsichten: CODEC bietet einen reichhaltigen Rahmen, um zu verstehen, wie nichtlineare Berechnungen über hierarchische Schichten hinweg evolvieren.
Brücke zwischen Biologie und KI: Die Methode zeigt, dass biologische und künstliche Netze ähnliche Prinzipien der Informationsverarbeitung nutzen (z. B. koordinierte Populationen, spärliche Codes, getrennte excitatorische/inhibitorische Pfade).
Anwendungspotenzial:
- KI-Sicherheit: Ermöglicht präzisere Manipulationen und das Verständnis von Fehlentscheidungen.
- Architektur-Design: Die identifizierten spärlichen Motive könnten als Bausteine für effizientere Netzarchitekturen oder Transfer-Learning dienen.
- Neurowissenschaft: Generiert experimentell überprüfbare Hypothesen über die Funktion von Interneuronen und die Entstehung dynamischer rezeptiver Felder.

Fazit: CODEC verschiebt den Fokus von der reinen Beobachtung von Aktivierungen hin zur Analyse kausaler Beiträge. Es etabliert „Contribution Modes" als eine fundamentale Einheit, um zu erklären, wie komplexe Netzwerke Eingaben in sinnvolle Ausgaben transformieren, und liefert damit tiefere mechanistische Einblicke in sowohl künstliche als auch biologische Intelligenz.