CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, das Gehirn eines sehr klugen Roboters (eines KI-Modells) zu verstehen, um herauszufinden, warum er eine bestimmte Antwort gibt. Du willst wissen: Welche kleinen Teile im Inneren arbeiten zusammen, um diese Entscheidung zu treffen? In der KI-Forschung nennt man diese zusammenarbeitenden Teile einen „Schaltkreis" (Circuit).

Das Problem ist: Bisher war es wie bei einem Detektiv, der einen Fall löst, aber jeder Detektiv zieht ein anderes Maßband heran.

Der eine sagt: „Wir behalten nur die 10 wichtigsten Teile."
Der andere sagt: „Nein, wir behalten die 50 wichtigsten."
Ein dritter benutzt eine andere Art von Werkzeugkasten.

Das Ergebnis? Jeder Detektiv zeigt dir einen anderen Schaltkreis. Niemand weiß, welcher davon der „wahre" ist. Ist das, was wir sehen, ein echtes Muster oder nur ein Zufall, weil wir die Messlatte zu hoch oder zu niedrig gelegt haben?

Hier kommt CIRCUS ins Spiel. Der Name steht für „Circuit Consensus under Uncertainty via Stability Ensembles" (Schaltkreis-Konsens unter Unsicherheit durch Stabilitäts-Ensembles). Klingt kompliziert, ist aber im Kern eine geniale Idee: Wir hören auf, nach der einen perfekten Antwort zu suchen, und fragen stattdessen nach dem, wofür sich alle einig sind.

Die Analogie: Der große Stadtplan

Stell dir vor, du willst den perfekten Stadtplan für eine Stadt zeichnen, aber du hast keine genauen Karten. Du fragst also 25 verschiedene Stadtführer (das sind unsere „Konfigurationen" oder „Pruning-Thresholds").

Der alte Weg: Du nimmst einen Führer, der sagt: „Hier sind die 50 wichtigsten Straßen." Und fertig. Aber was, wenn ein anderer Führer sagt: „Nein, diese Straße ist unwichtig, aber diese andere ist es!"? Du hast jetzt zwei widersprüchliche Karten.
Der CIRCUS-Weg: Du fragst alle 25 Führer nach ihren Karten.
- Du legst alle 25 Karten übereinander.
- Du suchst nach den Straßen, die auf jeder einzelnen Karte eingezeichnet sind.
- Diese Straßen nennst du den „Kern-Schaltkreis" (Core Circuit). Das sind die Straßen, die so wichtig sind, dass sie auch dann noch da sind, wenn man die Messregeln leicht ändert.

Was macht CIRCUS besonders?

1. Der „Stabilitäts-Score" (Wie oft wurde die Straße gesehen?)
CIRCUS gibt jeder Verbindung im KI-Gehirn eine Punktzahl.

100 Punkte: Diese Verbindung war auf allen 25 Karten zu sehen. Das ist ein Kern-Teil. Wir können uns darauf verlassen.
50 Punkte: Diese Verbindung war nur auf der Hälfte der Karten. Das ist ein kontingenter Teil (eine alternative Route). Vielleicht ist sie wichtig, aber nur unter bestimmten Bedingungen.
10 Punkte: Diese Verbindung tauchte nur einmal auf. Das ist wahrscheinlich Rauschen (Zufall). Wir können es ignorieren.

2. Die „Zwiebel-Methode"
Statt eine einzige, riesige, unübersichtliche Karte zu zeichnen, schält CIRCUS die Zwiebel:

Die Schale (Kern): Die winzige, aber extrem stabile Mitte. In den Tests war dieser Kern 40-mal kleiner als die Summe aller möglichen Karten, erklärte aber fast genauso viel von der KI-Entscheidung!
Das Fruchtfleisch (Alternativen): Die Teile, die oft, aber nicht immer vorkommen. CIRCUS sagt: „Schau mal, hier gibt es noch andere Wege, die wichtig sein könnten, wenn du die Regeln änderst."
Der Schalenrest (Rauschen): Alles, was nur einmal vorkam, wird verworfen.

3. Kein neues Training nötig
Das Tolle ist: CIRCUS muss das KI-Modell nicht neu lernen oder umbauen. Es nimmt einfach die Daten, die schon da sind (die „rohen" Karten), und legt sie wie einen Stapel Papier übereinander, um das Muster zu finden. Es kostet fast keine extra Zeit.

Warum ist das wichtig?

Bisher waren KI-Erklärungen oft „brittle" (brüchig). Wenn man die Einstellungen nur ein bisschen änderte, sah die Erklärung komplett anders aus. Das machte es schwer, der KI zu vertrauen oder sie zu überprüfen (Auditieren).

CIRCUS sagt: „Wir sind uns nicht sicher, welche eine Karte die beste ist, aber wir sind uns zu 100 % sicher, dass diese wenigen Straßen im Kern absolut notwendig sind."

In Tests mit echten KI-Modellen (wie Llama und Gemma) hat sich gezeigt:

Die „Kern-Schaltkreise" sind winzig klein, aber mächtig.
Wenn man diese Kern-Teile im KI-Modell manipuliert (wie einen Chirurgen, der genau weiß, wo er schneidet), ändert sich die Antwort der KI drastisch. Das beweist, dass CIRCUS wirklich die wichtigen Teile gefunden hat und nicht nur zufällige Muster.

Zusammenfassung in einem Satz

CIRCUS ist wie ein Weisheitsrat aus vielen Experten: Anstatt auf die Meinung eines einzelnen zu hören, der vielleicht voreingenommen ist, sucht es nach dem Konsens aller. So finden wir die wirklich wichtigen Teile im KI-Gehirn, die auch dann noch funktionieren, wenn wir die Messregeln ändern – und wir können die unsicheren Teile getrost ignorieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die mechanistische Interpretierbarkeit von neuronalen Netzen zielt darauf ab, „Schaltungen" (Circuits) – also spärliche Teilgraphen des Modells, die ein bestimmtes Verhalten kausal unterstützen – zu identifizieren. Der aktuelle Standard für die Entdeckung solcher Schaltungen basiert auf Attributionsgraphen, die durch das Pruning (Beschneiden) großer Graphen entstehen.

Das zentrale Problem ist die hohe Sensitivität gegenüber willkürlichen Analysten-Entscheidungen:

Pruning-Schwellenwerte: Die Wahl der Schwellenwerte für Knoten- und Kanten-Beiträge bestimmt, welche Kanten im finalen Graphen verbleiben.
Feature-Dictionaries: Die Wahl des verwendeten Feature-Wörterbuchs (z. B. welcher Transcoder-Checkpoint) beeinflusst die Struktur des Graphen.

Dies führt zu „brittle" (zerbrechlichen) Einmal-Erklärungen ohne ein prinzipielles Maß für Unsicherheit. Unterschiedliche Konfigurationen liefern unterschiedliche Kanten und Interpretationen, ohne dass klar ist, welche Struktur stabil ist und welche ein Artefakt der gewählten Parameter ist.

2. Methodik: CIRCUS

CIRCUS (Circuit Consensus under Uncertainty via Stability Ensembles) reframed das Problem der Schaltungsentdeckung als ein Problem der Unsicherheitsquantifizierung. Anstatt einen einzigen Graphen zu berichten, nutzt der Ansatz ein Ensemble-Verfahren (Bagging), um Stabilität zu messen.

Der Workflow:

Single Attribution Run: Es wird nur eine einzige Roh-Attribution (basierend auf einem Cross-Layer Transcoder, CLT) durchgeführt.
Config-Bagging: Anstatt neue Daten zu resample, wird der Parameterraum (Pruning-Schwellenwerte und Dictionary-Optionen) variiert. Aus einem Lauf werden $B$ verschiedene „Views" (beschneidene Graphen) generiert, indem verschiedene Konfigurationen $\pi$ angewendet werden.
Stabilitäts-Score: Für jede Kante $e$ wird ein Stabilitäts-Score $s(e)$ berechnet. Dies ist der Anteil der Views, in denen die Kante enthalten ist:
$s(e) = \frac{1}{B} \sum_{b=1}^{B} \mathbb{I}[e \in E(b)]$
$s(e) = 1$ bedeutet, die Kante erscheint in allen Konfigurationen.
Konsens-Extraktion:
- Strict Consensus ( $C_1$ ): Nur Kanten mit $s(e) = 1$ (in allen Views vorhanden). Dies bildet den „Kern" der Schaltung.
- Exploratorischer Konsens ( $C_\tau$ ): Kanten mit $s(e) \ge \tau$ (z. B. $\tau = 2/3$ ) für eine breitere Suche.
- Rejektion: Kanten mit niedriger Stabilität werden als Unsicherheit oder Rauschen markiert und können verworfen werden.
Boosting (Residual Uncertainty): Falls der strikte Konsens zu wenig Einfluss (Influence Retained, IR) erklärt, wird ein zweiter Graph aus den Restkanten (Residual Graph) erstellt, um „kontingente" Pfade zu identifizieren, die in manchen Konfigurationen fehlen, aber kausal relevant sein könnten.

Taxonomie der Kanten:

Core: Stabilität = 1 (robust gegenüber Analysten-Entscheidungen).
Contingent: Mittlere Stabilität, aber hoher Einfluss (alternative Pfade).
Noise: Niedrige Stabilität und niedriger Einfluss.

3. Wichtige Beiträge

Methodischer Beitrag: Einführung einer Pipeline, die Attributionsgraphen durch Variation von Pruning-Konfigurationen (ohne Neutrainen des Modells) ensemble-basiert analysiert.
Unsicherheits-De-Komposition: Unterscheidung zwischen epistemischer Unsicherheit (durch Analysten-Entscheidungen wie Schwellenwerte) und instanz-basierter Variabilität (durch verschiedene Prompts).
Effizienz: Der Ansatz erfordert kein erneutes Training des Modells und fügt nur einen vernachlässigbaren Overhead hinzu, da er bereits berechnete Attributionsdaten aggregiert.
Interpretierbarkeit: Liefert eine explizite Dekomposition in Kern, kontingente Alternativen und Rauschen, was eine auditierbare Berichterstattung ermöglicht.

4. Ergebnisse

Die Methode wurde auf den Modellen Gemma-2-2B und Llama-3.2-1B getestet.

Größenreduktion: Der strikte Konsens ( $\tau=1$ ) ist im Durchschnitt ca. 40-mal kleiner als die Vereinigung aller Konfigurationen (Union), behält aber eine vergleichbare Erklärungskraft (Influence Retained, IR).
Vergleich mit Baselines: Der Konsens übertrifft eine Baseline, bei der die Union-Graphen auf die gleiche Kantenanzahl wie der Konsens zurückgeschnitten werden (bei gleicher Budgetgröße hat der Konsens einen höheren IR).
Kausale Validierung (Activation Patching):
- Knoten, die im Konsens identifiziert wurden, zeigten bei Aktivierungs-Patching-Experimenten eine signifikant bessere kausale Wirkung als nicht-konsistente Kontrollgruppen.
- Statistische Signifikanz: $p = 0.0004$ (Konsens vs. gematchte Kontrolle).
Robustheit: Über 20 verschiedene Prompts hinweg hielt der Konsens die „Sanity Check"-Bedingung (IR des Konsens $\ge$ IR der schlechtesten Einzelkonfiguration) in 20/20 Fällen ein.
Trade-off: Der strikte Konsens opfert einen kleinen Teil des maximalen IR (ca. 16 % unter dem besten einzelnen Schwellenwert), gewinnt aber massiv an Kompaktheit (nur 2,5 % der Kanten des besten Single-Config-Graphen).

5. Bedeutung und Fazit

CIRCUS adressiert ein fundamentales Problem der mechanistischen Interpretierbarkeit: Die mangelnde Zuverlässigkeit von Schaltungs-Entdeckungen aufgrund von Parametervariationen.

Vertrauenswürdigkeit: Durch die explizite Quantifizierung von Unsicherheit können Forscher sicher sein, dass die berichteten „Kern-Schaltungen" nicht nur Artefakte einer spezifischen Schwellenwert-Wahl sind.
Praktikabilität: Da keine Neukonfiguration oder Neutraining nötig ist, kann die Methode leicht in bestehende Pipelines integriert werden.
Neue Perspektive: Statt nach der „einen wahren Schaltung" zu suchen, liefert CIRCUS ein differenziertes Bild aus einem stabilen Kern, alternativen Pfaden und unsicherem Rauschen. Dies ermöglicht eine fundiertere Entscheidungsfindung darüber, welche Teile eines Modells tatsächlich für ein Verhalten verantwortlich sind.

Zusammenfassend bietet CIRCUS einen Rahmen für unsicherheitsbewusste, auditable und robuste mechanistische Erklärungen, die über die bloße Darstellung eines einzelnen Graphen hinausgehen.

CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles

Die Analogie: Der große Stadtplan

Was macht CIRCUS besonders?

Warum ist das wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: CIRCUS

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá