CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je probeert te begrijpen hoe een heel slim, maar geheimzinnig robotbrein (een AI) een antwoord bedenkt. Wetenschappers noemen dit "mechanistische interpretatie". Ze proberen de interne bedrading van de robot te tekenen: welke knoppen worden er ingedrukt en welke lampjes gaan branden om tot een beslissing te komen?

Het probleem is dat deze tekeningen vaak heel fragiel zijn. Het hangt af van hoe de onderzoeker de schaar hanteert. Als je de schaar net iets anders vasthoudt (een andere "drempelwaarde"), krijg je een heel ander plaatje. Het is alsof je een foto van een bos maakt: als je te dichtbij staat, zie je alleen bladeren; als je te ver weg staat, zie je alleen bomen. Er is geen eenduidig antwoord, en niemand weet welke versie "echt" is.

CIRCUS is de oplossing die de auteur, Swapnil Parekh, voorstelt. De naam staat voor Circuit Consensus under Uncertainty via Stability Ensembles. Laten we dit in gewone taal uitleggen met een paar creatieve analogieën.

1. Het Probleem: De "Eén-op-een" Foto

Stel je voor dat je een groep detectives (de onderzoekers) vraagt om een verdachte te vinden in een drukke stad (het AI-model).

Detective A kijkt alleen naar mensen in rode jassen.
Detective B kijkt alleen naar mensen met hoeden.
Detective C kijkt alleen naar mensen die hardlopen.

Elke detective maakt een lijstje met verdachten. Maar omdat ze allemaal naar iets anders kijken, zijn hun lijsten heel verschillend. Als je nu één lijstje kiest, is dat puur geluk of willekeur. Je weet niet welke lijst betrouwbaar is.

2. De Oplossing: CIRCUS (Het "Meerdere Ogen"-Principe)

CIRCUS zegt: "Laten we niet kiezen. Laten we alle detectives tegelijk laten kijken, maar dan op een slimme manier."

In plaats van één keer te kijken, laten we de computer 25 keer hetzelfde onderzoek doen, maar telkens met een heel klein beetje andere instellingen (zoals de scherpheid van de camera of de afstand). Dit noemen ze "bagging" (een verzamelterm voor het maken van veel versies).

Nu hebben we 25 verschillende lijsten met "verdachte" onderdelen van de AI.

3. De Stabiliteits-Score: Het "Gouden Stem"

Nu komt het magische deel. CIRCUS kijkt naar elke "verdachte" (elk stukje bedrading in de AI) en stelt de vraag: "Hoe vaak werd deze verdachte door alle detectives genoemd?"

Als een stukje bedrading in alle 25 lijsten voorkomt, krijgt het een stabiliteits-score van 100%. Dit is een "Gouden Stem". We weten zeker dat dit belangrijk is, ongeacht hoe we de camera instelden.
Als een stukje bedrading maar in 1 of 2 lijsten voorkomt, is het waarschijnlijk toeval of ruis.

Dit is als een jury: als 25 juryleden allemaal zeggen dat iemand schuldig is, is het waarschijnlijk waar. Als maar één jurylid het zegt, twijfelen we.

4. Het Resultaat: De "Kern" en de "Alternatieven"

CIRCUS maakt nu drie soorten lijsten:

De Kern (Strict Consensus): Dit zijn alleen de onderdelen die in alle lijsten stonden.
- Analogie: Dit is de kern van de zaak. Het is zo klein en krachtig dat het 40 keer kleiner is dan de totale lijst van alle detectives samen, maar het verklaart nog steeds bijna net zo goed hoe de AI werkt. Het is de "onbetwiste waarheid".
De Alternatieven (Contingent): Dit zijn onderdelen die vaak, maar niet altijd, voorkomen.
- Analogie: Dit zijn de "misschien"-paden. Ze zijn belangrijk, maar afhankelijk van de omstandigheden. CIRCUS zegt: "Kijk hier eens naar, maar wees voorzichtig."
De Ruis (Noise): Alles wat maar één keer voorkwam.
- Analogie: Dit is gewoon ruis. CIRCUS zegt: "Doe hier niets mee, dit is waarschijnlijk een foutje."

5. Waarom is dit zo cool?

Geen extra werk: De computer hoeft niet opnieuw getraind te worden. Het is alsof je bestaande foto's opnieuw bekijkt in plaats van nieuwe te maken. Het kost bijna geen tijd.
Betrouwbaarheid: De auteurs hebben getest of deze "Kern" echt werkt. Ze hebben onderdelen uit de kern eruit gehaald en de AI "verwond". De AI viel dan flink in elkaar. Als ze onderdelen uit de "ruis" verwijderden, gebeurde er niets. Dit bewijst dat de CIRCUS-kern echt de motor van de AI aanstuurt.
Transparantie: In plaats van één mysterieuze tekening te geven, geeft CIRCUS je een duidelijke kaart met: "Dit is zeker waar (Kern), dit is mogelijk waar (Alternatief), en dit is onzeker (Ruis)."

Samenvatting

Vroeger was het vinden van de interne werking van AI's als het proberen te raden van een recept door één keer te proeven. Soms was het te zout, soms te zoet, en je wist niet of het aan de kok of aan je eigen smaakpapillen lag.

CIRCUS is alsof je 25 keer proeft met verschillende smaken en dan kijkt naar wat altijd terugkomt. Wat altijd terugkomt, is het echte recept. Wat soms terugkomt, is een variatie. En wat nooit terugkomt, is gewoon ruis.

Hiermee kunnen we eindelijk zeggen: "We weten het nu zeker, dit is hoe de AI denkt," zonder bang te hoeven zijn dat we toevallig op de verkeerde knop hebben gedrukt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Mechanistische circuitontdekking (het identificeren van de specifieke subgrafieken in een neurale netwerkmotor die verantwoordelijk zijn voor een bepaald gedrag) is extreem gevoelig voor willekeurige keuzes van de analist. De twee belangrijkste variabelen zijn:

Pruning-thresholds: De drempelwaarden die bepalen welke kanten (edges) en knopen (nodes) in het attribuutgrafiek behouden blijven.
Feature-dictionaries: De keuze van de feature-modellen (bijvoorbeeld welke transcoder-checkpoint wordt gebruikt).

Huidige methoden leveren vaak een enkelvoudig, "eenmalig" resultaat op ("one-shot explanations") zonder een principieel begrip van onzekerheid. Verschillende keuzes leiden tot verschillende circuits en interpretaties, waardoor het moeilijk is om onderscheid te maken tussen stabiele structuren en artefacten veroorzaakt door de analyse-instellingen. Er is geen methode om deze variabiliteit systematisch te kwantificeren.

Methodologie: CIRCUS

De auteurs introduceren CIRCUS (Circuit Consensus under Uncertainty via Stability Ensembles), een methode die circuitontdekking herformuleert als een probleem van onzekerheidskwantificatie. In plaats van één grafiek te rapporteren, bouwt CIRCUS een ensemble van attribuutgrafieken op basis van variatie in de analyse-instellingen.

De kernstappen zijn:

Config-Bagging: Uitgaande van één enkele ruwe attributierun, worden meerdere "weergaven" (views) gegenereerd door te variëren in pruning-configuraties (bijv. verschillende drempelwaarden voor knopen en kanten). Er is geen hertraining van het model nodig; het proces is computergunstig.
Stabiliteitscores: Voor elke kant $e$ in het grafiek wordt een stabiliteitsscore $s(e)$ berekend. Dit is het fractie van de configuraties waarin die kant behouden blijft:
$s(e) = \frac{1}{B} \sum_{b=1}^{B} \mathbb{I}[e \in E^{(b)}]$
waarbij $B$ het aantal configuraties is. Een score van 1 betekent dat de kant in alle weergaven voorkomt.
Consensus en Taxonomie:
- Strict Consensus ( $C_{\tau=1}$ ): De subgrafiek bestaande uit kanten met $s(e) = 1$ . Dit vormt de "core" circuit, robuust tegen drempelkeuzes.
- Contingent: Kanten met middelhoge stabiliteit maar hoge invloed. Dit zijn alternatieve paden die afhankelijk zijn van specifieke instellingen.
- Noise: Kanten met lage stabiliteit en lage invloed, die kunnen worden afgewezen.
Boosting (Residuale Analyse): Als de strict consensus niet genoeg invloed (Influence Retained - IR) verklaart, wordt een "boosted" circuit gebouwd door de resterende invloed te analyseren op een residu-grafiek (waarbij de core-kanten zijn uitgezet).

Belangrijkste Bijdragen

Methodologisch: Een "bagged-circuit" pipeline die stabiliteitsscores toekent en een strikt-consensus circuit extrahert met een expliciete interface voor afwijzing (rejection) en alternatieven.
Onzekerheidsdecompositie: Het onderscheidt tussen epistemische onzekerheid (variatie door analytische keuzes zoals thresholds) en instance-variabiliteit (variatie tussen verschillende prompts).
Efficiëntie: De methode vereist geen hertraining en voegt verwaarloosbare rekentijd toe, omdat het structurele overeenkomsten aggregeert over reeds berekende grafieken.
Validatie: Het introduceert een taxonomie van "core / contingent / noise" die het mogelijk maakt om onbetrouwbare onderdelen van een circuit expliciet te markeren.

Resultaten

De methode is getest op de modellen Gemma-2-2B en Llama-3.2-1B met behulp van cross-layer transcoders.

Grootte vs. Invloed: Strict consensus circuits zijn ongeveer 40 keer kleiner dan de vereniging (union) van alle configuraties, terwijl ze een vergelijkbare "influence retained" (IR) behouden.
- Voorbeeld: In een test had de union 25.478 kanten (IR 0.93), terwijl de strict consensus slechts 625 kanten had (IR 0.78).
Superioriteit ten opzichte van baselines: Het consensus circuit presteert beter dan een "same-edge-budget" baseline (waarbij de union wordt gepreuned om evenveel kanten te hebben als de consensus). De consensus behaalde een IR van 0.78 tegen 0.73 voor de baseline.
Causale Validatie (Activation Patching):
- Nodes geïdentificeerd door het consensus-circuit presteerden significant beter dan niet-consensus controles bij activation patching experimenten ( $p = 0.0004$ ).
- Dit bewijst dat de stabiele structuren causaal relevant zijn voor de voorspellingen van het model.
Robuustheid: De methode bleek robuust over 20 verschillende prompts, waarbij de "sanity check" (dat de consensus minstens evenveel invloed behoudt als de slechtste enkele configuratie) in 100% van de gevallen slaagde.
Boosting: Door het toevoegen van het residu-circuit ( $C_2$ ) kan de IR worden verhoogd naar 0.96, hoewel dit ten koste gaat van de compactheid.

Betekenis en Conclusie

CIRCUS biedt een praktische, onzekerheidsbewuste framework voor het rapporteren van betrouwbare en auditabele mechanistische circuits.

Vertrouwen: Het stelt onderzoekers in staat om te onderscheiden tussen structuren die consistent zijn over verschillende analyse-instellingen (de "core") en structuren die gevoelig zijn voor willekeurige keuzes (de "contingent" of "noise").
Interpreteerbaarheid: Door de grootte van het circuit drastisch te reduceren (factor 40) zonder grote verliezen in verklarende kracht, maakt het de analyse van grote taalmodellen veel hanteerbaarder.
Toekomst: De auteurs wijzen erop dat volledige "faithfulness" (via replacement-model masking) nog toekomstwerk is, maar dat CIRCUS een cruciale stap is in het systematisch omgaan met de onzekerheid die inherent is aan mechanistische interpretatie.

Samenvattend transformeert CIRCUS de circuitontdekking van een zoektocht naar één "waarheid" naar een proces van het kwantificeren van stabiliteit, waardoor de resultaten wetenschappelijk robuuster en praktischer toepasbaar worden.

CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles

1. Het Probleem: De "Eén-op-een" Foto

2. De Oplossing: CIRCUS (Het "Meerdere Ogen"-Principe)

3. De Stabiliteits-Score: Het "Gouden Stem"

4. Het Resultaat: De "Kern" en de "Alternatieven"

5. Waarom is dit zo cool?

Samenvatting

Probleemstelling

Methodologie: CIRCUS

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá