CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles

Het artikel introduceert CIRCUS, een methode die circuitontdekking in neurale netwerken omvormt tot een probleem van onzekerheidskwantificering door een ensemble van attributiegrafieken te analyseren om zo een robuust, betrouwbaar 'kern'-circuit te identificeren dat onafhankelijk is van willekeurige analytische keuzes.

Swapnil Parekh

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je probeert te begrijpen hoe een heel slim, maar geheimzinnig robotbrein (een AI) een antwoord bedenkt. Wetenschappers noemen dit "mechanistische interpretatie". Ze proberen de interne bedrading van de robot te tekenen: welke knoppen worden er ingedrukt en welke lampjes gaan branden om tot een beslissing te komen?

Het probleem is dat deze tekeningen vaak heel fragiel zijn. Het hangt af van hoe de onderzoeker de schaar hanteert. Als je de schaar net iets anders vasthoudt (een andere "drempelwaarde"), krijg je een heel ander plaatje. Het is alsof je een foto van een bos maakt: als je te dichtbij staat, zie je alleen bladeren; als je te ver weg staat, zie je alleen bomen. Er is geen eenduidig antwoord, en niemand weet welke versie "echt" is.

CIRCUS is de oplossing die de auteur, Swapnil Parekh, voorstelt. De naam staat voor Circuit Consensus under Uncertainty via Stability Ensembles. Laten we dit in gewone taal uitleggen met een paar creatieve analogieën.

1. Het Probleem: De "Eén-op-een" Foto

Stel je voor dat je een groep detectives (de onderzoekers) vraagt om een verdachte te vinden in een drukke stad (het AI-model).

  • Detective A kijkt alleen naar mensen in rode jassen.
  • Detective B kijkt alleen naar mensen met hoeden.
  • Detective C kijkt alleen naar mensen die hardlopen.

Elke detective maakt een lijstje met verdachten. Maar omdat ze allemaal naar iets anders kijken, zijn hun lijsten heel verschillend. Als je nu één lijstje kiest, is dat puur geluk of willekeur. Je weet niet welke lijst betrouwbaar is.

2. De Oplossing: CIRCUS (Het "Meerdere Ogen"-Principe)

CIRCUS zegt: "Laten we niet kiezen. Laten we alle detectives tegelijk laten kijken, maar dan op een slimme manier."

In plaats van één keer te kijken, laten we de computer 25 keer hetzelfde onderzoek doen, maar telkens met een heel klein beetje andere instellingen (zoals de scherpheid van de camera of de afstand). Dit noemen ze "bagging" (een verzamelterm voor het maken van veel versies).

Nu hebben we 25 verschillende lijsten met "verdachte" onderdelen van de AI.

3. De Stabiliteits-Score: Het "Gouden Stem"

Nu komt het magische deel. CIRCUS kijkt naar elke "verdachte" (elk stukje bedrading in de AI) en stelt de vraag: "Hoe vaak werd deze verdachte door alle detectives genoemd?"

  • Als een stukje bedrading in alle 25 lijsten voorkomt, krijgt het een stabiliteits-score van 100%. Dit is een "Gouden Stem". We weten zeker dat dit belangrijk is, ongeacht hoe we de camera instelden.
  • Als een stukje bedrading maar in 1 of 2 lijsten voorkomt, is het waarschijnlijk toeval of ruis.

Dit is als een jury: als 25 juryleden allemaal zeggen dat iemand schuldig is, is het waarschijnlijk waar. Als maar één jurylid het zegt, twijfelen we.

4. Het Resultaat: De "Kern" en de "Alternatieven"

CIRCUS maakt nu drie soorten lijsten:

  1. De Kern (Strict Consensus): Dit zijn alleen de onderdelen die in alle lijsten stonden.
    • Analogie: Dit is de kern van de zaak. Het is zo klein en krachtig dat het 40 keer kleiner is dan de totale lijst van alle detectives samen, maar het verklaart nog steeds bijna net zo goed hoe de AI werkt. Het is de "onbetwiste waarheid".
  2. De Alternatieven (Contingent): Dit zijn onderdelen die vaak, maar niet altijd, voorkomen.
    • Analogie: Dit zijn de "misschien"-paden. Ze zijn belangrijk, maar afhankelijk van de omstandigheden. CIRCUS zegt: "Kijk hier eens naar, maar wees voorzichtig."
  3. De Ruis (Noise): Alles wat maar één keer voorkwam.
    • Analogie: Dit is gewoon ruis. CIRCUS zegt: "Doe hier niets mee, dit is waarschijnlijk een foutje."

5. Waarom is dit zo cool?

  • Geen extra werk: De computer hoeft niet opnieuw getraind te worden. Het is alsof je bestaande foto's opnieuw bekijkt in plaats van nieuwe te maken. Het kost bijna geen tijd.
  • Betrouwbaarheid: De auteurs hebben getest of deze "Kern" echt werkt. Ze hebben onderdelen uit de kern eruit gehaald en de AI "verwond". De AI viel dan flink in elkaar. Als ze onderdelen uit de "ruis" verwijderden, gebeurde er niets. Dit bewijst dat de CIRCUS-kern echt de motor van de AI aanstuurt.
  • Transparantie: In plaats van één mysterieuze tekening te geven, geeft CIRCUS je een duidelijke kaart met: "Dit is zeker waar (Kern), dit is mogelijk waar (Alternatief), en dit is onzeker (Ruis)."

Samenvatting

Vroeger was het vinden van de interne werking van AI's als het proberen te raden van een recept door één keer te proeven. Soms was het te zout, soms te zoet, en je wist niet of het aan de kok of aan je eigen smaakpapillen lag.

CIRCUS is alsof je 25 keer proeft met verschillende smaken en dan kijkt naar wat altijd terugkomt. Wat altijd terugkomt, is het echte recept. Wat soms terugkomt, is een variatie. En wat nooit terugkomt, is gewoon ruis.

Hiermee kunnen we eindelijk zeggen: "We weten het nu zeker, dit is hoe de AI denkt," zonder bang te hoeven zijn dat we toevallig op de verkeerde knop hebben gedrukt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →