Circuit Insights: Towards Interpretability Beyond Activations

Dit paper introduceert WeightLens en CircuitLens, twee methoden die de interpretatie van neurale netwerken verbeteren door direct van gewichten te leren en interacties tussen componenten te analyseren, waardoor de afhankelijkheid van externe modellen en datasets wordt verwijderd en schaalbare mechanische interpretatie mogelijk wordt.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri, Ammar Ibrahim, Wojciech Samek, Sebastian Lapuschkin

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Grote Uitdaging: Het "Zwarte Doos" Probleem

Stel je een kunstmatige intelligentie (zoals een chatbot) voor als een gigantisch, complex horloge met miljarden tandwieltjes. We weten dat het horloge de tijd goed aangeeft, maar we hebben geen idee welk tandwiel precies zorgt voor de seconden of hoe ze allemaal samenwerken.

Tot nu toe probeerden onderzoekers dit horloge te begrijpen door te kijken naar activaties. Dat is alsof je door een klein gaatje in het horloge kijkt en ziet welk tandwiel op dat moment beweegt. Het probleem? Soms bewegen tandwielen heel snel en chaotisch, of bewegen ze alleen als je de zon erop schijnt (de context). Het is lastig om te zien wat ze echt doen als je alleen naar die bewegingen kijkt.

De auteurs van dit paper zeggen: "Kijk niet alleen naar wie beweegt, maar kijk ook naar hoe ze verbonden zijn." Ze introduceren twee nieuwe methoden: WeightLens en CircuitLens.


🔍 1. WeightLens: De "Blauwdruk" Lezen

Het idee:
In plaats van te wachten tot het horloge draait en te kijken welke tandwielen bewegen, kijken we direct naar de blauwdruk (de gewichten) van het horloge.

De analogie:
Stel je voor dat je een recept voor een taart hebt.

  • Oude methode: Je kijkt naar de taart terwijl hij in de oven zit en probeert te raden wat erin zit door te ruiken (activaties).
  • WeightLens: Je leest gewoon de ingrediëntenlijst op het pakje. Je ziet direct: "Ah, hier staat 'meel' en 'suiker'". Je hoeft niet te wachten tot de taart gebakken is.

Wat doet het?

  • Het analyseert de vaste verbindingen tussen de onderdelen van het AI-model.
  • Het kan vertellen wat een bepaald onderdeel doet, zelfs zonder dat je het model laat werken met een enorme dataset.
  • Het werkt heel goed voor onderdelen die altijd hetzelfde doen, ongeacht wat er gebeurt (zoals het herkennen van een specifiek woord).

Het nadeel:
Soms werken tandwielen alleen samen als je ze in een heel specifieke situatie zet. De blauwdruk laat dat niet altijd zien.


🔗 2. CircuitLens: De "Verkeersstroom" Analyseren

Het idee:
Soms is de blauwdruk niet genoeg. Soms werkt een tandwiel alleen als er een andere, verborgen stroom van energie doorheen gaat. CircuitLens kijkt naar de circuits (de routes) die de informatie neemt.

De analogie:
Stel je een drukke stad voor met verkeerslichten en wegen.

  • Oude methode: Je telt hoeveel auto's er op een kruispunt staan (activaties). Maar je weet niet waarom ze daar staan.
  • CircuitLens: Je kijkt naar de routes die de auto's nemen. Je ziet: "Oh, deze auto's komen allemaal van de school en gaan naar het station." Je ziet het patroon van de stroom, niet alleen de auto's zelf.

Wat doet het?

  • Het isoleert welke woorden in een zin een bepaald onderdeel van de AI activeren.
  • Het kijkt ook naar wat er na die activatie gebeurt: welke woorden produceert de AI nu?
  • Het groepeert verschillende situaties in "clusters". Stel, een onderdeel reageert op "hond" én "kat". De oude methode zou zeggen: "Het is een dier-herkenner." CircuitLens ziet misschien twee aparte groepen: één voor huisdieren en één voor wilde dieren, en legt dat uit.

🚀 Waarom is dit zo belangrijk?

Tot nu toe moesten onderzoekers vaak een andere, nog grotere AI (een "uitleg-AI") vragen om te raden wat een klein onderdeel deed. Dat is als een tolk gebruiken om een gesprek te vertalen, maar die tolk maakt soms fouten of verzint dingen.

Met WeightLens en CircuitLens doen de onderzoekers dit zelf, direct op de structuur van het model:

  1. Betrouwbaarder: Ze vertrouwen minder op toeval of grote datasets.
  2. Sneller: Ze hoeven niet urenlang te wachten op reacties van een andere AI.
  3. Dieper: Ze zien niet alleen wat er gebeurt, maar waarom het gebeurt (de onderliggende schakelingen).

🏁 Conclusie

De auteurs zeggen eigenlijk: "Om een machine echt te begrijpen, moet je niet alleen kijken naar wie er aan het werk is (activaties), maar ook naar de vaste verbindingen (WeightLens) en de routes die de informatie aflegt (CircuitLens)."

Door deze twee methoden te combineren, krijgen we eindelijk een helder beeld van hoe die complexe "AI-horloges" echt werken, zonder dat we hoeven te gissen. Dit maakt AI veiliger en betrouwbaarder, bijvoorbeeld in de geneeskunde of bij het nemen van belangrijke beslissingen.