Select, Hypothesize and Verify: Towards Verified Neuron Concept Interpretation

Deze paper introduceert het Select-Hypothesize-Verify-framework, dat de interpretatie van neurale netwerken verbetert door het selecteren van representatieve activaties, het vormen van concepthypothese en het verifiëren van deze concepten om misleidende of redundante neuronfuncties te elimineren en zo nauwkeurigere conceptbeschrijvingen te genereren.

ZeBin Ji, Yang Hu, Xiuli Bi, Bo Liu, Bin Xiao

Gepubliceerd 2026-03-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (zoals een AI die foto's herkent) een enorme fabriek is met miljoenen kleine werknemers. Deze werknemers zijn de neuronen in het netwerk. Elke werknemer doet iets specifieks: de één herkent misschien "haren", de ander "ogen" en weer een ander "kleur".

Het probleem is dat we vaak niet weten wat deze werknemers precies doen. De huidige methoden om dit uit te leggen, doen alsof elke werknemer een duidelijke taak heeft en dat we hun werk gewoon kunnen beschrijven. Maar in werkelijkheid zijn er ook werknemers die niets nuttigs doen, of die juist verkeerde dingen doen. Als we hen verkeerd beschrijven, denken we dat de AI iets begrijpt wat ze helemaal niet begrijpen.

De auteurs van dit paper hebben een nieuwe manier bedacht om deze werknemers te controleren. Ze noemen hun methode SIEVE (een zeef), en het werkt in drie stappen, net zoals een wetenschapper die een nieuw idee test.

Hier is hoe het werkt, vertaald in alledaags taal:

Stap 1: Selecteren (De beste werknemers kiezen)

Stel je voor dat je een groep werknemers wilt observeren. Je kijkt niet naar iedereen, maar alleen naar diegenen die echt enthousiast en actief zijn wanneer ze een specifieke foto zien.

  • De analogie: Stel je een dansfeest voor. Je wilt weten wat een specifieke gast leuk vindt. Je kijkt niet naar iedereen die dansen, maar alleen naar diegenen die extreem enthousiast reageren op een bepaald soort muziek. Als iemand soms wel en soms niet reageert, is dat waarschijnlijk geen echte voorkeur. De methode filtert dus alleen de "sterke" reacties eruit om te zien wat de werknemer echt leuk vindt.

Stap 2: Hypothese (Een gok doen over de taak)

Nu je de enthousiaste reacties hebt, probeer je te raden wat ze eigenlijk doen.

  • De analogie: Je ziet dat de gasten heel blij worden van foto's van honden met lange haren. Je maakt een gok (een hypothese): "Deze werknemer houdt van 'hond met lange haren'."
  • In de oude methoden hielden ze hier vaak al op. Ze zeiden: "Oké, het is een hond." Maar ze checkten niet of dat echt klopt.

Stap 3: Verifiëren (De proef op de som nemen)

Dit is het belangrijkste nieuwe deel. In plaats van alleen maar te gokken, gaan ze het testen.

  • De analogie: Je zegt tegen de AI: "Maak maar eens 100 nieuwe foto's van honden met lange haren." Vervolgens laat je die foto's aan de werknemer zien.
    • Succes: Als de werknemer bij 98 van de 100 nieuwe foto's weer heel enthousiast wordt, dan was je gok goed! De werknemer houdt echt van honden met lange haren.
    • Mislukking: Als de werknemer bij de nieuwe foto's juist saai blijft of verward kijkt, dan was je gok fout. Misschien hield hij eigenlijk van "rondige oren" en niet van de haren. De oude methoden zouden dit fout hebben laten staan, maar deze methode gooit die verkeerde beschrijving weg.

Waarom is dit belangrijk?

Tot nu toe dachten we dat elke werknemer in de AI een duidelijke, nuttige taak had. Dit paper laat zien dat veel werknemers eigenlijk "ruis" zijn of dat hun taak verkeerd wordt begrepen.

Door deze Selecteer-Hypothese-Verifieer methode te gebruiken:

  1. Houden ze alleen de werknemers over die echt iets betekenen.
  2. Zorgen ze dat de beschrijvingen die we geven (bijvoorbeeld "hond met lange haren") ook echt kloppen.
  3. Krijgen we een AI die we beter begrijpen, omdat we niet meer vertrouwen op toevallige gokken, maar op bewezen feiten.

Kortom: Het is alsof je van een groep mensen die je niet kent, niet zomaar zegt "die man is een kok", maar je eerst kijkt wie er echt kookt, een gok doet over wat ze koken, en dan een proefmaaltijd laat maken om te zien of ze het echt kunnen. Alleen dan weet je zeker dat je het goed hebt.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →