SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

Each language version is independently generated for its own context, not a direct translation.

SALVE: De "Chirurg" voor Neuronale Netwerken

Stel je voor dat een diep neurale netwerk (zoals een AI die foto's herkent) een enorm complex, donker kasteel is. We weten dat het prachtige dingen kan doen, maar we weten niet precies hoe het binnenin werkt. Het is een "zwarte doos". Als de AI een fout maakt, kunnen we vaak niet zeggen: "Ah, die ene knop in de machine zat verkeerd."

De auteurs van dit paper hebben SALVE bedacht. SALVE is als een setje superkrachtige brillen en een chirurgisch scalpel voor die zwarte doos. Het stelt ons in staat om niet alleen te kijken wat er gebeurt, maar ook om permanent en precies ingrepen te doen in het brein van de AI.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Vertaler" (Het Ontdekken)

Eerst moeten we begrijpen wat de AI eigenlijk denkt. De AI ziet pixels, maar in haar hoofd zijn dat abstracte patronen.

De Analogie: Stel je voor dat de AI een boek leest in een taal die niemand kent. SALVE is als een slimme vertaler die een woordenboek maakt.
Hoe het werkt: SALVE gebruikt een speciaal hulpmiddel (een Sparse Autoencoder) om te kijken naar de "gedachten" van de AI. Het ontdekt dat de AI niet willekeurige ruis denkt, maar specifieke concepten. Bijvoorbeeld: er is een specifieke "gedachte" die alleen oplicht als er een golfbal in beeld is, en een andere die oplicht voor een kerktoren.
Het resultaat: SALVE maakt een lijstje van deze concepten: "Dit is de golfbal-knop", "Dit is de kerk-knop".

2. De "Bevestiging" (Het Controleren)

Nu we denken dat we de knopen hebben gevonden, moeten we zeker weten dat ze echt werken.

De Analogie: Het is alsof je een schakelaar in een donkere kamer vindt en denkt: "Dit schakelt de lamp aan." Maar je moet het eerst proberen om te zien of het echt de lamp is en niet de koelkast.
Hoe het werkt: De auteurs gebruiken een nieuwe techniek (Grad-FAM) om te kijken waar in de foto de AI kijkt als die "golfbal-knop" oplicht. Ze zien dat de AI inderdaad naar de golfbal kijkt en niet naar de lucht erachter. Dit bevestigt dat de knoppen echt betekenisvol zijn.

3. De "Chirurgie" (Het Beheren)

Dit is het meest spannende deel. De meeste eerdere methodes waren als het tijdelijk blokkeren van een gedachte tijdens het denken (zoals een tijdelijke bril opzetten). SALVE doet iets anders: het verandert de bedrading permanent.

De Analogie: Stel je voor dat je een oude radio hebt die altijd te hard zingt.
- Oude methode: Je houdt je vinger op de knop om het volume te verlagen, maar als je wegloopt, zingt het weer hard.
- SALVE-methode: Je opent de radio, zoekt de specifieke draad die zorgt voor dat geluid, en knipt die een beetje door (of versterkt hem). De radio is nu permanent zachter, zonder dat je er iets aan hoeft te doen.
Hoe het werkt: SALVE past de gewichten (de "sterkte" van de verbindingen) in het model direct aan.
- Wil je dat de AI geen kerken meer herkent? Dan verzwakken ze de "kerk-knop" permanent. De AI zal die kerken niet meer zien, maar ziet wel alles anders nog steeds perfect.
- Wil je dat de AI beter golfballen ziet? Dan versterken ze die knop.

4. De "Krachtmeter" (De Kritieke Drempel)

SALVE heeft ook een slim meetinstrument bedacht, genaamd $\alpha_{crit}$ .

De Analogie: Stel je voor dat je een brug over een riviet wilt laten instorten. Je weet niet hoeveel gewicht er precies op moet liggen om het te laten zakken. SALVE kan precies berekenen: "Als je 30% minder gewicht op deze specifieke brugdeel legt, stort hij in."
Waarom is dit handig? Het vertelt ons hoe afhankelijk de AI is van bepaalde concepten. Als een AI heel snel "instort" (een fout maakt) bij een kleine verandering, weten we dat die AI niet robuust is en misschien kwetsbaar is voor manipulatie.

Waarom is dit belangrijk?

Vroeger was het alsof we AI's bestuurd door blind te gissen of door ze helemaal opnieuw te trainen (wat duur en traag is). SALVE is als een chirurgische ingreep:

Permanent: Je hoeft het niet elke keer opnieuw te doen.
Precies: Je raakt alleen de specifieke concepten aan (bijv. "golfballen") en verstoort de rest niet.
Verstaanbaar: We weten precies wat we hebben veranderd en waarom.

Kort samengevat:
SALVE is een nieuwe manier om AI's te begrijpen en te "repareren". Het maakt een kaart van de gedachten van de AI, bevestigt dat die gedachten kloppen, en laat ons vervolgens permanent de knoppen omzetten om de AI te verbeteren of aan te passen, zonder het hele systeem te moeten herbouwen. Het maakt de zwarte doos transparant en beheersbaar.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks" in het Nederlands.

Probleemstelling

Diepe neurale netwerken (DNN's) presteren uitstekend op diverse taken, maar blijven moeilijk te interpreteren en te controleren. Hun "black box"-karakter vormt een belemmering voor vertrouwen, debugging en beheer, vooral in kritieke toepassingen. Hoewel het veld van mechanistische interpretability (het reverse-engineeren van interne netwerkberekeningen) vooruitgang boekt in het identificeren van interne concepten, bestaat er nog een kloof tussen interpretatie en interventie.
Bestaande methoden voor modelsturing (zoals "steering vectors") zijn vaak tijdelijk en vinden plaats tijdens de inferentie (inference-time), wat extra rekenkosten met zich meebrengt en geen permanente wijzigingen in het model mogelijk maakt. Anderzijds zijn methoden voor permanente modelbewerking vaak grof (bijv. ablatie van neuronen) of vereisen ingrijpende architecturale wijzigingen en hertraining. Er is behoefte aan een methode die interpretatie direct omzet in precieze, permanente en continue controle over de modelweegs.

Methodologie: Het SALVE-framework

SALVE (Sparse Autoencoder-Latent Vector Editing) introduceert een unificerend "ontdekken, valideren en controleren" (discover, validate, control) pipeline. De methode werkt als volgt:

Ontdekken van Interpretabele Kenmerken (Discovery):
- Er wordt een Lineaire Sparse Autoencoder (SAE) getraind op de interne activaties van het doelmodel (bijv. de laatste pooling-laag van ResNet-18 of de [CLS]-token van een ViT).
- De SAE leert een spaarzame, model-native feature basis zonder toezicht (unsupervised). De encoder mapt activaties naar een latente vector $Z$ , en de decoder probeert de oorspronkelijke activaties te reconstrueren, met een $\ell_1$ -regularisatie om sparsiteit te bevorderen.
- Class-specifieke kenmerken worden geïdentificeerd door de gemiddelde latente activatie per klasse te berekenen ( $\mu_k$ ) en kenmerken te rangschikken op basis van hun sterkte en consistentie.
Valideren van Semantische Betekenis (Validation):
- Om te bevestigen dat de gevonden latente kenmerken zinvolle concepten vertegenwoordigen, worden twee visualisatietechnieken gebruikt:
  - Activeringsmaximalisatie: Het synthetiseren van beelden die een specifiek latent kenmerk maximaal activeren.
  - Grad-FAM (Gradient-weighted Feature Activation Mapping): Een nieuwe methode die de logica van Grad-CAM aanpast. In plaats van de gradienten te gebruiken ten opzichte van een klassenscore, worden deze berekend ten opzichte van de activatie van een specifiek latent kenmerk. Dit visualiseert welke delen van de invoer (bijv. een golfbal of een kerktoren) verantwoordelijk zijn voor het activeren van dat specifieke interne concept.
Controleren via Gewichtsinterventies (Control):
- In plaats van tijdelijke aanpassingen aan activaties, voert SALVE permanente bewerkingen uit op de gewichten van het model.
- De decoder-matrix $D$ van de SAE wordt gebruikt om te bepalen hoe een latent kenmerk bijdraagt aan de activaties van de laatste laag.
- De gewichten $w_{ij}$ worden multiplicatief aangepast volgens de formule:
  $w'_{ij} = w_{ij} \cdot \max(0, 1 \pm \alpha \cdot |c_j|)$
  Waarbij $c_j$ de bijdrage is van het geselecteerde kenmerk en $\alpha$ de sterkte van de interventie (onderdrukken of versterken) bepaalt.
- Dit zorgt voor een continue modulatie van de invloed van specifieke concepten zonder de rest van het model te beschadigen.
Kwantificering van Robuustheid:
- De auteurs leiden een kritieke onderdrukkingsthrshold ( $\alpha_{crit}$ ) af. Dit is de minimale waarde van $\alpha$ die nodig is om de logit-bijdrage van een bepaald kenmerk voor een klasse tot nul te reduceren.
- Dit biedt een maatstaf voor hoe afhankelijk een klasse is van zijn dominante kenmerk, wat nuttig is voor het diagnosticeren van kwetsbare representaties.

Belangrijkste Resultaten

Het framework is gevalideerd op twee verschillende architecturen: ResNet-18 (convolutioneel) en ViT-B/16 (transformer), getraind op datasets zoals Imagenette en CIFAR-100.

Semantische Validatie: De SAE leert succesvol spaarzame, semantisch betekenisvolle kenmerken. Bijvoorbeeld, een kenmerk dat specifiek reageert op "golfballen" of "kerktorens". Grad-FAM toont aan dat deze kenmerken correct gelokaliseerd zijn in de invoerbeelden.
Precieze Controle:
- Klasse-onderdrukking: Door het dominante kenmerk van een klasse (bijv. "Kerk") te onderdrukken, daalt de nauwkeurigheid voor die klasse naar bijna nul, terwijl de prestaties van andere klassen intact blijven.
- Kruis-klassieke interventies: SALVE kan ook subtielere, gedeelde concepten manipuleren. Bijvoorbeeld, het "Toren-kenmerk" dat zowel voor kerken als voor benzinepompen actief is. Het onderdrukken hiervan beïnvloedt de benzinepomp-classificatie meer dan de kerk-classificatie, wat aantoont dat het model voor benzinepompen sterker afhankelijk is van dit specifieke kenmerk.
- Spurious Correlaties: Interventies onthulden verborgen relaties, zoals een negatieve correlatie waarbij het "Toren-kenmerk" de classificatie van "Kettingzaag" onderdrukt.
Vergelijking met Baselines:
- SALVE presteert vergelijkbaar met ROME (een rank-one weight-editing methode) en SAE-based Activation Steering (tijdelijke sturing) in het onderdrukken van klassen.
- Voordeel SALVE: Het biedt permanente wijzigingen zonder inferentie-overhead, systematische controle over meerdere concepten en kwantitatieve diagnostiek ( $\alpha_{crit}$ ).
Architectonische Generalisatie: De resultaten zijn consistent voor zowel CNN's als Transformers, hoewel ViT's een niet-lineairere representatieruimte hebben, wat leidt tot een grotere discrepantie tussen de analytische en empirische drempels.

Bijdragen en Betekenis

De belangrijkste bijdragen van dit werk zijn:

Unificatie van Interpretatie en Controle: SALVE sluit de kloof tussen het begrijpen van interne mechanismen en het permanent aanpassen van modelgedrag. Het transformeert interpretatie-insights direct in modelbewerkingen.
Permanente, Post-hoc Bewerking: In tegenstelling tot inferentie-sturing, wijzigt SALVE de modelgewichten permanent. Dit elimineert de noodzaak van extra modules tijdens het gebruik en garandeert consistent gedrag.
Kwantitatieve Diagnostiek: De introductie van $\alpha_{crit}$ biedt een nieuwe manier om de robuustheid en kwetsbaarheid van specifieke klassen en individuele samples te meten. Dit kan helpen bij het identificeren van "brittle" representaties die gevoelig zijn voor adversarial attacks.
Mechanistisch Inzicht: De methode maakt het mogelijk om niet alleen klassen te verwijderen, maar ook om de interne structuur van het model te onderzoeken, zoals feature-entanglement (verstrengeling van concepten) en de afhankelijkheid van specifieke concepten voor bepaalde beslissingen.

Conclusie:
SALVE biedt een fundamentele stap voorwaarts in de richting van transparante, robuuste en betrouwbare AI-systemen. Het bewijst dat het mogelijk is om interne concepten van neurale netwerken te ontdekken, te valideren en vervolgens te gebruiken voor nauwkeurige, permanente en continue controle over het modelgedrag, zonder de basisarchitectuur te hoeven herontwerpen of het model opnieuw te hoeven trainen.

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

1. De "Vertaler" (Het Ontdekken)

2. De "Bevestiging" (Het Controleren)

3. De "Chirurgie" (Het Beheren)

4. De "Krachtmeter" (De Kritieke Drempel)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: Het SALVE-framework

Belangrijkste Resultaten

Bijdragen en Betekenis

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers