Backdoor Directions in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, kunstmatige intelligentie (een AI) hebt die foto's kan herkennen. Deze AI is getraind om bijvoorbeeld honden van katten te onderscheiden. Maar wat als een boze hacker deze AI heeft "gehackt" voordat hij in gebruik werd genomen?

In de wereld van cybersecurity noemen we dit een Backdoor-aanval. Het is alsof de hacker een geheime sleutel in de machine heeft verstopt. Normaal gesproken doet de AI precies wat je wilt. Maar zodra je een foto toont met een heel klein, onopvallend teken (de "trigger"), denkt de AI plotseling: "Oh, dit is een trigger! Dan moet ik niet een hond zien, maar een auto!" En dat doet hij, zelfs als het duidelijk een hond is.

Deze paper, geschreven door onderzoekers van universiteiten en IBM, gaat over het vinden van deze geheime sleutels in moderne AI-modellen, genaamd Vision Transformers (ViT).

Hier is een eenvoudige uitleg van wat ze hebben ontdekt, met behulp van een paar creatieve metaforen:

1. De "Geheime Weg" in de hersenen

Stel je de AI voor als een enorme fabriek met veel verdiepingen (lagen). Als een foto binnenkomt, reist deze door deze verdiepingen. Bij een normale foto wordt de informatie op een logische manier verwerkt. Maar bij een gehackte foto is er een specifieke, rechte lijn (een "richting") in de hersenen van de AI die altijd wordt gebruikt als de trigger aanwezig is.

De onderzoekers hebben ontdekt dat ze deze lijn kunnen vinden. Het is alsof ze een speciaal kompas hebben gevonden dat altijd naar het noorden wijst, zolang er maar een bepaalde sleutel in de deur zit. Ze noemen dit de "Backdoor Direction".

2. Het "Stuurwiel" van de AI

Om te bewijzen dat deze lijn echt belangrijk is, hebben de onderzoekers een experiment gedaan. Ze hebben de AI als het ware een duw gegeven in die specifieke richting.

De duw naar voren: Als ze deze lijn toevoegden aan een normale foto (een hond zonder trigger), begon de AI plotseling te denken dat het een auto was.
De duw terug: Als ze deze lijn aftrokken van een gehackte foto (een hond met trigger), vergat de AI de hack en zag hij weer gewoon een hond.

Dit bewijst dat deze ene lijn de "schakelaar" is die de hack aan- en uitzet. Het is alsof je een specifieke knop in de machine vindt die alles regelt.

3. Verschillende soorten hackers

De onderzoekers merkten ook iets interessants op over hoe hackers hun werk doen. Er zijn twee soorten triggers:

De "Grote Vlek" (Static Patch): Stel je voor dat iemand een grote, opvallende sticker op de foto plakt. De AI moet in de vroege stadia van de verwerking al kijken naar die specifieke plek. Het is als een luidruchtige gast die direct opvalt.
De "Onzichtbare Trui" (Stealthy/Distributed): Sommige hackers verspreiden hun trucje over de hele foto, heel subtiel. Geen enkele plek is verdacht, maar samen vormen ze een patroon. De onderzoekers zagen dat de AI bij deze subtiele hacks de "geheime weg" al veel eerder in het proces vindt dan bij de grote vlekken. Het is alsof de subtiele hacker een fluisterend geheim is dat de AI direct in de hal hoort, terwijl de grote hacker pas in de woonkamer wordt opgemerkt.

4. De "Anti-Hack" Kracht

Wat kunnen we hiermee?

De hack verwijderen: Omdat ze weten waar de "geheime lijn" zit, kunnen ze deze uit de hersenen van de AI "wissen". Ze hebben de AI een soort operatie gegeven waarbij ze die specifieke lijn hebben verwijderd. Resultaat? De hack werkt niet meer, maar de AI kan nog steeds perfect honden en katten herkennen. Het is alsof je de sleutel uit het slot haalt zonder de deur zelf te beschadigen.
Hacken detecteren: Ze hebben ook een methode bedacht om te kijken of een AI gehackt is, zonder dat ze de originele foto's hoeven te zien. Ze kijken alleen naar de "bouwtekening" (de gewichten) van de AI. Als ze zien dat er een vreemd patroon in de bouwtekening zit dat lijkt op die geheime lijn, weten ze: "Aha, deze machine is gehackt!" Dit werkt vooral goed voor de subtiele, onzichtbare hacks die normaal gesproken heel moeilijk te vinden zijn.

5. De relatie met "Adversarial Attacks"

Er is nog een spannend stukje: wat gebeurt er als iemand probeert de AI te misleiden met een andere soort hack (een "adversarial attack")? De onderzoekers zagen dat als je probeert een gehackte AI te dwingen om een fout te maken, de AI vaak terugvalt naar de oorspronkelijke, juiste classificatie. Het is alsof de AI, als je te hard duwt, de geheime sleutel weer loslaat en terugkeert naar zijn normale gedrag.

Conclusie

Kortom: deze paper laat zien dat we niet meer hoeven te raden hoe AI's gehackt worden. We kunnen de "geheime lijnen" in hun hersenen zien en begrijpen. Door deze lijnen te vinden, kunnen we:

Bewijzen dat de hack werkt.
De hack verwijderen zonder de AI te breken.
Nieuwe, slimme methoden bedenken om gehackte AI's te detecteren voordat ze in gebruik worden genomen.

Het is een stap in de richting van veiliger AI-systemen, waarbij we niet alleen kijken naar wat de AI doet, maar ook naar hoe het in zijn hoofd werkt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Backdoor Directions in Vision Transformers" in het Nederlands.

Titel: Backdoor Directions in Vision Transformers

Auteurs: Sengim Karayalçın, Marina Krček, Pin-Yu Chen, Stjepan Picek

1. Het Probleem

Backdoor-aanvallen vormen een ernstige bedreiging voor machine learning-systemen, waarbij een klein deel van de trainingsdata wordt vergiftigd met een specifiek "trigger"-patroon. Wanneer dit patroon tijdens de inferentie aanwezig is, classificeert het model het invoerbeeld verkeerd naar een door de aanvaller gekozen doelklasse.

Hoewel backdoor-aanvallen en verdedigingen goed bestudeerd zijn voor convolutionele neurale netwerken (CNNs), presteren bestaande verdedigingen aanzienlijk slechter bij Vision Transformers (ViTs). De huidige ViT-specifieke verdedigingen zijn vaak kwetsbaar, vooral tegen geavanceerde, "stealth" (onopvallende) triggers die verspreid zijn over het beeld in plaats van een vast patch. Er is een gebrek aan fundamenteel inzicht in hoe ViTs backdoor-functies intern representeren en verwerken, wat het ontwerpen van robuuste verdedigingen bemoeilijkt.

2. Methodologie

De auteurs gebruiken mechanistische interpretabiliteit om de interne werking van ViTs te analyseren. De kern van hun aanpak is het identificeren van een lineaire richting in de activeringsruimte van het model die specifiek correspondeert met de backdoor-trigger.

Aannames: De studie gaat uit van volledige kennis van de trigger en de vergiftigde data (een "white-box" scenario) om de onderliggende mechanismen te ontrafelen. Dit is een diagnostische aanpak, niet direct een verdediging voor de praktijk waar de trigger onbekend is.
Definiëren van de Backdoor-Richting:
- Er worden contrastieve paren gemaakt van schone beelden ( $x$ ) en hun vergiftigde versies ( $x_t$ ).
- Voor een specifieke laag $l$ wordt de gemiddelde verschilvector berekend: $\hat{r}_l = \frac{1}{|X_{pair}|} \sum (x^l_t - x^l)$ .
- Dit wordt gedaan voor zowel de [CLS] token (globale representatie) als voor alle tokens samengevoegd.
Validatie via Interventie:
1. Actiesturing (Activation Steering): De gevonden richting $\hat{r}$ wordt toegevoegd aan schone beelden (om de backdoor te activeren) of afgetrokken van vergiftigde beelden (om de backdoor te deactiveren) tijdens de forward pass.
2. Gewichtorthogonalisatie: De richting $\hat{r}$ wordt orthogonaal gemaakt ten opzichte van de gewichtsmatrices van het model (vooral de embedding- en projectielaag). Dit verwijdert de backdoor-functie permanent uit de parameters.
Analyse van Propagatie: De auteurs analyseren hoe de trigger-informatie zich door de lagen van de ViT verplaatst en vergelijken dit tussen statische triggers (bijv. BadNet) en dynamische/stealth triggers (bijv. WaNet, BPP).
Interactie met Adversariële Voorbeelden: Er wordt onderzocht hoe PGD-gebaseerde adversariële perturbaties interageren met de backdoor-richting.
Gewicht-gebaseerde Detectie: Er wordt een detectieschema voorgesteld dat puur op de gewichten van het model leunt, zonder schone data, door afwijkingen in de uitlijning van de classifier-head met de vroege lagen te meten.

3. Belangrijkste Bijdragen

Causale Bevestiging: Het paper bewijst dat een enkele lineaire richting in de residual stream van een ViT causaal verantwoordelijk is voor het backdoor-gedrag. Het verwijderen van deze richting via orthogonalisatie elimineert de backdoor met minimale impact op de schone nauwkeurigheid.
Lag-specifieke Propagatie: Er wordt aangetoond dat verschillende soorten triggers verschillende interne logica's volgen. Sessie-gebaseerde triggers worden vroeg in het model gedetecteerd, terwijl stealth-triggers later in de [CLS] token samenkomen.
Link met Adversariële Aanvallen: De studie biedt inzicht in hoe adversariële perturbaties de backdoor-richting beïnvloeden. Het blijkt dat PGD-aanvallen op vergiftigde modellen vaak de interne backdoor-functie moeten "omkeren" om terug te keren naar de originele klasse.
Data-vrije Detectie: Een nieuwe, lichtgewicht detectiemethode wordt voorgesteld die specifiek effectief is voor stealth-aanvallen (zoals WaNet en BPP) op ViTs, gebaseerd op de analyse van gewichtsmatrices.

4. Resultaten

Validatie: Actiesturing en gewichtorthogonalisatie bevestigen dat de geïdentificeerde richting de backdoor controleert. Orthogonalisatie verlaagt de Attack Success Rate (ASR) in bijna alle gevallen tot onder de 5%, terwijl de Clean Accuracy (CA) grotendeels behouden blijft.
Lag-gedrag:
- Statische triggers (BadNet, TrojanNN): De trigger-informatie is verspreid over tokens en wordt vroeg in het model actief. De [CLS] token wordt pas later relevant.
- Stealth/Dynamische triggers (WaNet, SSBA, BPP): Deze triggers veroorzaken subtiele perturbaties die per token gedetecteerd kunnen worden, maar de samenvoeging in de [CLS] token gebeurt eerder dan bij statische triggers.
- Consistentie: Het gedrag van dezelfde aanvalstype is consistent over verschillende datasets (CIFAR-10, CIFAR-100, TinyImageNet) en vergiftigingspercentages.
Adversariële Interactie:
- Wanneer men start met schone beelden, leiden PGD-aanvallen bij stealth-aanvallen vaak tot misclassificaties naar de doelklasse, waarbij de perturbatievector sterk overeenkomt met de backdoor-richting in de middelste lagen.
- Wanneer men start met vergiftigde beelden, vereist het terugdraaien naar de originele klasse meer PGD-stappen, wat suggereert dat de aanval de interne backdoor-functie moet neutraliseren.
Detectie: De voorgestelde gewicht-gebaseerde detectiemethode (gebaseerd op Z-scores van de uitlijning) is zeer effectief voor stealth-aanvallen (WaNet, BPP) maar faalt bij statische patch-aanvallen (zoals TrojanNN), wat aangeeft dat de methoden per aanvalstype moeten worden aangepast.

5. Betekenis en Conclusie

Dit paper biedt een fundamenteel nieuw perspectief op beveiliging in Vision Transformers door mechanistische interpretabiliteit toe te passen. De belangrijkste bevindingen zijn:

Interpretatie als Verdediging: Het begrijpen van hoe een model een backdoor representeert (via een specifieke vector) is krachtiger dan het proberen te detecteren op basis van anomalieën in attention-maps.
Architectuur-specifiek: ViTs vertonen unieke patronen in hoe ze triggers verwerken (verschil tussen [CLS] en token-level representaties), wat specifieke verdedigingen vereist die verschillen van die voor CNNs.
Robuustheid: De studie toont aan dat backdoors in ViTs kwetsbaar zijn voor gerichte interventies in de residual stream, wat een nieuwe weg opent voor het ontwikkelen van "curative" verdedigingen (het genezen van het model) in plaats van alleen preventieve maatregelen.
Beperkingen: De huidige methoden vereisen kennis van de trigger voor de analyse. De praktische toepasbaarheid ligt in het gebruik van deze inzichten om automatische detectie- of verwijderingsalgoritmen te bouwen die geen voorafgaande kennis van de trigger vereisen.

Samenvattend stelt dit paper dat mechanistische interpretabiliteit een robuust raamwerk biedt om beveiligingskwetsbaarheden in computer vision niet alleen te diagnosticeren, maar ook te begrijpen en te neutraliseren.

Backdoor Directions in Vision Transformers

1. De "Geheime Weg" in de hersenen

2. Het "Stuurwiel" van de AI

3. Verschillende soorten hackers

4. De "Anti-Hack" Kracht

5. De relatie met "Adversarial Attacks"

Conclusie

Titel: Backdoor Directions in Vision Transformers

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities