OmniPatch: A Universal Adversarial Patch for ViT-CNN Cross-Architecture Transfer in Semantic Segmentation

Each language version is independently generated for its own context, not a direct translation.

🚗 De Probleemstelling: De "Blinde Vlek" van Zelfrijdende Auto's

Stel je voor dat een zelfrijdende auto een super slimme camera heeft die de weg ziet als een enorme legpuzzel. Elke stukje van de weg (de weg, de bomen, de verkeersborden) wordt door de computer herkend als een specifiek kleurplaatje. Dit heet semantische segmentatie.

Het probleem is dat deze slimme computers een zwak punt hebben: ze kunnen makkelijk bedrogen worden. Als je een klein, gekleurd stickerplaatje (een "patch") op de weg plakt, kan de computer denken dat een stopbord een snelwegbord is, of dat er geen auto's zijn waar er wel een rijdt. Dit kan leiden tot ongelukken.

Tot nu toe hadden onderzoekers twee grote problemen:

Ze maakten vaak storende, gekke patronen over de hele foto (alsof je de hele weg bespuit met verf). Dat is in het echt onmogelijk te doen.
Als ze een sticker maakten, werkte die alleen maar op één specifiek type computer. Als je de sticker op een andere auto met een andere computer legde, werkte het niet meer.

🛠️ De Oplossing: "OmniPatch" – De Universele Hack

De onderzoekers van de IIT Roorkee hebben OmniPatch bedacht. Dit is een slimme methode om een universele "hack-sticker" te maken die werkt op elke zelfrijdende auto, ongeacht welk type computer erin zit.

Ze gebruiken een slimme tweestaps-strategie, alsof je een sleutel maakt die bij elke deur past.

Stap 1: De "Slapende Reus" wakker maken (ViT)

De onderzoekers beginnen met een heel nieuw type computermodel (een ViT of Vision Transformer). Deze modellen zijn extreem gevoelig voor stickers, maar ze zijn ook heel goed in het zien van de "grote lijn".

De Analogie: Stel je voor dat je een luidspreker hebt die heel gevoelig is voor een specifieke toon. Als je die toon afspeelt, trilt de hele kamer.
De truc: Ze zoeken eerst op de foto de plek waar het computermodel het minste zeker is (bijvoorbeeld: "Is dat nu een paal of een boom?"). Ze plakken hun sticker precies daar. Omdat het model daar al twijfelde, breekt de sticker het vertrouwen volledig.

Stap 2: De "Tweeling" training (ViT + CNN)

Nu hebben ze een sticker die werkt op de gevoelige ViT-computer. Maar ze willen dat het ook werkt op de oudere, traditionele computers (de CNN's).

Het probleem: Als je een sticker maakt voor de ene computer, kan het zijn dat de andere computer er niets van merkt. Het zijn alsof je een sleutel maakt voor een slot van een ander merk.
De oplossing: Ze trainen de sticker tegelijkertijd op beide soorten computers. Ze gebruiken een slimme wiskundige truc (gradient alignment) die ervoor zorgt dat de sticker de "pijn" op precies dezelfde manier voelt voor beide computers.
De Analogie: Het is alsof je een dansje leert. Eerst oefen je met een partner die heel snel reageert (de ViT). Dan leer je diezelfde dans met een partner die wat trager is (de CNN). Door ze samen te laten dansen, leer je een danspas die voor beiden perfect werkt.

🎨 Hoe ziet de sticker eruit?

De sticker is niet zomaar een gekke vlek.

Locatie: Hij wordt geplakt op de plek waar de computer het meest twijfelt (bijvoorbeeld op een verkeerspaal of een auto).
Grootte: Hij is klein (ongeveer 2% van de foto), maar groot genoeg om op te vallen als je er naar kijkt.
Inhoud: Hij is zo ontworpen dat hij de interne "aandacht" van de computer verstoort. De computer kijkt dan naar de sticker in plaats van naar de echte weg.

📊 Wat zeggen de resultaten?

De onderzoekers hebben hun sticker getest op echte datasets van stadsstraten (Cityscapes).

Resultaat: De sticker zorgde ervoor dat de zelfrijdende auto's hun weg niet meer herkenden. De "score" van de auto (hoe goed hij de weg zag) daalde met ongeveer 15%.
Vergelijking: Eerdere methoden werkten vaak maar op één type auto of waren te groot. OmniPatch werkt op alle geteste modellen (zowel de nieuwe ViT-modellen als de oude CNN-modellen).

🔮 Wat is er nog niet perfect? (Toekomst)

De sticker werkt heel goed in de computerwereld, maar in de echte wereld is er nog een klein probleem:

Het is te opvallend: De sticker is nu nog een duidelijke, gekleurde vlek. Iedereen zou hem zien en denken: "Hé, daar zit iets raars."
Toekomstplannen: De onderzoekers willen in de toekomst stickers maken die eruitzien als de rest van de weg (zoals een stukje asfalt of een muur), zodat ze onzichtbaar zijn voor mensen, maar wel de computer "blinderen".

💡 Samenvatting in één zin

OmniPatch is een slimme, universele "hack-sticker" die door slimme training op twee verschillende soorten computers tegelijk, ervoor zorgt dat zelfrijdende auto's hun weg kwijtraken, ongeacht welk type computer er in de auto zit.

Each language version is independently generated for its own context, not a direct translation.

Titel: OMNIPATCH: Een universeel adversariaal patch voor cross-architectuur overdracht tussen ViT en CNN in semantische segmentatie

Conferentie: ICLR 2026 Workshop: Principled Design for Trustworthy AI
Auteurs: Aarush Aggarwal, Akshat Tomar, Amritanshu Tiwari, Sargam Goyal (IIT Roorkee, India)

1. Het Probleem

Robuuste semantische segmentatie is cruciaal voor veilig autonoom rijden. Bestaande modellen zijn echter kwetsbaar voor adversariale aanvallen, vooral in "black-box" scenario's waar de doelmodel-parameters onbekend zijn.

Beperkingen van bestaande methoden: De meeste huidige benaderingen maken gebruik van perturbaties over het hele beeld (image-wide), wat fysiek onpraktisch is voor implementatie in de echte wereld. Andere methoden optimaliseren patches voor één specifieke architectuur, wat de overdraagbaarheid (transferability) beperkt.
Architecturale verschillen: Convolutionele Neural Networks (CNN's) en Vision Transformers (ViT's) hebben fundamenteel verschillende inductieve biases. ViT's zijn vanwege hun globale attentie-mechanismen extreem gevoelig voor patch-aanvallen, terwijl CNN's lokaal gefocust zijn. Er is een gebrek aan methoden die een fysiek inzetbare patch kunnen genereren die effectief werkt op zowel ViT- als CNN-architecturen zonder toegang tot de doelmodel-parameters.

2. Methodologie: OmniPatch

OmniPatch is een trainingsframework dat een universeel adversariaal patch leert dat generaliseert over afbeeldingen en verschillende architectuurtypen (ViT en CNN). De methode bestaat uit vier hoofdblokken:

A. Plaatsing in Sensitieve Regio's (Sensitive Region Placement)

In plaats van de patch willekeurig te plaatsen, wordt deze gericht op de meest kwetsbare delen van het beeld:

Identificatie van de kwetsbare klasse: Een ViT-surrogaatmodel wordt gebruikt om de voorspellende entropie (onzekerheid) per klasse te berekenen op schone afbeeldingen. De klasse met de hoogste onzekerheid ( $c^*$ ) wordt geselecteerd.
Morfologische dilatie: De maskers van deze klasse worden uitgebreid via morfologische dilatie om een groter gebied voor plaatsing te creëren.
Entropie-gedreven bemonstering: De patch wordt geplaatst op locaties met de hoogste pixel-onzekerheid binnen dit uitgebreide gebied, beperkt tot de top- $p\%$ van de kandidaten. Dit benut het verschil in inductieve bias tussen ViT (globaal) en CNN (lokaal).

B. Twee-staps Trainingsparadigma

Het trainingsproces is opgedeeld in twee fasen om eerst de ViT te destabiliseren en vervolgens de overdracht naar CNN's te maximaliseren:

Fase 1 (ViT-only): Het doel is om het ViT-surrogaat te destabiliseren door te richten op zijn hoog-vertrouwde voorspellingen. Een gewogen cross-entropy loss ( $L_{Stage1}$ ) wordt gebruikt die fouten in correct ingedeelde pixels (C) straft, terwijl fouten in al verkeerd ingedeelde pixels (I) minder zwaar wegen.
Fase 2 (ViT + CNN Ensemble): Na Fase 1 wordt training uitgebreid naar een heterogeen ensemble van ViT en CNN surrogaten.
- Divergentie-gewogen Loss: Pixels met een grote verdelingsverschuiving (gemeten via Jensen-Shannon divergentie) tussen schone en adversariale logits worden zwaarder gewogen om de cross-architectuur overdracht te maximaliseren.
- Gradiënt-uitlijning (Gradient Alignment): Om destructieve interferentie tussen de gradiënten van de verschillende architecturen te voorkomen, wordt een extra term ( $L_{align}$ ) toegevoegd. Deze maximaliseert de cosinus-similariteit tussen de gradiënten van de ViT en CNN, waardoor update-richtingen consistent worden gehouden.

C. Hulpverliezen en Regularisatie

Om de aanval te versterken en visuele kwaliteit te beheersen, worden drie extra termen toegevoegd:

Attention Hijacking: Forceert de ViT om prioriteit te geven aan de patch in zijn interne representatie.
Boundary Disruption: Induceert fragmentatie in de segmentatiegrenzen.
Total Variation (TV): Dient als regularisatie om visueel ruis te controleren en de patch natuurlijk te houden.

Daarnaast wordt Expectation-over-Transformation (EOT) gebruikt om de patch robuust te maken tegen schaal-, rotatie- en translatievariaties.

3. Belangrijkste Resultaten

De experimenten zijn uitgevoerd op de Cityscapes-dataset (straatscènes) met verschillende doelmodellen (PIDNet-S/M/L, BiSeNetV1/V2, SegFormer).

Prestaties: OmniPatch toont aanzienlijk betere prestaties dan bestaande baselines (zoals Shekhar et al., 2025) en willekeurige patches.
- Op PIDNet-S daalt de mIoU (mean Intersection over Union) van 0.8695 (schone afbeelding) naar 0.7299 met OmniPatch, wat een daling van 16.05% betekent.
- De methode werkt effectief op zowel CNN- als ViT-modellen, met een gemiddelde mIoU-daling van ongeveer 10-16% over alle geteste modellen.
Ablatiestudies:
- Plaatsing: Het gebruik van de "sensitive region placement" strategie presteert significant beter dan centrale of willekeurige plaatsing.
- Patchgrootte: Er is een positieve correlatie tussen de grootte van de patch en de mate van prestatiedaling.
- Gradiënt-uitlijning: Het verwijderen van de gradiënt-uitlijning leidt tot een aanzienlijke prestatiedaling (bijv. PIDNet-S zakt van 0.7299 naar 0.7772 mIoU), wat aantoont dat deze term cruciaal is voor stabiele cross-architectuur training.
- JS vs KL Divergentie: Het gebruik van Jensen-Shannon (JS) divergentie in plaats van KL-divergentie resulteerde in een extra gemiddelde daling van 1.84% in mIoU, wat wijst op stabielere training.

4. Bijdragen en Significantie

Universele Overdraagbaarheid: OmniPatch is de eerste methode die succesvol een fysiek inzetbare adversariale patch leert die werkt over heterogene architecturen (CNN en ViT) zonder toegang tot de doelmodel-parameters.
Nieuwe Trainingsparadigma: De introductie van een tweestapsproces met gradiënt-uitlijning biedt een oplossing voor het probleem van destructieve gradiëntinterferentie bij ensemble-training van fundamenteel verschillende modellen.
Strategische Plaatsing: De methode introduceert een onzekerheid-gebaseerde ruimtelijke plaatsingsstrategie die de kwetsbaarheden van ViT's benut om de aanval op CNN's te versterken.
Veiligheidswaarschuwing: Het paper benadrukt dat bestaande semantische segmentatiesystemen voor autonoom rijden kwetsbaar zijn voor fysieke aanvallen, wat de noodzaak onderstreept voor robuustere ontwerpen in "Trustworthy AI".

5. Beperkingen en Toekomstig Werk

Visuele Opvallendheid: De huidige patch is visueel opvallend en kan in de praktijk worden opgemerkt. Toekomstig werk richt zich op het ontwikkelen van textuur-mengtechnieken voor camouflage.
Omgevingscondities: De huidige evaluatie is beperkt tot homogene afbeeldingen; toekomstig werk moet de effectiviteit testen onder verschillende weers- en lichtomstandigheden.
Fysieke Validatie: Er zijn nog geen fysieke experimenten uitgevoerd; dit is noodzakelijk voor een definitief bewijs van concept.

Conclusie: OmniPatch biedt een krachtig bewijs dat model-agnostische, fysiek inzetbare adversariale aanvallen mogelijk zijn op moderne semantische segmentatiemodellen, en schetst een pad voor het testen en verbeteren van de veiligheid van AI-systemen in kritieke toepassingen.