OmniPatch: A Universal Adversarial Patch for ViT-CNN Cross-Architecture Transfer in Semantic Segmentation

Each language version is independently generated for its own context, not a direct translation.

🚗 Le Problème : Les Yeux de la Voiture Autonome sont "Fragiles"

Imaginez que vous conduisez une voiture autonome. Elle ne voit pas la route avec des yeux humains, mais avec une "cerveau" numérique (un modèle d'intelligence artificielle) qui analyse les images en temps réel. Ce cerveau doit distinguer les piétons, les panneaux, les voitures et les routes.

Le problème, c'est que ce cerveau est très facile à tromper. Les chercheurs ont découvert qu'en plaçant un petit autocollant bizarre (un "patch") n'importe où sur la route, on peut faire croire à la voiture qu'il n'y a pas de danger, ou pire, qu'il y a un danger là où il n'y en a pas.

Jusqu'à présent, il y avait deux gros obstacles pour créer une telle attaque "réelle" :

La taille : La plupart des attaques nécessitaient de recouvrir toute la route de bruit, ce qui est impossible à faire dans la vraie vie.
La compatibilité : Si vous créez un autocollant pour tromper un type de cerveau (appelé CNN), il ne fonctionne pas forcément sur un autre type de cerveau (appelé ViT, plus moderne). C'est comme si un leurre fonctionnait pour un chien, mais pas pour un chat.

🛠️ La Solution : OmniPatch, le "Super-Autocollant" Universel

L'équipe de l'IIT Roorkee (Inde) a créé OmniPatch. C'est un petit carré d'image conçu pour être un leurre universel. Peu importe le type de cerveau de la voiture (CNN ou ViT), ce petit autocollant va le faire planter.

Voici comment ils y sont arrivés, étape par étape, avec des analogies :

1. Trouver le point faible (Le "Zone de Panique")

Les voitures autonomes ne sont pas également fortes partout. Elles sont très sûres d'elles pour reconnaître les routes, mais parfois hésitantes pour les poteaux ou les panneaux.

L'analogie : Imaginez un gardien de but très fort, mais qui panique s'il voit un ballon arriver trop vite dans son angle mort.
La méthode : OmniPatch utilise un "cerveau-espion" (un modèle ViT) pour scanner l'image et trouver l'endroit où le système est le plus confus (le plus incertain). Au lieu de coller l'autocollant au hasard, ils le collent exactement sur cette zone de confusion maximale. C'est comme frapper le gardien pile dans son angle mort.

2. L'Entraînement en Duo (Le "Coach et l'Élève")

C'est ici que la magie opère pour rendre l'attaque universelle.

Étape 1 (Le Coach ViT) : D'abord, ils entraînent l'autocollant à tromper le modèle ViT (le cerveau moderne). Comme les ViT sont très sensibles aux petits détails, c'est facile de les rendre fous.
Étape 2 (Le Duo ViT + CNN) : Ensuite, ils ajoutent un deuxième modèle (le CNN, le cerveau classique) dans l'entraînement.
- Le défi : Souvent, ce qui rend fou le premier modèle rend le deuxième modèle plus intelligent (c'est ce qu'on appelle l'interférence destructrice).
- La solution d'OmniPatch : Ils utilisent une astuce mathématique appelée "alignement des gradients". Imaginez deux nageurs qui doivent pousser un bateau dans la même direction. Si l'un tire vers le nord et l'autre vers le sud, le bateau ne bouge pas. OmniPatch force les deux modèles à "tirer" dans la même direction. Ainsi, l'autocollant devient un leurre qui fonctionne pour les deux types de cerveaux en même temps.

3. Les Accessoires de Sécurité (Les "Régulateurs")

Pour que l'autocollant soit efficace sans être trop bizarre à l'œil, ils ajoutent des règles supplémentaires :

Brouillage des frontières : Ils s'assurent que l'autocollant casse les lignes de séparation entre les objets (comme si un poteau se transformait en partie de la route).
Vol d'attention : Ils forcent le cerveau de la voiture à regarder l'autocollant au lieu de la vraie image.

📊 Les Résultats : Une Chute Dramatique

Les chercheurs ont testé leur "Super-Autocollant" sur des voitures autonomes réelles (avec des données de la ville de Munich, Cityscapes).

Sans attaque : La voiture reconnaît tout correctement (environ 86% de réussite).
Avec un autocollant aléatoire : Ça aide un peu, mais pas beaucoup.
Avec OmniPatch : La réussite de la voiture chute brutalement (jusqu'à 16% de moins).
- Traduction : La voiture, qui voyait parfaitement un poteau, ne le voit plus du tout ou le confond avec un arbre. C'est une erreur catastrophique pour la sécurité.

🔮 Conclusion et Limites

OmniPatch prouve qu'il est possible de créer une attaque physique, universelle et très efficace contre les systèmes de vision des voitures autonomes, peu importe la technologie utilisée.

Mais attention :

Pour l'instant, l'autocollant est très visible (un gros carré coloré). Dans la vraie vie, un voleur ne collerait pas un carré rouge géant sur la route. Les chercheurs prévoient de travailler sur des techniques pour rendre ce leurre invisible ou camouflé dans la texture de la route.
Ils doivent aussi tester cela par temps de pluie ou de neige, pas seulement par beau temps.

En résumé : Cette recherche est un avertissement crucial. Elle nous dit : "Ne vous reposez pas sur vos lauriers, même les nouvelles technologies (ViT) ont des failles, et on peut les exploiter avec un simple petit autocollant." C'est une étape nécessaire pour construire des voitures vraiment sûres.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La segmentation sémantique est un composant critique pour la conduite autonome, fournissant une compréhension au niveau des pixels nécessaire à la planification et au contrôle. Cependant, les modèles déployés restent vulnérables aux attaques adverses, en particulier dans des scénarios "boîte noire" où les poids du modèle cible sont inconnus.

Les limitations des approches existantes sont les suivantes :

Manque de praticité physique : La majorité des méthodes génèrent des perturbations à l'échelle de l'image entière, ce qui est irréaliste pour des applications physiques (ex: autocollants sur la route).
Faible transférabilité : Les patchs adverses sont souvent optimisés pour une architecture spécifique (CNN ou ViT) et échouent à se transférer à d'autres architectures.
Vulnérabilité des ViT : Les Transformers de Vision (ViT), avec leurs mécanismes d'attention globale, sont plus sensibles aux attaques par patch que les CNN (basés sur des biais locaux), mais peu de travaux exploitent cette sensibilité pour créer des attaques universelles.

L'objectif de ce travail est de combler ce fossé en développant un patch adversaire universel capable de déstabiliser simultanément des modèles de segmentation basés sur des CNN et des ViT, sans accès aux paramètres du modèle cible.

2. Méthodologie : OmniPatch

OmniPatch est un cadre d'entraînement conçu pour apprendre un patch universel en exploitant les faiblesses des ViT pour ensuite transférer cette capacité aux CNN. La méthode repose sur une stratégie en deux étapes et des régularisations spécifiques.

A. Placement dans les Régions Sensibles (Sensitive Region Placement)

Au lieu de placer le patch aléatoirement ou au centre, l'algorithme identifie dynamiquement les zones les plus vulnérables :

Identification de la classe : En utilisant un modèle ViT de substitution (surrogate), l'algorithme calcule l'entropie prédictive par classe sur des images propres. La classe $c^*$ avec la plus grande incertitude globale est sélectionnée.
Expansion morphologique : Le masque prédit pour cette classe est dilaté morphologiquement pour élargir la zone de placement possible.
Échantillonnage biaisé par l'entropie : Le patch est positionné dans les régions à forte incertitude (top $p\%$ des pixels) au sein de la zone dilatée, maximisant ainsi l'impact sur la décision du modèle.

B. Entraînement en Deux Étapes (Two-Stage Training)

L'optimisation du patch suit un paradigme séquentiel utilisant des modèles de substitution ViT et CNN (PIDNet et SegFormer).

Étape 1 (ViT uniquement) : Le patch est optimisé pour déstabiliser le ViT. Une fonction de perte pondérée ( $\gamma$ ) pénalise davantage les pixels correctement classés (confiants) pour forcer le modèle à commettre des erreurs là où il était le plus sûr.
Étape 2 (Ensemble ViT + CNN) : L'entraînement s'étend à un ensemble hétérogène.
- Sélection de pixels : Les pixels sont divisés en un ensemble "haute transfert" (forte divergence de distribution entre le patch propre et le patch adversaire, mesurée par la divergence de Jensen-Shannon) et un ensemble "faible transfert".
- Alignement des gradients : Pour éviter que les mises à jour contradictoires des deux architectures ne s'annulent mutuellement, une contrainte de régularisation est ajoutée. Elle maximise la similarité cosinus entre les gradients du ViT et du CNN, homogénéisant les vecteurs de mise à jour.

C. Pertes Auxiliaires et Régularisation

Pour améliorer la robustesse et l'efficacité de l'attaque, trois termes supplémentaires sont intégrés :

Détournement de l'attention (Attention Hijacking) : Force le ViT à prioriser le patch plutôt que le contenu réel dans ses représentations internes.
Perturbation des frontières (Boundary Disruption) : Inverse la contrainte de perte de frontière pour fragmenter les limites de segmentation.
Variation Totale (Total Variation) : Contrôle le bruit visuel pour maintenir une apparence cohérente.

De plus, l'approche utilise l'Expectation-over-Transformation (EOT) pour simuler des variations de mise à l'échelle, de rotation et de translation, rendant le patch robuste aux conditions physiques réelles.

3. Résultats Expérimentaux

Les expériences ont été menées sur le jeu de données Cityscapes (scènes urbaines) avec des modèles cibles variés (PIDNet-S/M/L, BiSeNetV1/V2, SegFormer).

Performance Globale : OmniPatch démontre une supériorité significative par rapport aux patches aléatoires et à la ligne de base (Shekhar et al., 2025).
- Sur PIDNet-S, le mIoU chute de 16,05 % (de 0,8695 à 0,7299), contre une chute de seulement 6,31 % pour la ligne de base.
- Sur SegFormer (ViT), la chute est de 8,83 %.
- Le patch est efficace sur tous les modèles testés, prouvant sa transférabilité cross-architecture.
Ablations :
- Le placement dans les régions sensibles améliore considérablement les performances par rapport au placement aléatoire ou central.
- L'utilisation de la divergence JS (au lieu de KL) pour sélectionner les pixels de transfert améliore la stabilité et la performance de ~1,84 %.
- L'alignement des gradients est crucial : sans lui, l'efficacité du patch diminue notablement (ex: mIoU de 0,777 vs 0,729 sur PIDNet-S).
- Une corrélation positive est observée entre la taille du patch et la baisse de performance (mIoU drop).

4. Contributions Clés

Premier Patch Universel Cross-Architecture : OmniPatch est, à la connaissance des auteurs, la première méthode conçue spécifiquement pour transférer des attaques par patch entre des architectures CNN et ViT en segmentation sémantique.
Stratégie de Placement Intelligente : Introduction d'un schéma de positionnement spatial basé sur l'incertitude (entropie) pour cibler les zones de décision fragiles des modèles.
Cadre d'Ensemble Hétérogène : Développement d'une méthode d'entraînement en deux étapes avec alignement de gradients pour résoudre le problème de l'interférence destructrice lors de l'optimisation sur des modèles structurellement différents.
Validation Empirique Rigoureuse : Démonstration de l'efficacité sur une gamme diversifiée de modèles (de PIDNet à SegFormer) avec des analyses d'ablation complètes.

5. Signification et Limites

Signification :
Ce travail est crucial pour la sécurité des systèmes autonomes. En démontrant qu'un simple patch physique peut tromper simultanément des architectures de vision très différentes (CNN et Transformers), il met en lumière une vulnérabilité fondamentale et universelle des modèles de segmentation actuels. Cela souligne la nécessité de développer des défenses robustes non pas contre une architecture spécifique, mais contre des perturbations agnostiques au modèle.

Limites et Travaux Futurs :

Visibilité : Le patch généré est visuellement intrusif et facilement détectable par un observateur humain. Les auteurs prévoient d'explorer des techniques de fusion de textures pour le rendre plus discret.
Conditions Réelles : Les expériences actuelles sont limitées à des images homogènes. Des travaux futurs viseront à rendre l'attaque robuste aux variations météorologiques et d'éclairage, ainsi qu'à valider le concept par des expériences physiques réelles.

En conclusion, OmniPatch représente une avancée majeure dans la compréhension des vulnérabilités de l'IA de confiance, fournissant un outil puissant pour évaluer et renforcer la robustesse des systèmes de vision par ordinateur critiques pour la sécurité.