OmniPatch: A Universal Adversarial Patch for ViT-CNN Cross-Architecture Transfer in Semantic Segmentation

Each language version is independently generated for its own context, not a direct translation.

🛡️ Der unsichtbare Klecks, der alle Roboter verwirrt: Eine Erklärung von „OmniPatch"

Stell dir vor, du fährst mit einem selbstfahrenden Auto. Die Kamera des Autos scannt die Straße und sagt dem Computer: „Das hier ist eine Ampel, das hier ist ein Fußgänger, und das hier ist die Fahrbahn." Das funktioniert super – bis jemand einen kleinen, bunt gemusterten Aufkleber (einen „Patch") auf die Straße klebt. Plötzlich denkt das Auto: „Oh, das ist kein Fußgänger mehr, das ist ein riesiger Hundefuß!" und bremst panisch oder fährt direkt in die Ampel.

Das ist das Problem, das die Forscher von der IIT Roorkee in diesem Papier lösen wollen. Sie haben OmniPatch erfunden.

1. Das Problem: Zu viele verschiedene „Gehirne"

Heute gibt es viele verschiedene Arten von KI-Modellen (die „Gehirne" der Autos). Manche arbeiten wie ein klassischer Fotograf (CNNs), die auf Details achten. Andere arbeiten wie ein Künstler, der das ganze Bild auf einmal betrachtet (ViTs – Vision Transformer).

Das Problem bisher:

Wenn man einen Störfleck (einen adversarialen Patch) für ein bestimmtes Gehirn entwirft, funktioniert er oft nur bei diesem einen Typ.
Ein anderer KI-Typ sieht den Fleck vielleicht gar nicht als Gefahr.
Das ist wie ein Schlüssel, der nur in ein Schloss passt, aber nicht in die anderen 99 Türen im Haus.

2. Die Lösung: OmniPatch – Der „Universal-Schlüssel"

Die Forscher haben eine Methode entwickelt, um einen einzigen Störfleck zu basteln, der alle Arten von KI-Gehirnen durcheinanderbringt. Egal, ob das Auto ein CNN- oder ein ViT-Modell nutzt – der Patch wirkt auf alle.

Wie machen sie das? Mit einem cleveren Zwei-Schritt-Plan:

Schritt 1: Den Schwachpunkt finden (Der „Verwirrte Künstler")
Zuerst nutzen sie ein KI-Modell vom Typ „ViT" (das Vision Transformer). Diese Modelle sind wie Künstler, die sehr empfindlich auf bestimmte Flecken reagieren.

Die Metapher: Stell dir vor, du suchst den schwächsten Punkt in einem Schloss. Der ViT-Modell zeigt den Forschern genau, wo das Schloss am wackeligsten ist (z. B. wo die KI unsicher ist, ob da ein Baum oder ein Pfosten steht).
Die Forscher kleben den Patch genau an diese unsichere Stelle. Das ist wie das Ansetzen eines Hebelns genau dort, wo die Tür am leichtesten aufspringt.

Schritt 2: Den Trick auf alle übertragen (Der „Zwillings-Trainer")
Jetzt haben sie den Patch, der das ViT-Modell verwirrt. Aber wie bringt man das CNN-Modell (den Fotografen) dazu, auch zu stolpern?

Die Metapher: Stell dir vor, du trainierst zwei Sportler: Einen Läufer (ViT) und einen Schwimmer (CNN). Du willst, dass beide gegen denselben Gegner verlieren.
Zuerst trainierst du den Läufer so hart, dass er gegen den Gegner fällt.
Dann bringst du den Schwimmer dazu, genau dieselbe Bewegung zu machen wie der Läufer, damit er auch fällt.
In der Technik nennen sie das „Gradient Alignment". Sie zwingen die beiden KI-Modelle, in die gleiche Richtung zu „lernen", wie man den Patch optimal platziert. So wird der Patch universell.

3. Warum funktioniert das so gut?

Die Forscher haben noch drei kleine Tricks im Ärmel, die den Patch effektiver machen:

Die Aufmerksamkeit entführen: Sie zwingen die KI, sich mehr auf den bunt gemusterten Fleck zu konzentrieren als auf das, was wirklich da ist (wie wenn jemand dir einen leuchtenden Ball vor die Nase hält, damit du die Straße nicht mehr siehst).
Die Grenzen zerstören: Sie sorgen dafür, dass die KI die Kanten von Objekten (z. B. wo die Straße aufhört und der Bürgersteig beginnt) nicht mehr erkennen kann. Das Bild wird für die KI zu einem Flickenteppich.
Rauschen kontrollieren: Sie sorgen dafür, dass der Fleck nicht zu chaotisch aussieht, damit er nicht sofort als „Fälschung" erkannt wird.

4. Das Ergebnis

In Tests mit echten Straßenszenen (dem Cityscapes-Datensatz) hat OmniPatch gezeigt, dass er die Leistung der KI-Modelle drastisch senken kann.

Ohne Patch: Die KI erkennt die Straße zu 86 % korrekt.
Mit OmniPatch: Die Erkennung bricht auf unter 73 % ein.
Das bedeutet: Das selbstfahrende Auto würde in einer kritischen Situation wahrscheinlich versagen.

5. Warum ist das wichtig? (Der „Gute" Grund)

Man könnte denken: „Wollen die Hacker nicht Autos kaputt machen?"
Nein, genau das Gegenteil ist der Fall!
Die Forscher sagen: „Wir müssen die Schwachstellen kennen, um sie zu reparieren."
Wenn wir wissen, dass ein kleiner Aufkleber auf der Straße alle Autos durcheinanderbringen kann, können wir neue Sicherheitsmaßnahmen entwickeln. Wir können KI-Modelle trainieren, die solche Flecken sofort erkennen und ignorieren. Ohne diese Forschung wären wir blind für die Gefahren, die auf unseren Straßen lauern könnten.

Fazit

OmniPatch ist wie ein universeller „Störfleck", der zeigt, wie verwundbar unsere KI-Systeme sind. Die Forscher haben einen Weg gefunden, einen einzigen Trick zu finden, der alle verschiedenen KI-Typen verwirrt. Das klingt erst mal beängstigend, ist aber der erste Schritt, um selbstfahrende Autos wirklich sicher zu machen.

Kurz gesagt: Sie haben den „Schlüssel" gefunden, der alle Türen öffnet, damit wir lernen können, wie man die Schlösser unknackbar macht. 🔑🚗🛡️

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Semantische Segmentierung ist für sicherheitskritische Anwendungen wie autonomes Fahren unverzichtbar, da sie eine pixelgenaue Umgebungserkennung ermöglicht. Trotz ihrer Bedeutung sind diese Modelle jedoch anfällig für adversarielle Angriffe.

Aktuelle Limitationen: Bestehende Methoden nutzen oft bildweite Störungen (Image-wide Perturbations), die in der physischen Welt unpraktisch sind. Andere Ansätze optimieren Patches nur für eine spezifische Architektur, was die Übertragbarkeit (Transferability) auf andere Modelle einschränkt.
Architekturunterschiede: Convolutional Neural Networks (CNNs) und Vision Transformers (ViTs) haben unterschiedliche Induktionsbiases. CNNs nutzen lokale Merkmale, während ViTs auf globale Aufmerksamkeitsmechanismen (Global Attention) setzen. ViTs sind bekanntermaßen anfälliger für patch-basierte Angriffe.
Lücke: Es fehlt an einer universellen, physisch einsetzbaren adversariellen Methode, die robust über heterogene Architekturen (sowohl ViT als auch CNN) hinweg funktioniert, ohne Zugriff auf die Zielmodell-Parameter zu benötigen (Black-Box-Szenario).

2. Methodik: OmniPatch

OmniPatch ist ein Trainingsframework, das einen universellen adversariellen Patch lernt, der sowohl auf ViT- als auch auf CNN-Architekturen wirkt. Der Ansatz nutzt ViTs als empfindliche Surrogat-Modelle, um den Patch zu optimieren, und überträgt die Wirkung dann auf CNNs.

A. Platzierung in sensiblen Regionen (Sensitive Region Placement)

Anstatt den Patch zufällig zu platzieren, nutzt OmniPatch die Unsicherheit des Modells:

Zielklassen-Identifikation: Ein ViT-Surrogat wird auf sauberen Bildern analysiert. Die Klasse mit der höchsten prädiktiven Entropie (Unsicherheit) wird als Zielklasse ( $c^*$ ) ausgewählt.
Morphologische Dilatation: Die Vorhersagemasken dieser Klasse werden um $k$ Pixel gedehnt, um den möglichen Platzierungsbereich zu vergrößern.
Entropie-basiertes Sampling: Der Patch wird nicht zufällig, sondern gewichtet nach der pixelweisen Unsicherheit innerhalb dieses Bereichs platziert. Dies nutzt die Lücke zwischen den globalen Aufmerksamkeitsmechanismen von ViTs und der lokalen Merkmalsextraktion von CNNs aus.

B. Zwei-Stufen-Trainingsparadigma

Das Training erfolgt in zwei Phasen, um zunächst die ViT-Sensibilität auszunutzen und dann die Übertragbarkeit auf CNNs zu erzwingen:

Stufe 1 (ViT-only): Der Patch wird optimiert, um das ViT-Surrogat zu destabilisieren.
- Es wird ein gewichteter Cross-Entropy-Verlust ( $L_{Stage1}$ ) verwendet, der korrekte Vorhersagen (hohe Konfidenz) stärker bestraft als bereits fehlerhafte Vorhersagen, um den Patch gezielt in „sichere" Regionen zu lenken.
Stufe 2 (ViT + CNN Ensemble): Das Training wird auf ein heterogenes Ensemble aus ViT und CNN erweitert.
- Divergenz-basierte Gewichtung: Pixel mit einer hohen Verteilungsverschiebung (gemessen durch Jensen-Shannon-Divergenz zwischen sauberer und adversarieller Logits) werden stärker gewichtet, um die Transferierbarkeit zu maximieren.
- Gradient Alignment: Um zu verhindern, dass Gradientenupdates von ViT und CNN sich gegenseitig zerstören (destructive interference), wird ein Alignment-Loss ( $L_{align}$ ) eingeführt. Dieser maximiert die Kosinus-Ähnlichkeit zwischen den Gradienten beider Surrogat-Modelle, um konsistente Update-Richtungen zu erzwingen.

C. Auxiliary Losses (Hilfsverluste)

Zusätzliche Regularisierer stabilisieren den Prozess und erhöhen die Effektivität:

Attention Hijacking: Zwingt das ViT, den Patch über das echte Label in seiner internen Repräsentation zu priorisieren.
Boundary Disruption: Führt zu einer Fragmentierung der Segmentierungsgrenzen.
Total Variation (TV): Dient als Rauschregulator für visuelle Konsistenz.
EOT (Expectation over Transformation): Simuliert physikalische Variationen (Skalierung, Rotation, Translation) während des Trainings.

3. Wichtige Beiträge

Universalität: OmniPatch ist der erste Ansatz, der einen universellen Patch für semantische Segmentierung entwickelt, der effektiv zwischen ViT- und CNN-Architekturen transferiert wird.
Unsicherheitsbasierte Platzierung: Eine neue Strategie zur Platzierung des Patches basierend auf der Modellunsicherheit (Entropie), die die Angriffsfläche signifikant erhöht.
Gradient Alignment: Ein innovativer Mechanismus, der die Gradientenkonflikte in heterogenen Ensembles löst und so die Transferleistung verbessert.
Physikalische Relevanz: Der Ansatz berücksichtigt physische Constraints (Patch-Größe, Platzierung) und ist damit relevanter für reale Bedrohungen als rein digitale Bildstörungen.

4. Ergebnisse

Die Experimente wurden auf dem Cityscapes-Datensatz durchgeführt. Als Quellmodelle dienten PIDNet-S (CNN) und SegFormer (ViT). Zielmodelle waren PIDNet-M/L, BiSeNetV1/V2 und SegFormer.

Leistungsmetrik: Gemessen wurde der Rückgang des mittleren Intersection-over-Union (mIoU).
Vergleich: OmniPatch wurde gegen saubere Bilder, zufällige Patches und einen aktuellen Baseline-Ansatz (Shekhar et al., 2025) getestet.
Ergebnisse:
- OmniPatch erzielte den größten mIoU-Rückgang bei allen getesteten Modellen.
- Beispiel PIDNet-S: mIoU fiel von 0,8695 (sauber) auf 0,7299 (OmniPatch), was einem Rückgang von 16,05 % entspricht. Der Baseline-Ansatz erreichte nur einen Rückgang von 6,31 %.
- Auch bei ViT-Modellen (SegFormer) zeigte sich eine signifikante Schwächung (Rückgang von 0,7434 auf 0,6777).
- Ablationsstudien bestätigten, dass die Platzierung in sensiblen Regionen, die Verwendung von JS-Divergenz statt KL-Divergenz und das Gradient Alignment entscheidende Faktoren für den Erfolg sind.

5. Bedeutung und Ausblick

Sicherheitsimplikationen: Die Arbeit unterstreicht die kritische Verwundbarkeit moderner autonomer Fahrsysteme gegenüber physisch einsetzbaren, architekturübergreifenden Angriffen. Sie zeigt, dass Modelle, die auf ViTs basieren, als effektive Surrogate für Angriffe auf CNNs genutzt werden können.
Zukünftige Arbeiten: Die Autoren identifizieren als Limitierung die visuelle Auffälligkeit des Patches. Zukünftige Forschung soll sich auf Texture-Blending-Techniken zur Tarnung konzentrieren sowie auf die Robustheit unter variierenden Wetter- und Lichtbedingungen testen. Zudem sind physische Experimente notwendig, um den Proof-of-Concept endgültig zu bestätigen.

Fazit: OmniPatch stellt einen bedeutenden Fortschritt im Verständnis und in der Demonstration von Transfer-Angriffen auf semantische Segmentierungsmodelle dar und bietet einen robusten Rahmen für die Evaluierung der Sicherheit zukünftiger KI-Systeme im autonomen Fahren.