Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen, aber etwas verwirrten Roboter-Fotografen (das ist der LVLM – ein großes Bild-Sprach-Modell). Dieser Roboter schaut sich ein Bild an und beschreibt es. Deine Aufgabe ist es, ein winziges, für das menschliche Auge unsichtbares "Geister-Pixel" in das Bild zu malen, damit der Roboter plötzlich etwas völlig anderes sieht (z. B. ein Bild von einem Hund als "eine Katze" beschreibt).

Das ist der Angriff. Das Problem ist: Du darfst den Roboter nicht direkt fragen ("Wie siehst du das?"), sondern musst es nur durch das Bild selbst herausfinden. Das ist wie Schach spielen gegen einen Gegner, dessen Züge du nicht sehen kannst.

Bisherige Methoden (wie der Vorgänger "M-Attack") haben versucht, das Bild in kleine Stücke zu schneiden und diese mit dem Zielbild zu vergleichen. Aber das funktionierte nicht gut, weil der Roboter sehr empfindlich auf winzige Verschiebungen reagierte.

Hier ist die einfache Erklärung der neuen Methode M-Attack-V2, basierend auf den Ideen aus dem Papier:

1. Das Problem: Der "Wackelige Kompass"

Stell dir vor, du versuchst, einen Berg zu besteigen, aber dein Kompass verrückt spielt.

Das alte Problem: Wenn der alte Angriff das Bild nur ein wenig verschiebt (z. B. ein Pixel nach rechts), ändert sich die "innere Sicht" des Roboters komplett. Es ist, als würdest du einen Schritt nach links machen und plötzlich denkst du, du wärst im Ozean, obwohl du nur ein paar Zentimeter gewandert bist.
Die Folge: Die "Karte" (der Gradient), die dir sagt, wohin du gehen musst, ist extrem verrauscht und widersprüchlich. Man läuft im Kreis, anstatt den Berg zu besteigen.

2. Die Lösung: M-Attack-V2 (Der neue, stabile Navigator)

Die Autoren haben drei neue Tricks entwickelt, um diesen verrückten Kompass zu stabilisieren:

Trick A: Der "Viel-Augen-Effekt" (Multi-Crop Alignment)

Statt nur ein kleines Bildausschnitt zu betrachten, schaut der neue Angriff gleichzeitig auf zehn verschiedene Ausschnitte desselben Bildes.

Die Analogie: Stell dir vor, du musst einen verdächtigen Gegenstand in einem großen Raum finden. Anstatt nur mit einem einzigen Suchscheinwerfer zu leuchten (was viel Rauschen erzeugt), leuchten zehn Leute gleichzeitig aus verschiedenen Winkeln.
Der Effekt: Die verrückten Einzelmeinungen der einzelnen Lichter mitteln sich heraus. Was übrig bleibt, ist ein klarer, stabiler Weg zum Ziel. Das nennt man "Rauschfilter".

Trick B: Der "Sicherheitsnetz-Trick" (Auxiliary Target Alignment)

Beim alten Angriff wurde das Zielbild oft wild verzerrt (gedreht, geschnitten), um den Roboter zu verwirren. Das war aber zu aggressiv und hat den Roboter komplett aus dem Konzept gebracht.

Die Analogie: Stell dir vor, du willst jemanden zu einem bestimmten Restaurant führen. Der alte Weg war, die Person blind zu machen und sie wild durch die Stadt zu schleudern, in der Hoffnung, sie landen beim Restaurant. Der neue Weg ist: Du nimmst ein paar Freunde (Hilfsbilder), die ähnlich aussehen wie das Ziel, und leitest sie sanft von dort aus zum Ziel.
Der Effekt: Man bleibt im "semantischen Raum" (der Welt der Bedeutung). Man verirrt sich nicht in unwahrscheinliche Ecken, sondern findet einen glatteren, sichereren Weg zum Ziel.

Trick C: Der "Gedächtnis-Trick" (Patch Momentum)

Beim Klettern auf dem Berg macht man manchmal einen Schritt in die falsche Richtung. Der alte Angriff vergaß das sofort. Der neue Angriff hat ein Gedächtnis.

Die Analogie: Wenn du in den Schnee rutschst, merkst du dir: "Aha, hier ist es glatt, ich sollte nicht so stark nach links drücken." Der neue Angriff speichert die vergangenen Schritte und gleicht sie aus. Er sagt im Grunde: "Wir waren hier schon mal fast richtig, lass uns diesen Weg nicht ganz vergessen."
Der Effekt: Selbst wenn ein einzelner Bildausschnitt verwirrt ist, erinnert sich der Angriff daran, wo die anderen Ausschnitte erfolgreich waren.

3. Das Ergebnis: Ein Meister der Täuschung

Mit diesen drei Tricks (Viel-Augen, Sicherheitsnetz, Gedächtnis) wird der Angriff extrem effizient.

Vorher: Bei den neuesten, super-intelligenten Robotern (wie GPT-5 oder Claude 4) funktionierte der alte Angriff kaum (z. B. nur 8% Erfolg bei Claude).
Nachher: Mit M-Attack-V2 gelingt es fast immer (30% bei Claude, 97% bei Gemini, 100% bei GPT-5).

Zusammenfassend:
Die Forscher haben erkannt, dass die alten Methoden zu "zappelig" waren. Sie haben den Angriff ruhiger, geduldiger und besser koordiniert gemacht. Anstatt wild zu stochern, nutzen sie viele Augen, einen sanften Weg und ein gutes Gedächtnis, um selbst die klügsten KI-Modelle zu täuschen – und das alles, ohne dass ein Mensch auf dem Bild etwas merkt.

Das ist wichtig, weil es zeigt, wo die Schwachstellen dieser KI-Systeme liegen, damit wir sie in Zukunft sicherer machen können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Vision-Language-Modelle (LVLMs) sind anfällig für adversariale Angriffe, bei denen für das menschliche Auge unsichtbare Störungen (Perturbationen) die Modellvorhersagen manipulieren. Während Black-Box-Angriffe (bei denen der Angreifer keinen Zugriff auf die Gradienten des Zielsystems hat) eine große Herausforderung darstellen, basieren die derzeit besten Ansätze (wie M-Attack) auf einem Transfer-basierten Ansatz. Dabei wird ein Surrogat-Modell genutzt, um Angriffe zu generieren, die dann auf das unbekannte Zielmodell übertragen werden sollen.

Das Paper identifiziert jedoch kritische Mängel im aktuellen State-of-the-Art (M-Attack):

Hohe Varianz der Gradienten: Selbst bei stark überlappenden Bildausschnitten (Crops) sind die berechneten Gradienten zwischen aufeinanderfolgenden Iterationen fast orthogonal (korrelieren kaum). Dies destabilisiert die Optimierung.
Ursachen:
1. Translationssensitivität von ViTs: Vision Transformer (ViT) tokenisieren Bilder in einem festen, nicht-überlappenden Gitter. Schon sub-pixelige Verschiebungen ändern die Token-Zusammensetzung, was über den Self-Attention-Mechanismus zu drastisch unterschiedlichen Gradientenmustern führt.
2. Asymmetrie im Matching: Das ursprüngliche M-Attack behandelt Quell- und Zielbilder asymmetrisch. Das Croppen des Quellbildes manipuliert direkt den Pixelraum (und damit die Attention), während das Croppen des Zielbildes nur die Referenz-Embeddings verschiebt. Dies führt zu inkonsistenten Optimierungszielen.

2. Methodik: M-Attack-V2

Die Autoren schlagen M-Attack-V2 vor, einen modulare Rahmenwerk zur „Rauschunterdrückung" (Gradient Denoising), das die oben genannten Instabilitäten adressiert. Der Ansatz basiert auf einer Neuformulierung des lokalen Matching-Problems als asymmetrische Erwartungswert-Schätzung über Transformationen.

Die Kernkomponenten sind:

A. Multi-Crop Alignment (MCA)

Um die hohe Varianz durch die Translationssensitivität von ViTs zu reduzieren, wird in jeder Iteration nicht nur ein einzelner Bildausschnitt (Crop) verwendet, sondern K unabhängig gesampelte lokale Ansichten (Crops) des Quellbildes.

Mechanismus: Die Gradienten dieser $K$ Crops werden gemittelt.
Theoretischer Hintergrund: Dies wirkt als ein unverzerrter Monte-Carlo-Schätzer, der die Varianz der Gradienten schätzt. Selbst wenn die Crops fast orthogonal sind, reduziert das Mittelwertbildung die Varianz um einen Faktor von $1/K$ und stabilisiert die Suchrichtung im Optimierungsraum.

B. Auxiliary Target Alignment (ATA)

Das Problem der aggressiven Daten-Augmentation am Zielbild (Target) wird gelöst, indem statt radikaler Transformationen ein Hilfsatz semantisch korrelierter Bilder verwendet wird.

Mechanismus: Anstatt das Zielbild stark zu transformieren (was das semantische Ziel aus dem relevanten Bereich werfen kann), werden $P$ Hilfsbilder ( $X_{aux}$ ) aus einer semantisch ähnlichen Verteilung (z. B. über Retrieval) hinzugezogen.
Ziel: Diese Hilfsbilder dienen als zusätzliche Ankerpunkte im Embedding-Raum. Das Ziel-Embedding wird durch eine Kombination aus dem ursprünglichen Ziel und mild transformierten Hilfsbildern definiert. Dies erzeugt einen glatteren, varianzärmeren Ziel-Mannigfaltigkeit (Target Manifold) und verhindert, dass die Optimierung durch zu starke Verschiebungen des Ziels ins Leere läuft.

C. Patch Momentum (PM) & Patch Ensemble+ (PE+)

Patch Momentum: Klassisches Momentum wird neu interpretiert. Da Crops zufällig sind, werden historische Gradienten über verschiedene Crops hinweg „abgespielt" (Replay-Effekt). Dies sorgt für zeitliche Konsistenz und verhindert, dass selten gesampelte Bildregionen (z. B. Ecken) ignoriert werden.
Patch Ensemble+ (PE+): Anstatt ein großes, zufälliges Ensemble von Surrogat-Modellen zu nutzen, wird eine sorgfältig ausgewählte Teilmenge von Modellen mit diversen Patch-Größen (z. B. CLIP-B/16, CLIP-B/32, CLIP-L/14) kombiniert. Dies gleicht die inhärente Verzerrung (Bias) einzelner Patch-Größen aus und verbessert die Transferierbarkeit.

3. Wichtige Beiträge

Analyse der Gradienteninstabilität: Erstmals wird nachgewiesen, dass Crop-Level-Matching bei ViTs zu hoch-varianzen, fast orthogonalen Gradienten führt, was die Black-Box-Optimierung destabilisiert.
Theoretische Reformulierung: Das lokale Matching wird als asymmetrische Erwartung über Transformationen neu definiert.
Neue Module: Einführung von MCA (Gradientenmittelung über mehrere Crops) und ATA (Nutzung semantisch korrelierter Hilfsziele) zur Reduktion der Varianz und Glättung des Zielraums.
Erweiterte Momentum-Interpretation: Die Einführung von „Patch Momentum" zur Stabilisierung der Gradientenrichtung über zufällige Crops hinweg.
State-of-the-Art Performance: Deutliche Steigerung der Angriffserfolgsraten (ASR) auf frontier LVLMs.

4. Ergebnisse

Die Methode wurde gegen die stärksten kommerziellen Black-Box-Modelle getestet (GPT-5, Claude 4.0, Gemini 2.5-Pro). Die Ergebnisse zeigen massive Verbesserungen gegenüber dem Vorgänger M-Attack und anderen Baselines:

Modell	Attack Success Rate (ASR) M-Attack	Attack Success Rate (ASR) M-Attack-V2
Claude 4.0	8 %	30 %
Gemini 2.5-Pro	83 %	97 %
GPT-5	98 %	100 %

Schlüsselbefund: M-Attack-V2 erreicht auf GPT-5 eine fast perfekte Erfolgsrate (100 %) und verbessert die Ergebnisse bei schwer angreifbaren Modellen wie Claude 4.0 um das Dreifache.
Unmerklichkeit: Trotz der höheren Angriffserfolgsraten bleibt die visuelle Unmerklichkeit (gemessen an $\ell_p$ -Normen und menschlichen Studien) vergleichbar mit vorherigen Methoden.
Robustheit: Die Methode ist auch gegen Eingabe-Preprocessing-Defenses (wie JPEG-Kompression oder DiffPure) robuster als vorherige Ansätze.

5. Bedeutung und Ausblick

Dieses Paper ist ein Meilenstein für das Verständnis der Sicherheit von Multimodal-Modellen.

Sicherheitsimplikation: Es zeigt, dass selbst die fortschrittlichsten kommerziellen Modelle (wie GPT-5) durch einfache, aber gut optimierte Transfer-Angriffe fast vollständig umgangen werden können. Dies unterstreicht die Dringlichkeit robusterer Verteidigungsmechanismen.
Forschungsbeitrag: Die Arbeit liefert tiefe Einblicke in das Verhalten von ViT-Gradienten unter lokalen Störungen und demonstriert, dass „Rauschunterdrückung" (Denoising) der Gradienten durch Mittelung und bessere Zielrepräsentation der Schlüssel zu erfolgreichen Black-Box-Angriffen ist.
Verfügbarkeit: Der Code und die Daten sind öffentlich verfügbar, was die Reproduzierbarkeit und die Entwicklung von Gegenmaßnahmen (Defenses) fördert.

Zusammenfassend stellt M-Attack-V2 einen effizienten, modularen und extrem effektiven Angriff dar, der die Grenzen des Möglichen bei Black-Box-Attacken auf Vision-Language-Modelle neu definiert.