Enhancing CLIP Robustness via Cross-Modality Alignment

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas verwirrten Übersetzer. Dieser Übersetzer (nennen wir ihn CLIP) ist ein Meister darin, Bilder und Wörter zu verbinden. Wenn er ein Foto von einem goldenen Hund am Strand sieht, kann er sofort das Wort "Hund" damit verknüpfen. Er ist so gut, dass er das sogar mit Bildern tut, die er noch nie gesehen hat (das nennt man "Zero-Shot").

Aber dieser Übersetzer hat eine große Schwäche: Er ist extrem empfindlich gegenüber kleinen Störungen.

Das Problem: Der unsichtbare Störsender

Stell dir vor, jemand nimmt ein Foto von dem Hund und fügt winzige, für das menschliche Auge unsichtbare Pixel-Veränderungen hinzu. Für uns sieht das Bild immer noch nach einem Hund aus. Aber für den Übersetzer CLIP ist das Bild plötzlich wie ein verrücktes, verzerrtes Signal.

In der Sprache der Wissenschaft sagt man: Die Bilder und die Texte verlieren ihre Verbindung. Das Bild "wandert" im Gedächtnis des KI-Modells weit weg von dem Wort, das es eigentlich beschreiben sollte. Es ist, als würde jemand dem Übersetzer eine Brille aufsetzen, durch die alles verschwommen und falsch aussieht. Das Ergebnis? Der Übersetzer denkt plötzlich, das Bild sei ein "Auto" oder "Kuchen", obwohl es ein Hund ist.

Bisherige Lösungen waren wie:

Den Übersetzer mühsam neu zu trainieren (sehr teuer und langsam).
Ihm neue Anweisungen zu geben (Prompt-Optimierung), was oft nicht ausreicht.

Die Lösung: COLA – Der "Korrektur-Filter"

Die Forscher haben eine neue Methode namens COLA entwickelt. Das Besondere daran: Sie müssen den Übersetzer nicht neu trainieren. Sie fügen ihm einfach einen cleveren Filter hinzu, der während des Übersetzens (also "Test-Time") aktiv wird.

Hier ist, wie COLA funktioniert, mit einfachen Analogien:

1. Der "Wahrheits-Filter" (Subspace Projection)

Stell dir vor, alle Wörter für "Hund", "Katze" und "Vogel" liegen in einem großen Raum auf einem speziellen, sauberen Teppich. Das ist der Text-Raum.
Wenn ein Bild (das Foto des Hundes) hereinkommt, aber durch den Störsender (den Angriff) verzerrt wurde, landet es plötzlich auf dem staubigen, schmutzigen Boden neben dem Teppich.

COLA nimmt dieses verzerrte Bild und projiziert es zurück auf den Teppich. Es ignoriert den "Staub" (die böswilligen Störungen) und zwingt das Bild, sich wieder dort niederzulassen, wo die wahren Bedeutungen liegen. Es filtert also das Rauschen heraus, bevor die eigentliche Entscheidung getroffen wird.

2. Der "Gruppen-Check" (Optimal Transport)

Normalerweise vergleicht CLIP das Bild nur mit einem Wort für "Hund". Das ist riskant, wenn das Bild gestört ist.
COLA macht etwas Cleveres:

Es nimmt das gestörte Bild und erstellt mehrere leicht veränderte Versionen davon (wie wenn man das Foto aus verschiedenen Winkeln betrachtet).
Es nimmt das Wort "Hund" und erstellt viele verschiedene Beschreibungen dafür (z. B. "ein pelziger Hund", "ein rennender Hund", "ein goldener Hund").

Dann führt COLA einen perfekten Match-Check durch (das nennt man "Optimal Transport"). Es fragt: "Welche Version des Bildes passt am besten zu welcher Version des Wortes?" Es sucht nicht nur nach einer Übereinstimmung, sondern baut ein ganzes Netzwerk aus Verbindungen auf. Selbst wenn ein Teil des Bildes gestört ist, finden die anderen Teile den Weg zurück zum richtigen Wort.

Warum ist das so cool?

Kein Neulernen: Du musst die KI nicht tagelang neu trainieren. Du kannst sie einfach nehmen und COLA wie einen Aufsatz aktivieren.
Schnell: Es ist viel schneller als andere Methoden, die versuchen, die KI im laufenden Betrieb zu "reparieren".
Robust: In Tests hat COLA gezeigt, dass es selbst bei sehr starken Angriffen die KI am Laufen hält. Während andere Methoden bei Angriffen fast komplett versagen (die Genauigkeit fällt auf fast 0%), bleibt COLA stabil und erkennt die Bilder noch zu 50% oder mehr richtig.

Zusammenfassung in einem Satz

COLA ist wie ein weisheitsvoller Richter, der bei einem gestörten Zeugenaussage (dem Bild) nicht sofort glaubt, was er sieht, sondern das Bild erst auf einen "Wahrheits-Teppich" legt und dann mit vielen verschiedenen Beschreibungen abgleicht, um sicherzustellen, dass die richtige Antwort gefunden wird – und das alles, ohne den Richter selbst umschulen zu müssen.

Dank COLA werden KI-Systeme in kritischen Bereichen wie autonomem Fahren oder medizinischer Diagnose sicherer, da sie nicht so leicht durch kleine, böswillige Tricks verwirrt werden können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Modelle (VLMs) wie CLIP zeichnen sich durch hervorragende Generalisierungsfähigkeiten bei Zero-Shot-Klassifizierung aus. Sie sind jedoch extrem anfällig für adversarielle Angriffe (adversarial perturbations). Kleine, für das menschliche Auge kaum wahrnehmbare Änderungen an Eingabebildern können die Vorhersagen des Modells drastisch verfälschen.

Die bestehenden Verteidigungsmechanismen (z. B. adversarielles Training, Prompt-Optimierung oder Test-time-Defenses) weisen erhebliche Nachteile auf:

Hoher Rechenaufwand: Viele Methoden erfordern ein aufwendiges Nachtrainieren (Fine-Tuning) oder zusätzliche Inferenzschritte.
Übersehene Kernproblematik: Die meisten Ansätze ignorieren die fundamentale Fehljustierung (Misalignment) zwischen Bild- und Text-Features im eingebetteten Raum.
- CLIP nutzt ein globales Matching-Paradigma, bei dem das gesamte Bild einem Satztext gegenübergestellt wird.
- Unter adversariellen Angriffen zerfällt diese globale Ausrichtung: Die Bild-Features weiten sich aus und entfernen sich semantisch von den Text-Features.
- Zusätzlich geht die lokale strukturelle Konsistenz im Feature-Raum verloren (benachbarte Embeddings verlieren ihre Beziehung zueinander).

2. Methodik: COLA (Cross-Modality Alignment)

Die Autoren schlagen COLA vor, ein training-freies (training-free) und architektur-unabhängiges Framework, das auf Optimal Transport (OT) basiert. Das Ziel ist die Wiederherstellung der globalen und lokalen Ausrichtung zwischen Bild und Text unter Angriffen.

Der Ansatz besteht aus zwei Hauptkomponenten:

A. Globale Feature-Ausrichtung durch Subraum-Projektion

Da adversarielle Störungen oft Richtungen im Feature-Raum nutzen, die orthogonal zu den semantischen Klassenrichtungen liegen, projizieren die Autoren die gestörten Bild-Embeddings auf einen Subraum, der durch die Text-Features definiert wird.

Vorgehen: Alle Text-Embeddings der Klassen werden in einer Matrix gesammelt. Durch eine Singulärwertzerlegung (SVD) werden die dominanten $C$ Hauptkomponenten extrahiert, die den Subraum $U$ aufspannen.
Projektion: Das gestörte Bild-Feature $\hat{x}$ wird auf diesen Subraum projiziert: $\Pi(\hat{x}) = U_C U_C^\top \hat{x}$ .
Effekt: Dies filtert nicht-semantische Verzerrungen heraus und stellt die globale Ausrichtung zu den semantischen Prototypen wieder her, ohne die diskriminierenden Informationen zu verlieren.

B. Lokale Strukturelle Ausrichtung via Optimal Transport (OT)

Um auch lokale Inkonsistenzen (z. B. durch Hintergrundrauschen oder fehlende Details in den Textbeschreibungen) zu adressieren, modellieren die Autoren Bilder und Texte nicht als einzelne Punkte, sondern als diskrete Verteilungen.

Datenerweiterung:
- Für jedes Bild werden $N$ augmentierte Ansichten (z. B. durch Cropping, Flipping) erzeugt.
- Für jede Klasse werden $M$ feingranulare Textbeschreibungen mittels eines LLM generiert.
Gewichtung: Die Wichtigkeit der einzelnen Ansichten wird basierend auf ihrer Entropie (Vorhersagesicherheit) gewichtet.
OT-Kostenmatrix: Die Transportkosten zwischen den Bild- und Text-Verteilungen werden nicht auf den rohen Features berechnet, sondern auf den projizierten Features ( $\Pi(\hat{x})$ ). Dies ist entscheidend, da die ursprünglichen gestörten Features unzuverlässige Ähnlichkeitsmaße liefern.
Klassifizierung: Die Klasse mit dem minimalen Optimal-Transport-Abstand (minimaler semantischer Matching-Kosten) wird ausgewählt.

3. Theoretische Garantien

Die Autoren liefern theoretische Beweise für die Wirksamkeit des Ansatzes:

Erhaltung der Ähnlichkeit: Die Subraum-Projektion reduziert die Verzerrung der paarweisen Kosinus-Ähnlichkeit zwischen gestörten Features im Vergleich zu den unprojizierten Features ( $\Delta^\Pi \le \Delta$ ).
Vergrößerter Entscheidungsrand (Decision Margin): Der OT-basierte Klassifikator mit der projizierten Kostenmatrix weist einen größeren Entscheidungsrand auf als der ursprüngliche Klassifikator. Ein größerer Rand impliziert eine bessere Generalisierungsfähigkeit und höhere Robustheit.

4. Ergebnisse

COLA wurde umfassend auf 14 Zero-Shot-Klassifizierungs-Benchmarks (einschließlich ImageNet, ImageNet-A/R/V2/Sketch, Caltech101, Food101, etc.) evaluiert.

Robustheit unter Angriffen:
- Unter PGD-Angriffen (Projected Gradient Descent) erzielte COLA eine durchschnittliche Verbesserung von +6,7 % auf ImageNet und seinen Varianten im Vergleich zum Basis-CLIP.
- Unter CW-Angriffen (Carlini & Wagner) wurden ebenfalls signifikante Steigerungen verzeichnet (z. B. +4,8 % auf ImageNet).
- Im Vergleich zu anderen Test-time-Defenses wie TTC (Test-Time Counterattacks) oder HD (Hedge Defense) übertraf COLA diese konsistent, oft um mehr als 10 % in der robusten Genauigkeit.
Erhaltung der sauberen Genauigkeit: Im Gegensatz zu vielen Fine-Tuning-Methoden, die die Genauigkeit auf sauberen Daten (Clean Accuracy) drastisch senken, behielt COLA die hohe Genauigkeit auf sauberen Bildern bei.
Skalierbarkeit: Das Verfahren funktioniert effektiv mit verschiedenen CLIP-Backbones (ViT-B/16, ViT-L/14) und ist kompatibel mit bereits adversariell feinabgestimmten Modellen (Plug-and-Play).
Effizienz: COLA ist deutlich schneller als iterative Test-time-Methoden wie TTC (28 Minuten vs. 40 Minuten auf ImageNet), da es keine aufwendige Optimierung während der Inferenz erfordert.

5. Bedeutung und Fazit

COLA adressiert ein fundamentales Problem der VLMs: die Zerbrechlichkeit der Modalitätsausrichtung unter Angriffen.

Innovation: Es ist der erste Test-time-Defense-Ansatz für CLIP, der kein Nachtraining, keine Architekturänderungen und keine zusätzlichen Modelle benötigt.
Mechanismus: Durch die Kombination von Subraum-Projektion (zur Filterung von Rauschen) und Optimal Transport (zur Feinabstimmung der semantischen Verteilung) wird die Robustheit signifikant gesteigert.
Anwendungsrelevanz: Die Methode erhöht die Zuverlässigkeit von VLMs in kritischen Bereichen wie autonomes Fahren, medizinische Diagnostik und Sicherheitssysteme, wo die Widerstandsfähigkeit gegen Manipulationen essenziell ist.

Zusammenfassend bietet COLA einen theoretisch fundierten, effizienten und hochwirksamen Weg, um die adversarielle Robustheit von Vision-Language-Modellen zu verbessern, ohne deren ursprüngliche Leistungsfähigkeit auf sauberen Daten zu beeinträchtigen.