Enhancing CLIP Robustness via Cross-Modality Alignment

Each language version is independently generated for its own context, not a direct translation.

🎨 De Probleemstelling: Een Verwarde Vertaler

Stel je voor dat CLIP een superintelligente vertaler is die beelden en tekst aan elkaar koppelt. Als je een foto van een hond toont, kan hij perfect de tekst "een bruine hond in het park" vinden. Dit werkt fantastisch in de echte wereld.

Maar er zit een zwak puntje in: hackers.
Hackers kunnen een foto met een heel klein, onzichtbaar "vervuilingetje" (een adversarial perturbation) bewerken. Voor ons oog ziet de foto er nog steeds uit als een hond, maar voor de computer is het alsof er een magische toverformule overheen is gegooid.

Wat gebeurt er nu?
De computer raakt in de war. De "hond" in de foto komt plotseling niet meer overeen met de tekst "hond", maar lijkt meer op "een auto" of "een banaan". De verbinding tussen beeld en tekst is verbroken. In het paper noemen ze dit misalignment (misalignement). Het is alsof de vertaler ineens in een andere taal begint te praten, terwijl de spreker nog steeds Nederlands spreekt.

🛠️ De Oplossing: COLA (De "Tol" en de "Gids")

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd COLA. Ze hoeven de computer niet opnieuw te leren (geen dure training), maar gebruiken slimme wiskunde om de vertaler weer op het goede spoor te zetten. Ze doen dit in twee stappen:

Stap 1: De "Filter" (Subspace Projectie)

Stel je voor dat de hacker de foto van de hond heeft "vervuild" met ruis die eruitziet als een auto of een boom.

De oude manier: De computer kijkt naar de hele rommelige foto en raakt in paniek.
De COLA-methode: COLA heeft een speciaal filter (een subspace) dat alleen de "echte" hond-woorden kent. Het filtert alle ruis en "auto-dingen" eruit die niet bij de tekst horen.
De analogie: Het is alsof je een vervuild glas water door een zeer fijn zeefje haalt. Het vuil (de hacker) blijft achter, en je houdt alleen het schone water (de echte betekenis van de hond) over. De computer kijkt nu weer naar de "echte" hond, niet naar de hack.

Stap 2: De "Matchmaker" (Optimal Transport)

Nu de foto weer schoner is, moet de computer nog steeds de perfecte match vinden tussen de foto en de tekst.

Het probleem: Soms is de tekst "een hond" te vaag. Misschien is het een "een rennende gouden hond op het strand".
De COLA-methode: In plaats van één tekst te gebruiken, laat COLA een AI (een grote taalmodel) 50 verschillende versies van die tekst bedenken. Ook maakt hij 5 verschillende versies van de foto (iets gedraaid, ingeknipt, etc.).
De analogie: In plaats van één persoon die probeert een danspartner te vinden, organiseer je een groot bal met 50 versies van de foto en 50 versies van de tekst. COLA gebruikt een slimme wiskundige methode (Optimal Transport) om te kijken welke versie het beste bij elkaar past. Het is alsof je de beste dansparen kiest door te kijken naar hoe goed ze op elkaar bewegen, in plaats van alleen naar hun naam te kijken.

🏆 Waarom is dit zo goed?

Het werkt direct: Je hoeft de computer niet maandenlang te laten "leren" (trainen). Je kunt het direct toepassen op bestaande systemen.
Het is snel: Het duurt minder tijd dan andere methoden om de hack te detecteren.
Het is sterk: Zelfs als hackers heel sterke "toverformules" gebruiken, blijft COLA de hond herkennen als een hond.

📊 De Resultaten in het Kort

In het paper hebben ze dit getest op 14 verschillende soorten foto's (van auto's tot bloemen).

Zonder COLA: Als een hacker een foto aanvalt, zakt de nauwkeurigheid van de computer vaak naar bijna 0%. De computer denkt dat een hond een auto is.
Met COLA: Zelfs onder aanval blijft de computer 50% tot 70% van de tijd correct. Het is alsof je een onzichtbaar schild hebt dat de hacker afweert.

🌍 Conclusie voor de Algemeine Mens

Dit onderzoek is als het bouwen van een veiligheidsschild voor slimme camera's en auto's.
Stel je een zelfrijdende auto voor die een stopbord ziet. Een hacker probeert er een klein stickerje op te plakken zodat de auto denkt dat het een "snelheidsbord" is.
Met COLA zou de auto kunnen zeggen: "Wacht even, dit ziet er raar uit, maar als ik door mijn 'filter' kijk en alle mogelijke beschrijvingen van een stopbord afhaal, zie ik dat het toch een stopbord is."

Het maakt onze AI-systemen niet alleen slimmer, maar vooral veiliger en betrouwbaarder in een wereld waar hackers steeds slimmer worden.

Each language version is independently generated for its own context, not a direct translation.

Titel: Enhancing CLIP Robustness via Cross-Modality Alignment (COLA)

Auteurs: Xingyu Zhu, Beier Zhu, Shuo Wang, Kesen Zhao, Hanwang Zhang.
Conferentie: NeurIPS 2025.

1. Het Probleem

Visueel-taalmodellen (VLMs) zoals CLIP tonen uitstekende generalisatievermogen bij zero-shot classificatie, maar zijn extreem kwetsbaar voor adversariële perturbaties.

Kwetsbaarheid: Kleine, zorgvuldig ontworpen wijzigingen in invoerbeelden kunnen de voorspellingen van het model volledig misleiden.
De Onderliggende Oorzaak: Bestaande methoden (zoals adversarial training of prompt tuning) negeren vaak de fundamentele misalignering tussen beeld- en tekstfeatures.
- In een schoon CLIP-model liggen beeld- en tekstfeatures dicht bij elkaar in de embeddingsruimte.
- Onder adversariële aanvallen verspreiden de beeldfeatures zich en komen ze ver weg te liggen van de semantische tekstprototypes (zie Figuur 1 in het paper).
- Dit leidt tot een ineenstorting van de classificatieprestaties, omdat de globale matching faalt en de lokale structuur in de feature-ruimte verloren gaat.

2. Methodologie: COLA (Cross-modaal Alignment)

Het paper stelt COLA voor, een training-vrij (training-free) framework dat de kwetsbaarheid aanpakt door de misalignering op twee niveaus te herstellen: globaal (feature-ruimte) en lokaal (semantische structuur). Het framework maakt gebruik van Optimal Transport (OT).

De methode bestaat uit drie kernstappen:

A. Subruimte-projectie (Global Feature Alignment)

Om de door adversariële ruis vervormde beeldfeatures te corrigeren, projecteert COLA deze op een subruimte die wordt opgespannen door de schone tekstfeatures.

Werking: De tekstfeatures van alle klassen worden verzameld en er wordt een Singular Value Decomposition (SVD) op uitgevoerd om de $C$ belangrijkste componenten (hoofdcomponenten) te extraheren.
Projectie: Een aangevallen beeldfeature $\hat{x}$ wordt geprojecteerd op deze subruimte $U$ :
$\Pi(\hat{x}) = U_C U_C^\top \hat{x}$
Effect: Dit filtert niet-semantische distorties (die loodrecht op de subruimte staan) eruit en herstelt de alignering met de tekstprototypes, terwijl de discriminatieve informatie behouden blijft.

B. Discrete Distributiemodellering (Local Structural Alignment)

In plaats van te werken met één enkel feature-vector, modelleert COLA zowel beelden als teksten als discrete distributies over meerdere augmentaties.

Beeldaugmentatie: Voor een aangevallen beeld worden $N$ views gegenereerd (oorspronkelijk + augmentaties zoals croppen, flippen).
Tekstaugmentatie: Voor elke klas worden $M$ fijner gedetailleerde tekstbeschrijvingen gegenereerd via een Large Language Model (LLM).
Gewichten: De belangrijkheid van elke view wordt bepaald op basis van entropie (betrouwbaarheid van de voorspelling).

C. Unified Optimal Transport (OT) Framework

De uiteindelijke classificatie gebeurt door de transportkosten tussen de beelddistributie en de tekstdistributie te minimaliseren.

Kostenmatrix: De transportkosten worden berekend op basis van de geprojecteerde features (niet de originele aangevallen features).
$C^\Pi_y(n, m) = 1 - \cos(\Pi(\hat{x}_n), z^m_y)$
Classificatie: De klasse met de laagste Optimal Transport-afstand wordt gekozen.
Theoretisch Voordeel: Het paper bewijst dat deze projectie de cosine-similariteitsdistortie vermindert en leidt tot groere decision margins, wat betere generalisatie en robuustheid garandeert.

3. Belangrijkste Bijdragen

Training-vrije Defensie: COLA vereist geen herscholing van het model, geen architecturale wijzigingen en geen extra inference-modules. Het werkt als een plug-in voor bestaande CLIP-modellen.
Dubbele Alignering: Het lost zowel de globale misalignering (door subruimte-projectie) als de lokale semantische inconsistentie (door OT over augmentaties) op.
Theoretische Garantie: Het paper biedt wiskundige bewijzen dat de projectie de pairwise similariteit behoudt en dat de OT-classificator grotere decision margins heeft dan standaard methoden.
Efficiëntie: In tegenstelling tot methoden die iteratieve optimalisatie vereisen (zoals TTC), is COLA zeer efficiënt tijdens de inferentie.

4. Resultaten

COLA werd geëvalueerd op 14 zero-shot classificatie benchmarks, waaronder ImageNet, Caltech101, en diverse ImageNet-varianten (ImageNet-A, -R, -Sketch, etc.), onder zowel PGD- als CW-aanvallen.

Prestatieverbetering:
- Op ImageNet en varianten onder PGD-aanvallen boekte COLA een gemiddelde verbetering van 6,7% in robuuste nauwkeurigheid vergeleken met de baseline.
- Op ImageNet-A en ImageNet-R (de meest uitdagende varianten) werden verbeteringen van meer dan +7% behaald.
- In vergelijking met de state-of-the-art test-time methode TTC (Test-Time Counterattacks), presteerde COLA overtuigend beter, met name bij sterke aanvallen ( $\epsilon_a = 4/255$ ), waarbij TTC vaak faalt en COLA robuuste nauwkeurigheden van >40% behoudt.
Schoon Data Behoud: COLA behoudt de hoge nauwkeurigheid op schone (niet-aangevallen) data, in tegenstelling tot veel adversarial training-methoden die vaak ten koste gaan van de schone prestaties.
Efficiëntie: COLA is sneller dan TTC (28 minuten vs. 40 minuten voor ImageNet-evaluatie) omdat het geen dure iteratieve optimalisatie vereist.
Generalisatie: De methode werkt consistent goed op verschillende backbones (ViT-B/16, ViT-L/14) en op modellen die al zijn gefinetuned voor adversarial robustness.

5. Betekenis en Conclusie

COLA adresseert een fundamenteel probleem in visueel-taalmodellen: de kwetsbaarheid van de cross-modale alignering onder adversariële druk.

Praktische Toepassing: Omdat het training-vrij is en compatibel met bestaande modellen, is het direct inzetbaar in kritieke toepassingen zoals medische diagnose, autonoom rijden en beveiligingssystemen waar betrouwbaarheid cruciaal is.
Innovatie: Het paper toont aan dat het herstel van de semantische structuur via Optimal Transport en subruimte-projectie een krachtigere en efficiëntere strategie is dan het proberen om het model opnieuw te trainen of prompts te optimaliseren.

Kortom, COLA biedt een theoretisch onderbouwde, efficiënte en effectieve oplossing om de kwetsbaarheid van CLIP voor adversariële aanvallen te overwinnen zonder de oorspronkelijke prestaties op schone data te compromitteren.