TTP: Test-Time Padding for Adversarial Detection and Robust Adaptation on Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, goed opgeleide hond hebt die foto's kan herkennen. Als je hem een foto van een kat laat zien, zegt hij direct: "Dat is een kat!" Hij is zo goed dat hij zelfs foto's van katten herkent die hij nog nooit eerder heeft gezien. Dit is wat Vision-Language Models (VLM's), zoals CLIP, doen in de computerwereld. Ze zijn de superhelden van het herkennen van beelden.

Maar, zoals elke superheld, hebben ze een zwak punt. Er zijn slimme "boeven" (hackers) die een heel klein, onzichtbaar stukje ruis toevoegen aan een foto. Voor het menselijk oog ziet de foto er nog steeds uit als een kat, maar voor de slimme hond verandert de foto plotseling in een "hond" of zelfs een "auto". Dit noemen we een adversariale aanval.

Het Probleem: De Hulpeloosheid van de Hulp

Tot nu toe waren er twee manieren om deze slimme hond te beschermen:

De "Oefen-methode": Je laat de hond duizenden voorbeelden zien van deze boeven en laat hem oefenen om ze te herkennen. Dit werkt goed, maar het kost enorm veel tijd, geld en energie om de hond opnieuw te trainen.
De "Alles-overal-methode": Je probeert de hond op het moment zelf te helpen door hem altijd een beetje te herscholen, of het nu een normale foto is of een neppe. Het probleem hier is dat je de hond soms verward raakt. Als je een normale foto van een kat probeert te "repareren", maak je er misschien per ongeluk een hond van. Je verliest dus je scherpte op normale foto's.

De Oplossing: TTP (Test-Time Padding)

De auteurs van dit paper hebben een slimme, lichte oplossing bedacht genaamd Test-Time Padding (TTP). Je kunt dit zien als een slimme poortwachter die de foto's controleert voordat ze bij de hond komen.

Hier is hoe het werkt, stap voor stap, met een analogie:

Stap 1: De "Randjes-test" (Detectie)

Stel je voor dat je een foto van een kat in een lijstje doet.

Normale foto: Als je een foto van een echte kat in een lijstje (met witte randjes) doet, ziet de hond de kat nog steeds duidelijk. De foto verandert nauwelijks.
Boeven-foto: Als je een foto van een kat die is gemanipuleerd door een hacker in een lijstje doet, gebeurt er iets raars. Omdat de hacker de foto zo heeft "verpest" dat hij eruitziet als iets anders, zorgt het toevoegen van randjes ervoor dat de hond plotseling schrikt en denkt: "Wacht, dit is niet meer een kat!"

De slimme poortwachter (TTP) kijkt naar het verschil tussen de foto zonder lijstje en de foto met lijstje.

Als het verschil klein is: "Oké, dit is een normale foto. Laat de hond gewoon kijken." (Dit behoudt de scherpte op normale foto's).
Als het verschil groot is: "Aha! Dit is een boeven-foto! We moeten ingrijpen."

Dit is heel slim omdat je geen nieuwe hond hoeft te trainen; je gebruikt gewoon de lijstjes om de boeven te betrappen.

Stap 2: De "Reparatie" (Adaptatie)

Zodra de poortwachter een boeven-foto heeft gevangen, doet hij iets speciaals. Hij pakt niet zomaar willekeurige randjes, maar hij leert in één seconde welke randjes het beste werken om de foto weer "echt" te maken.

Hij probeert verschillende randjes (kleuren, diktes) en kijkt welke combinatie de hond het meest laat denken: "Ah, dit is weer een echte kat!"
Dit gebeurt heel snel, direct op het moment dat de foto wordt bekeken.

Stap 3: De "Groepsbeslissing" (Ensemble)

Tot slot, omdat de boeven-foto nu is "gerepareerd" met de beste randjes, laat de poortwachter de hond niet één keer kijken, maar een paar keer met verschillende lichte variaties. Hij neemt de mening van al deze keren en maakt een gemiddelde beslissing. Zo is de kans dat de hond weer in de val trapt, bijna nul.

Waarom is dit zo geweldig?

Het is snel en licht: Je hoeft de hond niet opnieuw te laten studeren. Het werkt direct.
Het is eerlijk: Normale foto's worden niet gestoord. Alleen de boeven-foto's krijgen een behandeling.
Het werkt overal: Of het nu gaat om foto's van auto's, bloemen, dieren of satellietbeelden, deze methode werkt overal even goed.

Kortom: TTP is als een slimme conciërge die bij de ingang van een gebouw staat. Als iemand er normaal uitziet, laat hij hem binnen. Maar als iemand een vermomming draagt (de hacker), ziet de conciërge dat aan de manier waarop de persoon reageert op een simpele test (de lijstjes). Dan helpt hij die persoon even om zijn vermomming af te doen, zodat hij weer kan doen wat hij echt is, voordat hij het gebouw in gaat.

Dit zorgt ervoor dat de slimme hond (CLIP) niet alleen supersterk blijft tegen hackers, maar ook zijn scherpe blik op de normale wereld behoudt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Visueel-taalmodellen (VLM's), zoals CLIP, hebben indrukwekkende zero-shot herkenningsprestaties bereikt, maar zijn kwetsbaar voor adversariële perturbaties (onzichtbare ruis die de voorspelling van het model manipuleert). Dit vormt een groot risico in veiligheidskritieke scenario's.
Bestaande oplossingen hebben belangrijke beperkingen:

Training-tijd verdedigingen: Vereisen vaak adversariële fine-tuning met gelabelde data, wat rekenkundig duur is en het hertrainen van grote modellen vereist.
Bestaande test-tijd strategieën: Bestaande methoden passen vaak een uniforme adaptatie toe op alle invoer, wat leidt tot suboptimale prestaties voor zowel robuustheid als schone nauwkeurigheid.
Detectieproblemen: Recentere methoden zoals Test-Time Counterattack (TTC) hebben moeite om schone en adversariële invoer betrouwbaar te onderscheiden, wat leidt tot lage detectienauwkeurigheid en slechte generalisatie over verschillende datasets en modelarchitecturen.

Methodologie: Test-Time Padding (TTP)

De auteurs stellen Test-Time Padding (TTP) voor, een lichtgewicht verdedigingskader dat werkt tijdens de inferentie (testtijd) zonder het model opnieuw te trainen of de architectuur te wijzigen. De kerninzicht is dat ruimtelijke padding (het toevoegen van pixels aan de randen van een afbeelding) de door adversariële aanvallen verstoorte aandachtspatronen (attention patterns) van het model kan herstellen.

Het TTP-kader bestaat uit drie fasen:

Adversariële Detectie via Similariteitsverschuiving:
- Het systeem vergelijkt de visuele embeddings van een invoerbeeld voor en na het toepassen van vaste padding (bijv. zwarte of witte randen).
- Schone invoer: Toont een minimale verschuiving in de cosine-similariteit tussen de originele en de gepadded versie.
- Adversariële invoer: Toont een significante verschuiving in cosine-similariteit omdat de perturbaties de aandacht van het model verstoren, wat door de padding wordt gecorrigeerd.
- Een universele drempelwaarde (bijv. $\tau = 0.8$ ) wordt gebruikt om schone van adversariële invoer te scheiden. Dit werkt robuust over verschillende datasets en CLIP-backbones.
Trainable Test-Time Padding (Adaptatie):
- Voor gedetecteerde adversariële voorbeelden wordt een trainable padding-module geactiveerd.
- In plaats van het model zelf te herschrijven, worden de padding-parameters geoptimaliseerd in één stap tijdens de inferentie.
- Dit gebeurt door entropieminimalisatie op een subset van versterkte weergaven (augmented views) met hoge betrouwbaarheid. Dit helpt het model om zijn aandacht weer te richten op de juiste beeldregio's en ruis te onderdrukken.
Similariteitsbewust Ensemble:
- Na de adaptatie worden voorspellingen van meerdere versterkte weergaven geaggregeerd.
- Een similariteitsbewuste ensemble-strategie wijst adaptieve gewichten toe aan elke weergave. De gewichten zijn gebaseerd op hoe dicht de gepadded embedding van een weergave ligt bij de gepadded embedding van de oorspronkelijke adversariële invoer (terwijl ze ver weg moeten blijven van de ongepadded, vervormde invoer).
- Dit resulteert in een meer betrouwbare en robuuste definitieve voorspelling.

Schone invoer wordt standaard niet aangepast (om de zero-shot nauwkeurigheid te behouden) of kan optioneel worden verwerkt met bestaande test-tijd adaptatiemethoden voor verdere verbetering.

Belangrijkste Bijdragen

Universele Detectie: Het aantonen dat ruimtelijke padding leidt tot een karakteristieke verschuiving in embeddings, wat een universele, dataset-onafhankelijke drempelwaarde mogelijk maakt voor het detecteren van adversariële aanvallen.
Doelgerichte Adaptatie: De introductie van een "detect-then-adapt" strategie waarbij alleen adversariële invoer wordt aangepast via trainable padding en entropieminimalisatie, terwijl schone invoer intact blijft.
Lichtgewicht en Plug-and-Play: Het framework vereist geen toegang tot de modelarchitectuur, geen herschrijving van de tekst-prompt en geen extra foundation-modellen. Het werkt puur in de invoerruimte.
Superieure Generalisatie: Het bewijzen dat de methode consistent werkt over verschillende CLIP-architecturen (ViT-B/32, B/16, L/14) en diverse datasets.

Resultaten

Uitgebreide experimenten op acht fijnkorrelige classificatiedatasets (zoals Caltech101, OxfordPets, Flowers102) tonen aan:

Robuustheid: TTP overtreft state-of-the-art test-tijd verdedigingen (zoals R-TPT en TTC) aanzienlijk. Bijvoorbeeld, met CLIP-ViT-B/32 bereikt TTP een gemiddelde adversariële nauwkeurigheid van 39,7% onder sterke PGD-aanvallen, vergeleken met 35,3% voor R-TPT en slechts 6,8% voor TTC.
Schone Nauwkeurigheid: In tegenstelling tot andere methoden die vaak schone nauwkeurigheid opofferen voor robuustheid, behoudt TTP de zero-shot prestaties van het originele CLIP-model (bijna 100% detectienauwkeurigheid zorgt ervoor dat schone data niet onnodig wordt aangepast).
Generalisatie: De methode werkt consistent goed op alle geteste CLIP-backbones en is effectief tegen verschillende soorten aanvallen (PGD, CW, DeepFool, FGSM).
Combinatie met TTA: Omdat TTP schone data herkent, kan het naadloos worden gecombineerd met bestaande test-tijd adaptatiemethoden (zoals TPT) om zelfs nog hogere schone nauwkeurigheid te bereiken zonder de robuustheid te verliezen.

Betekenis

TTP biedt een praktische en efficiënte blauwdruk voor de beveiliging van Vision-Language Models in real-world scenario's. Het lost het fundamentele dilemma op tussen het behouden van zero-shot capaciteiten en het bieden van robuustheid tegen aanvallen. Door te opereren zonder het model opnieuw te hoeven trainen en zonder complexe architecturale wijzigingen, maakt TTP robuuste inferentie toegankelijk voor bestaande VLM-implementaties. De "detecteer eerst, pas dan aan"-paradigma stelt een nieuwe standaard voor test-tijd verdedigingen, waarbij de integriteit van schone data wordt gewaarborgd terwijl kwetsbare invoer effectief wordt geneutraliseerd.