TTP: Test-Time Padding for Adversarial Detection and Robust Adaptation on Vision-Language Models

Dit artikel introduceert TTP, een lichtgewicht testtijd-methode die adversarial inputs in Vision-Language Models detecteert via verschuivingen in cosine-ähnheid na ruimtelijke padding en deze vervolgens aanpast om robuustheid te verhogen zonder de nauwkeurigheid op schone data te beïnvloeden.

Zhiwei Li, Yitian Pang, Weining Wang, Zhenan Sun, Qi Li

Gepubliceerd 2026-03-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, goed opgeleide hond hebt die foto's kan herkennen. Als je hem een foto van een kat laat zien, zegt hij direct: "Dat is een kat!" Hij is zo goed dat hij zelfs foto's van katten herkent die hij nog nooit eerder heeft gezien. Dit is wat Vision-Language Models (VLM's), zoals CLIP, doen in de computerwereld. Ze zijn de superhelden van het herkennen van beelden.

Maar, zoals elke superheld, hebben ze een zwak punt. Er zijn slimme "boeven" (hackers) die een heel klein, onzichtbaar stukje ruis toevoegen aan een foto. Voor het menselijk oog ziet de foto er nog steeds uit als een kat, maar voor de slimme hond verandert de foto plotseling in een "hond" of zelfs een "auto". Dit noemen we een adversariale aanval.

Het Probleem: De Hulpeloosheid van de Hulp

Tot nu toe waren er twee manieren om deze slimme hond te beschermen:

  1. De "Oefen-methode": Je laat de hond duizenden voorbeelden zien van deze boeven en laat hem oefenen om ze te herkennen. Dit werkt goed, maar het kost enorm veel tijd, geld en energie om de hond opnieuw te trainen.
  2. De "Alles-overal-methode": Je probeert de hond op het moment zelf te helpen door hem altijd een beetje te herscholen, of het nu een normale foto is of een neppe. Het probleem hier is dat je de hond soms verward raakt. Als je een normale foto van een kat probeert te "repareren", maak je er misschien per ongeluk een hond van. Je verliest dus je scherpte op normale foto's.

De Oplossing: TTP (Test-Time Padding)

De auteurs van dit paper hebben een slimme, lichte oplossing bedacht genaamd Test-Time Padding (TTP). Je kunt dit zien als een slimme poortwachter die de foto's controleert voordat ze bij de hond komen.

Hier is hoe het werkt, stap voor stap, met een analogie:

Stap 1: De "Randjes-test" (Detectie)

Stel je voor dat je een foto van een kat in een lijstje doet.

  • Normale foto: Als je een foto van een echte kat in een lijstje (met witte randjes) doet, ziet de hond de kat nog steeds duidelijk. De foto verandert nauwelijks.
  • Boeven-foto: Als je een foto van een kat die is gemanipuleerd door een hacker in een lijstje doet, gebeurt er iets raars. Omdat de hacker de foto zo heeft "verpest" dat hij eruitziet als iets anders, zorgt het toevoegen van randjes ervoor dat de hond plotseling schrikt en denkt: "Wacht, dit is niet meer een kat!"

De slimme poortwachter (TTP) kijkt naar het verschil tussen de foto zonder lijstje en de foto met lijstje.

  • Als het verschil klein is: "Oké, dit is een normale foto. Laat de hond gewoon kijken." (Dit behoudt de scherpte op normale foto's).
  • Als het verschil groot is: "Aha! Dit is een boeven-foto! We moeten ingrijpen."

Dit is heel slim omdat je geen nieuwe hond hoeft te trainen; je gebruikt gewoon de lijstjes om de boeven te betrappen.

Stap 2: De "Reparatie" (Adaptatie)

Zodra de poortwachter een boeven-foto heeft gevangen, doet hij iets speciaals. Hij pakt niet zomaar willekeurige randjes, maar hij leert in één seconde welke randjes het beste werken om de foto weer "echt" te maken.

  • Hij probeert verschillende randjes (kleuren, diktes) en kijkt welke combinatie de hond het meest laat denken: "Ah, dit is weer een echte kat!"
  • Dit gebeurt heel snel, direct op het moment dat de foto wordt bekeken.

Stap 3: De "Groepsbeslissing" (Ensemble)

Tot slot, omdat de boeven-foto nu is "gerepareerd" met de beste randjes, laat de poortwachter de hond niet één keer kijken, maar een paar keer met verschillende lichte variaties. Hij neemt de mening van al deze keren en maakt een gemiddelde beslissing. Zo is de kans dat de hond weer in de val trapt, bijna nul.

Waarom is dit zo geweldig?

  1. Het is snel en licht: Je hoeft de hond niet opnieuw te laten studeren. Het werkt direct.
  2. Het is eerlijk: Normale foto's worden niet gestoord. Alleen de boeven-foto's krijgen een behandeling.
  3. Het werkt overal: Of het nu gaat om foto's van auto's, bloemen, dieren of satellietbeelden, deze methode werkt overal even goed.

Kortom: TTP is als een slimme conciërge die bij de ingang van een gebouw staat. Als iemand er normaal uitziet, laat hij hem binnen. Maar als iemand een vermomming draagt (de hacker), ziet de conciërge dat aan de manier waarop de persoon reageert op een simpele test (de lijstjes). Dan helpt hij die persoon even om zijn vermomming af te doen, zodat hij weer kan doen wat hij echt is, voordat hij het gebouw in gaat.

Dit zorgt ervoor dat de slimme hond (CLIP) niet alleen supersterk blijft tegen hackers, maar ook zijn scherpe blik op de normale wereld behoudt.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →