Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

Each language version is independently generated for its own context, not a direct translation.

Dyslexify: De "Dyslectische" Schildwacht voor AI

Stel je voor dat je een zeer slimme, maar soms wat naïeve robot hebt die foto's bekijkt en probeert te raden wat erop te zien is. Deze robot, genaamd CLIP, is een meester in het herkennen van dingen: een hond, een auto, een banaan. Maar deze robot heeft een raar zwak punt: hij is te makkelijk te misleiden door tekst.

Het Probleem: De "Post-it" Valstrik

Stel je voor dat je een foto van een banaan maakt. Maar op die foto plakt je een Post-it met het woord "Vuurwapen" erop geschreven.
Voor een mens is het duidelijk: het is een banaan, en die tekst is maar een grappige toevoeging. Maar voor de robot is het een ramp. Hij kijkt naar het woord "Vuurwapen", denkt: "Aha! Vuurwapen!" en verandert zijn antwoord. Hij ziet de banaan niet meer, alleen de tekst.

Dit wordt een typografische aanval genoemd. Hackers gebruiken dit om AI-systemen te misleiden, bijvoorbeeld om een gevaarlijk object als onschuldig te laten lijken, of om een medische diagnose te veranderen van "kwaadaardig" naar "goedaardig".

De Oplossing: Dyslexify

De onderzoekers in dit paper hebben een nieuwe manier bedacht om deze robot te beschermen, zonder hem opnieuw te hoeven leren (wat heel duur en langzaam is). Ze noemen hun methode Dyslexify.

De naam is een knipoog naar dyslexie (leesproblemen). Het idee is: "Laten we de robot een beetje 'dyslectisch' maken, zodat hij de tekst op de foto niet meer zo belangrijk vindt als het plaatje zelf."

Hoe werkt het? (Met een Metafoor)

Stel je dat de robot een enorm kantoor is met honderden assistenten (deze heten in het jargon "attention heads").

De Normale Werking: Als de robot een foto ziet, kijken alle assistenten mee. De meeste kijken naar de vormen en kleuren van de banaan. Maar ergens in de laatste etage van het kantoor zitten een paar specifieke assistenten die verslaafd zijn aan tekst. Zodra ze een woord zien, schreeuwen ze: "Kijk naar mij! Dit woord is het belangrijkst!" en ze duwen de rest van het team over de kop.
De Analyse: De onderzoekers hebben gekeken wie die tekst-verslaafde assistenten zijn. Ze vonden dat ze zich in de laatste etages van het kantoor bevinden en dat ze een heel specifiek patroon hebben: ze kijken alleen naar de tekst en negeren de rest.
De Ingreep: In plaats van het hele kantoor te slopen en opnieuw te bouwen, doen de onderzoekers iets heel slim: ze sluiten de deuren van die specifieke tekst-verslaafde assistenten. Ze zeggen: "Jullie mogen niet meer praten."
Het Resultaat: De robot kijkt nu nog steeds naar de foto. Hij ziet de banaan. De tekst "Vuurwapen" is er nog steeds, maar omdat de assistenten die daarop reageren zijn uitgeschakeld, negeert de robot het woord. Hij zegt weer: "Dit is een banaan."

Waarom is dit zo cool?

Geen Oefening Nodig: Meestal moet je een AI maandenlang laten oefenen met duizenden voorbeelden om hem veiliger te maken. Dyslexify werkt direct, zonder dat de robot iets hoeft te leren. Het is alsof je een schakelaar omzet in plaats van een student te laten studeren.
Sneller en Goedkoper: Het kost veel minder rekenkracht dan andere methoden.
Medische Toepassing: Dit is levensreddend. Stel je voor dat een AI een huidkanker-scan maakt. Als er per ongeluk een tekstje op de scan staat (bijvoorbeeld een datum of een label), zou de AI denken dat het een onschuldig plekje is. Dyslexify zorgt ervoor dat de AI alleen kijkt naar de huidlaesie en niet naar de tekst, waardoor de diagnose veiliger is.
De Prijs: De enige keer dat je dit "dyslectisch" maken niet wilt, is als je de robot juist nodig hebt om tekst te lezen (zoals bij het scannen van bonnetjes). Maar voor veiligheidscritische taken (zoals medische diagnoses of het herkennen van wapens) is het een perfecte oplossing.

Samenvattend

Dyslexify is een slimme, mechanische ingreep die een zwakke plek in AI-systemen dichtt. Het maakt de AI "blind" voor tekst op foto's, zodat hackers die tekst niet meer kunnen gebruiken om de machine te misleiden. Het is een veilige, snelle en begrijpelijke manier om AI weerbaarder te maken tegen manipulatie.

Each language version is independently generated for its own context, not a direct translation.

Titel: DYSLEXIFY: Een Mechanistische Verdediging tegen Typografische Aanvallen in CLIP

1. Het Probleem: Typografische Aanvallen op Multi-modale Systemen

CLIP-modellen (Contrastive Language-Image Pre-training) worden steeds vaker gebruikt voor zero-shot classificatie, beeldgeneratie en veilige content-moderatie. Echter, deze modellen zijn kwetsbaar voor typografische aanvallen. Hierbij wordt tekst opzettelijk in een afbeelding geplaatst (bijvoorbeeld op een Post-it of als overlay), waardoor het model de visuele inhoud negeert en de tekst als dominante feature interpreteert.

Gevaren: Dit leidt tot gerichte misclassificaties, het genereren van kwaadaardige inhoud, en zelfs "jailbreaks" van Vision-Language Modellen (VLMs).
Huidige Beperkingen: Bestaande verdedigingsmethoden vereisen vaak gradient-based optimalisatie (finetuning), wat rekenkundig intensief is, weinig interpretatie biedt over waarom het model faalt, en moeilijk schaalbaar is naar miljarden-parameter modellen.

2. Methodologie: Dyslexify

De auteurs introduceren Dyslexify, een gradient-free verdedigingsmethode die zich richt op de interne mechanica van het model in plaats van het opnieuw trainen. De aanpak bestaat uit drie hoofdstappen:

A. Mechanistisch Onderzoek en Lokalisatie
De auteurs analyseren hoe CLIP-visuele encoders reageren op typografie. Ze ontdekken dat typografisch begrip niet geleidelijk ontstaat, maar plotseling verschijnt in de tweede helft van de model-lagen.

Linear Probes: Door lineaire probes te trainen op de cls-token embeddings, tonen ze aan dat objectherkenning geleidelijk verbetert, terwijl typografische herkenning abrupt stijgt in de latere lagen.
Rol van Attention vs. MLP: Attention-lagen voegen lineair decodeerbare informatie toe aan de cls-token, terwijl MLP-lagen (Multi-Layer Perceptrons) informatie vaak comprimeren of verwijderen.

B. Identificatie van de "Typografische Circuit"
De kern van de kwetsbaarheid ligt in een specifieke subset van attention heads die typografische informatie causaal doorgeven aan de cls-token.

Typographic Attention Score ( $T_{i,\ell}$ ): De auteurs definiëren een score die meet hoeveel een attention head $H_{i,\ell}$ aandacht besteedt aan ruimtelijke gebieden met typografische inhoud.
Circuit Constructie: Ze selecteren attention heads met de hoogste scores. Deze heads fungeren als "attention sinks" die typografische signalen naar de globale representatie (cls) leiden.

C. Ablatie en Defensie
In plaats van het model te finetunen, wordt het geïdentificeerde circuit geablateerd (uitgeschakeld) tijdens de inferentie.

Procedure: De bijdrage van de geselecteerde attention heads aan de cls-token wordt op nul gezet ( $H_{i,\ell,cls} \leftarrow 0$ ), terwijl de ruimtelijke bijdragen intact blijven.
Selectie-algoritme: Heads worden iteratief toegevoegd aan het circuit zolang de nauwkeurigheid op een niet-typografisch dataset (bijv. ImageNet-100) niet daalt onder een bepaalde drempel ( $\epsilon$ ), terwijl de robustheid tegen typografie toeneemt.

3. Belangrijkste Bijdragen

Mechanistisch Inzicht: Het paper biedt het eerste causale bewijs dat een klein aantal attention heads in de latere lagen verantwoordelijk is voor typografische kwetsbaarheid.
Gradient-Free Defense: Dyslexify vereist geen backpropagation of finetuning. Het is een "drop-in" oplossing die werkt op bestaande modellen.
Schaalbaarheid: De methode werkt efficiënt op modellen met miljarden parameters (tot ViT-BigG) op consumentenhardware.
Interpreteerbaarheid: De methode maakt het mogelijk om specifiek in te grijpen op de oorzaak van het falen, wat leidt tot meer controleerbare AI-systemen.

4. Resultaten

De auteurs evalueren Dyslexify op diverse datasets en modelgroottes (ViT-B, L, H, G, BigG):

Robuustheid: Op een typografische variant van ImageNet-100 verbetert de nauwkeurigheid met tot 22,06% (en in sommige gevallen tot 31% op specifieke datasets).
Behoud van Algemene Prestaties: De nauwkeurigheid op standaard beeldherkenningsdatasets (zonder tekst) daalt met minder dan 1%.
Vergelijking met Baselines: Dyslexify presteert beter dan of vergelijkbaar met state-of-the-art methoden zoals "Defense-Prefix" (die finetuning vereist), maar doet dit zonder de rekenkosten van gradient-based training.
Medische Toepassing: In een casestudy voor melanoomdetectie (WhyLesionCLIP) toonden ze aan dat typografische aanvallen de diagnose met tot 22% kunnen verstoren. Dyslexify herstelt deze nauwkeurigheid aanzienlijk en verbetert zelfs de prestaties op niet-aangevallen data.
OCR Impact: Een nadeel is dat Dyslexify de OCR-vaardigheden (tekstherkenning) van het model aanzienlijk vermindert (daling van 8-30%), wat echter de bedoeling is voor veiligheidskritieke toepassingen waar tekstmanipulatie een risico vormt.

5. Betekenis en Conclusie

Dyslexify markeert een verschuiving in de beveiliging van AI-modellen: van "retrainen" naar mechanistische interventie.

Veiligheid: Het biedt een praktische manier om safety-critical systemen (zoals in de gezondheidszorg) te beschermen tegen manipulatie via tekst, zonder de basisfunctionaliteit van het model te verliezen.
Toekomst: De auteurs maken een familie van "dyslectische" CLIP-modellen beschikbaar die direct inzetbaar zijn. Ze benadrukken dat mechanische interpretatie niet alleen dient om modellen te begrijpen, maar ook om hun gedrag direct en veilig te controleren.

Kortom: Dyslexify is een efficiënte, interpreteerbare en schaalbare methode die typografische kwetsbaarheden in CLIP neutraliseert door specifieke attention circuits uit te schakelen, waardoor modellen robuuster worden zonder dat er nieuwe training nodig is.

Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

Het Probleem: De "Post-it" Valstrik

De Oplossing: Dyslexify

Hoe werkt het? (Met een Metafoor)

Waarom is dit zo cool?

Samenvattend

Titel: DYSLEXIFY: Een Mechanistische Verdediging tegen Typografische Aanvallen in CLIP

1. Het Probleem: Typografische Aanvallen op Multi-modale Systemen

2. Methodologie: Dyslexify

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems