On the Adversarial Robustness of Discrete Image Tokenizers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel complex robot-systeem hebt dat beelden kan "lezen" en begrijpen, net zoals een mens. Dit systeem is opgebouwd uit verschillende onderdelen. Het eerste onderdeel, de discrete image tokenizer, is als een slimme vertaler. Zijn enige taak is om een foto om te zetten in een reeks van korte, cryptische codes (woorden uit een beperkt woordenboek). Deze codes worden dan doorgegeven aan de rest van het robot-systeem om dingen te doen, zoals een foto beschrijven, een zoekopdracht uitvoeren of een vraag beantwoorden.

Tot nu toe dachten onderzoekers dat deze "vertaler" onkwetsbaar was. Maar in dit nieuwe onderzoek ontdekten de auteurs dat dit vertaler-onderdeel eigenlijk heel kwetsbaar is.

Hier is wat ze hebben gedaan en ontdekt, verteld als een verhaal:

1. Het Probleem: De "Verkeerde Weg"

Stel je voor dat de vertaler een foto van een hond krijgt. Normaal gesproken zou hij de code "HOND" sturen naar de rest van het systeem.
De onderzoekers ontdekten echter dat je met een heel klein, onzichtbaar verstoorde laagje ruis (een "adversarial attack") op de foto, de vertaler kunt dwingen om in paniek te raken. In plaats van "HOND" te sturen, stuurt hij plotseling de code voor "AUTO" of zelfs "Gevaarlijke Slang".

De analogie: Het is alsof je een verkeersbord dat "STOP" zegt, met een paar druppels verf zo manipuleert dat de vertaler er "SCHAAL" van maakt. De rest van het systeem (de robot) ziet alleen de code "SCHAAL" en denkt dat er een schaal op de foto staat, terwijl het een hond is.
Het gevaar: Omdat de vertaler vaak de enige schakel is tussen de foto en de slimme AI, kan je de hele robot misleiden zonder dat je de rest van de robot hoeft aan te raken. Je kunt de robot laten denken dat een foto van een vredig park een foto is van een explosie, of dat een onschuldig plaatje een opdracht bevat om geld over te maken.

2. De Oplossing: "Oefenen met Verkeerde Borden"

De onderzoekers wilden deze vertaler sterker maken. Ze dachten: "Hoe trainen we een vertaler om niet te laten misleiden door deze kleine verstoringen?"

Normaal gesproken train je een model met duizenden voorbeelden en de juiste antwoorden (labels). Maar dat kost veel tijd en je hebt voor elk doel (zoals zoeken of beschrijven) een nieuwe training nodig.

Deze onderzoekers bedachten een slimme truc: Onbewaakte Training.

De analogie: In plaats van de vertaler te leren wat een hond is, laten ze hem duizenden keren een foto van een hond zien, en dan een foto van diezelfde hond met een klein beetje ruis erop. Ze zeggen tegen de vertaler: "Zorg dat je voor beide foto's exact dezelfde code geeft, ongeacht die kleine ruis."
Ze hoeven niet te weten wat de foto voorstelt (geen labels nodig). Ze hoeven alleen te zorgen dat de vertaler consistent blijft.

3. Het Resultaat: Een Onwrikbare Vertaler

Toen ze deze "onbewaakte training" toepasten, gebeurde er iets wonderlijks:

De vertaler werd veel sterker. Zelfs als je de foto probeerde te manipuleren, gaf hij nog steeds de juiste code ("HOND").
Het beste deel: Omdat ze alleen de vertaler trainden en niet de hele robot, was het heel snel en goedkoop. En omdat ze geen specifieke taken leerden (zoals "honden herkennen"), werkte deze nieuwe, sterke vertaler overal. Je kon hem in elk ander systeem stoppen (voor zoeken, voor vragen beantwoorden, voor beschrijven) en het werkte direct.

Samenvatting in één zin

De onderzoekers hebben ontdekt dat de "vertaler" in moderne beeld-AI's heel makkelijk te misleiden is, maar door hem simpelweg te laten oefenen om consistent te blijven ondanks kleine verstoringen (zonder dat iemand hoeft te zeggen wat de foto voorstelt), kunnen ze deze vertaler onwrikbaar maken voor alle soorten toekomstige taken.

Waarom is dit belangrijk?
Het is alsof je de poortwachter van een fort (de vertaler) traint om niet te laten overtuigen door nep-identiteitskaarten. Als de poortwachter sterk is, is het hele fort veilig, ongeacht wat er binnen gebeurt. Dit maakt de AI-systemen van de toekomst veiliger en betrouwbaarder.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Discrete beeldtokenizers (zoals TiTok, UniTok, FlexTok) worden steeds vaker gebruikt in multimodale systemen (encoder-only, encoder-decoder, decoder-only modellen) om visuele invoer te coderen als sequenties van tokens uit een eindige vocabulaire. Hoewel deze tokenizers essentieel zijn voor moderne generatieve modellen en multimodale taken (zoals classificatie, zoekopdrachten en beeldbeschrijving), is hun kwetsbaarheid voor adversariële aanvallen tot nu toe volledig onbestudeerd.

In tegenstelling tot continue encoders (zoals CLIP), die kwetsbaar zijn voor perturbaties, werken discrete tokenizers via vectorquantisatie. Dit proces is niet-differentieerbaar en maakt de tokenisatie gevoelig voor kleine veranderingen in de latente ruimte. Het paper stelt dat als de tokenizer wordt gemanipuleerd, dit de hele downstream-taak (bijv. het genereren van tekst door een LLM) kan saboteren, zelfs zonder dat de aanvaller toegang heeft tot het volledige model.

Methodologie

De auteurs ontwikkelen een tweeledige aanpak: het testen van kwetsbaarheden via nieuwe aanvallen en het verdedigen via een specifieke fine-tuning-strategie.

1. Onbewaakte (Unsupervised) Aanvallen

De auteurs stellen een nieuwe aanvalsmethode voor die specifiek gericht is op de embeddings voor quantisatie (pre-quantization embeddings) van de tokenizer.

Doel: Het maximaliseren van de $\ell_2$ -afstand tussen de embeddings van een schone afbeelding en een verstoord beeld, zonder gebruik te maken van labels of kennis van de downstream-taak.
Formulering: De aanval lost het volgende optimalisatieprobleem op:
$\max_{\|\delta\|_p \leq \epsilon} \sum_{i=1}^{T} \|h_i(x + \delta) - h_i(x)\|_2^2$
Waarbij $h_i$ de $i$ -de embedding is en $\delta$ de perturbatie.
Voordeel: Deze aanval is taalonafhankelijk en computationeel efficiënt. Omdat deze alleen de tokenizer target, is deze effectief voor elk systeem dat deze tokenizer gebruikt, ongeacht of het gaat om classificatie, zoekopdrachten of tekstgeneratie.

2. Onbewaakte Adversariële Fine-tuning (Defensie)

Om de kwetsbaarheid te mitigeren, passen de auteurs een onbewaakte adversariële fine-tuning toe op de tokenizer, geïnspireerd op werk aan robuuste CLIP-encoders.

Strategie: Ze fine-tunen alleen de encoder van de tokenizer, terwijl de codebook, decoder en downstream-modellen (zoals LLM's) bevroren blijven.
Doelstelling: Het model wordt getraind om consistente embeddings te produceren voor zowel de schone afbeelding als de gegenereerde adversariële tegenhanger. De loss-functie minimaliseert de afstand tussen de embeddings van de schone en verstoord input binnen een straal $\epsilon$ .
Voordeel: Omdat deze methode geen labels vereist, kan deze worden toegepast op elke hoeveelheid ongelabelde data. Het resulteert in een tokenizer die direct in bestaande systemen kan worden geplugged zonder aanpassingen aan de rest van de architectuur.

Kernbijdragen

Eerste systematische studie: Dit is het eerste werk dat de adversariële robuustheid van discrete beeldtokenizers onderzoekt.
Efficiënte onbewaakte aanvallen: De auteurs introduceren aanvallen die doelmatig zijn, geen labels nodig hebben en effectief zijn tegen zowel tokenizers als de daarop gebaseerde systemen.
Universele defensie: Ze tonen aan dat onbewaakte adversariële fine-tuning de tokenizer robuust maakt tegen zowel onbewaakte als volledig bewaakte (supervised) end-to-end aanvallen.
Kostenefficiëntie: De fine-tuning is aanzienlijk goedkoper dan end-to-end supervised training, omdat alleen de tokenizer-encoder (een klein deel van de parameters) wordt bijgewerkt.
Generalisatie: De robuuste tokenizers generaliseren goed naar ongezette taken en datasets, in tegenstelling tot taalspecifieke defensies.

Resultaten

De auteurs testen hun methode op populaire tokenizers (TiTok, UniTok, FlexTok) en downstream-modellen (FuseLIP, UniTok-MLLM) op diverse datasets (ImageNet, Imagenette, Caltech101, VQA-datasets).

Kwetsbaarheid: Standaard tokenizers zijn extreem kwetsbaar. Onbewaakte aanvallen kunnen de classificatie-accuraatheid van modellen bijna tot nul reduceren en kunnen zelfs de output van een Large Language Model (LLM) manipuleren om schadelijke of ongewenste beschrijvingen te genereren.
Verbeterde Robuustheid:
- Classificatie & Retrieval: Modellen zoals FuseLIP, die robuuste tokenizers gebruiken, behouden een hoge nauwkeurigheid onder aanval (bijv. stijging van 0% naar ~40% robuuste nauwkeurigheid bij $\epsilon=4/255$ ), terwijl de schone nauwkeurigheid (clean accuracy) behouden blijft.
- Multimodale LLM's: Bij UniTok-MLLM (VQA en beeldbeschrijving) voorkomt de robuuste tokenizer dat een aanvaller de LLM kan dwingen tot het genereren van schadelijke inhoud (zoals fraude-gerelateerde teksten of haatzaaiende opmerkingen) via beeldperturbaties.
Vergelijking met End-to-End Training:
- End-to-end supervised adversariële training leidt tot overfitting op de trainingsdataset en presteert slecht op andere taken.
- De onbewaakte tokenizer-fine-tuning behoudt de prestaties op de trainingsdata en generaliseert uitstekend naar andere datasets (zoals OI-Crop, OI-Pos).
- Snelheid: De trainingstijd per sample is 2.2x sneller bij de tokenizer-only aanpak (1.17s vs 2.56s) omdat de backpropagatie beperkt blijft tot de encoder.

Betekenis en Conclusie

Dit paper benadrukt dat de tokenizer de "zwakke schakel" is in veel moderne multimodale systemen. Zelfs als de downstream-modellen (zoals LLM's) groot en complex zijn, kan een kwetsbare tokenizer het hele systeem compromitteren.

De voorgestelde oplossing biedt een schaalbare en kostenefficiënte manier om de veiligheid van multimodale foundation-modellen te verbeteren. Door de tokenizer onafhankelijk van de taak te versterken, kunnen ontwikkelaars bestaande systemen veilig maken zonder de volledige architectuur opnieuw te hoeven trainen. Dit is een cruciale stap richting het bouwen van veilige en betrouwbare AI-systemen die bestand zijn tegen manipulatie in real-world scenario's.

On the Adversarial Robustness of Discrete Image Tokenizers

1. Het Probleem: De "Verkeerde Weg"

2. De Oplossing: "Oefenen met Verkeerde Borden"

3. Het Resultaat: Een Onwrikbare Vertaler

Samenvatting in één zin

Probleemstelling

Methodologie

1. Onbewaakte (Unsupervised) Aanvallen

2. Onbewaakte Adversariële Fine-tuning (Defensie)

Kernbijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks