Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, moderne robot hebt die zowel foto's als tekst kan begrijpen en erover kan praten. Dit zijn de Multi-Modal Large Language Models (MLLMs), zoals GPT-4o of Claude. Ze zijn geweldig in het zien van een foto en het beschrijven van wat er te zien is.

Maar zoals bij elke slimme robot, zijn er ook "hackers" die proberen ze in de war te brengen. Dit doen ze door heel kleine, onzichtbare veranderingen aan een foto toe te voegen. Voor ons oog ziet de foto er nog hetzelfde uit, maar de robot denkt plotseling dat het een heel ander object is.

Deze paper introduceert een nieuwe, superkrachtige manier om deze robots te "hacken" (of beter: te testen op hun zwakke plekken). Laten we het uitleggen met een paar creatieve vergelijkingen.

Het oude probleem: De "Eenzijdige Expert"

Vroeger probeerden hackers de robot te misleiden door zich te focussen op één soort expert.

Stel je voor dat je een robot wilt overtuigen dat een foto van een hond eigenlijk een kat is.
De oude hackers gebruikten alleen een expert die goed is in vormen (bijv. "oh, het heeft vier poten").
Of ze gebruikten alleen een expert die goed is in kleuren (bijv. "oh, het is bruin").

Het probleem hiermee is dat de robot zelf heel veel experts heeft die samenwerken. Als jij alleen praat over vormen, maar de robot kijkt ook naar de textuur en de context, dan mislukt je hack. Je bent te eenzijdig.

De nieuwe oplossing: MPCAttack (Het "All-terrain Team")

De auteurs van deze paper, Yuanbo Li en zijn team, hebben een nieuw systeem bedacht dat ze MPCAttack noemen. In plaats van één expert, zetten ze een samenwerkend team van drie verschillende experts in om de robot te overtuigen.

Stel je dit team voor als een drie-koppige detective-groep die een misdaad moet oplossen (in dit geval: de robot in de war brengen):

De "Vorm-Expert" (Cross-Modal Alignment): Deze kijkt naar hoe goed de foto past bij een beschrijving. Hij zegt: "Kijk, deze foto lijkt precies op wat we verwachten bij een hond."
De "Context-Expert" (Multi-Modal Understanding): Deze is slim en begrijpt de diepere betekenis. Hij zegt: "Dit is niet zomaar een hond, dit is een hond die in een park speelt, net als in de foto die we willen."
De "Detail-Expert" (Visual Self-Supervised): Deze kijkt naar de kleine, fijne details die anderen missen, zoals de textuur van het haar of de lichte schaduwen. Hij zegt: "Zie je die specifieke vachtstructuur? Dat past perfect bij het doelwit."

Hoe werkt het geheim? (De "Samenwerkingsstrategie")

Het echte genie van MPCAttack is niet alleen dat ze drie experts hebben, maar hoe ze samenwerken.

In het verleden deden deze experts hun werk los van elkaar. Het was alsof ze in drie aparte kamers zaten en elk een eigen plan maakten. Soms schreeuwden ze tegen elkaar, of ze maakten fouten omdat ze niet luisterden naar de anderen.

MPCAttack gebruikt een nieuwe strategie (MPCO):

Ze zetten de drie experts aan één grote tafel.
Ze vergelijken voortdurend wat ze zien ("Contrastive Matching").
Als de "Vorm-Expert" iets ziet, checkt de "Context-Expert" of dat logisch is.
Ze passen hun aanval dynamisch aan. Als één expert een zwakke plek ziet, focussen ze daarop, maar ze houden de anderen in de gaten.

Dit zorgt ervoor dat de "hack" (de onzichtbare verandering in de foto) perfect is afgestemd op alle manieren waarop de robot denkt. Het is alsof je een slot opent met een sleutel die niet alleen de tanden heeft, maar ook perfect past in de vorm van het slot, de draairichting en het materiaal.

Wat is het resultaat?

De paper laat zien dat deze nieuwe methode veel beter werkt dan de oude.

Bij open robots: Ze slaagden erin om 63% van de open-source robots (zoals LLaVA) in de war te brengen, terwijl de oude methoden maar 17% haalden.
Bij gesloten robots: Zelfs bij de super-slimme, gesloten robots van bedrijven (zoals GPT-5 en Claude) was hun methode veel effectiever.

Waarom is dit belangrijk?

Je zou kunnen denken: "Waarom willen we robots hacken?"
Het is net als bij het testen van een auto. Je bouwt een crash-test-dummy niet om de auto te vernietigen, maar om te zien waar de auto kwetsbaar is, zodat je hem veiliger kunt maken.

Door te laten zien dat deze robots zo makkelijk in de war te brengen zijn met MPCAttack, helpen de auteurs de ontwikkelaars om hun robots sterker en veiliger te maken. Ze tonen aan dat als je alleen op één manier kijkt (zoals alleen vormen), je de kwetsbaarheid mist. Je moet kijken vanuit alle perspectieven tegelijk.

Kort samengevat:
Deze paper zegt: "Om een slimme robot echt te testen, moet je niet met één stem praten, maar met een heel koor dat perfect op elkaar is afgestemd. Dat is hoe je de echte zwakke plekken vindt."

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Multi-Modale Grootte Taalmodellen (MLLMs) hebben aanzienlijke vooruitgang geboekt in het begrijpen en redeneren over visuele en tekstuele data. Echter, deze modellen zijn kwetsbaar voor adversariële aanvallen, waarbij kleine, onmerkbaar toegevoegde verstoringen (perturbaties) in een afbeelding kunnen leiden tot foutieve of misleidende tekstuele antwoorden van het model.

Bestaande methoden voor overdraagbare (transferable) adversariële aanvallen tegen MLLs hebben twee fundamentele beperkingen:

Beperking tot één leerparadigma: De meeste aanvallen vertrouwen op surrogate-modellen die zijn getraind binnen één enkel leerparadigma (bijvoorbeeld alleen cross-modale uitlijning zoals CLIP). Dit beperkt de diversiteit van de feature-representaties en zorgt ervoor dat de gegenereerde perturbaties overfitten op de specifieke bias van dat ene paradigma, wat de overdraagbaarheid naar andere MLLM-architecturen vermindert.
Onafhankelijke optimalisatie: Bestaande ensemble-methoden behandelen features van verschillende surrogate-modellen vaak als onafhankelijke optimalisatiedoelen met eenvoudige fusiestrategieën. Dit negeert de potentiële semantische complementariteit tussen verschillende representatieruimtes, wat leidt tot redundante gradiëntrichtingen en lokale optima in plaats van een globale, coherente optimalisatie.

Methodologie: MPCAttack

Om deze problemen aan te pakken, stellen de auteurs MPCAttack (Multi-Paradigm Collaborative Adversarial Attack) voor. Dit is een nieuw raamwerk dat meerdere leerparadigma's integreert om de overdraagbaarheid van adversariële voorbeelden te maximaliseren.

De kerncomponenten zijn:

Integratie van Drie Leerparadigma's:
MPCAttack gebruikt simultaan image-encoders uit drie verschillende grote schaal leerparadigma's om een completer beeld van de visuele en semantische features te krijgen:
- Cross-Modal Alignment: (Bijv. CLIP) Focus op de uitlijning van afbeeldingen en tekst in een gedeelde ruimte.
- Multi-Modal Understanding: (Bijv. InternVL) Combineert visuele en tekstuele representaties voor diep redeneren.
- Visual Self-Supervised Learning: (Bijv. DINOv2) Leer visuele features zonder labels, gericht op lage-level visuele aanwijzingen.
Multi-Paradigm Collaborative Optimization (MPCO):
In plaats van features onafhankelijk te optimaliseren, voert MPCAttack een contrastieve matching uit op geaggregeerde features.
- Feature Aggregatie: Features van alle drie de paradigma's worden genormaliseerd (L2-norm) en geconcateneerd tot een gezamenlijke representatie ( $z$ ).
- Contrastief Verlies: De strategie minimaliseert de afstand tussen de adversariële feature ( $z_{adv}$ ) en de doel-feature ( $z_t$ ), terwijl tegelijkertijd de afstand tot de bron-feature ( $z_s$ ) wordt gemaximaliseerd.
- Balans: Een gewichtsfactor ( $\lambda$ ) balanceert de bijdrage van visuele en tekstuele features uit het cross-modale paradigma. Een temperatuurcoëfficiënt ( $\tau$ ) en een balansfactor ( $\omega$ ) regelen de scherpte van de verdeling en de trade-off tussen positieve en negatieve paren.
Doel:
Door deze collaboratieve optimalisatie worden de perturbaties geleid naar een richting die consistent is over verschillende representatieruimtes. Dit vermindert de representatiebias van individuele paradigma's en creëert perturbaties die robuuster zijn tegenover heterogene MLLM-architecturen.

Belangrijkste Bijdragen

Nieuw Raamwerk: Introductie van MPCAttack, het eerste framework dat meerdere leerparadigma's (alignment, understanding, self-supervised) actief combineert voor adversariële aanvallen op MLLMs.
Gecombineerde Optimalisatie: Een strategie (MPCO) die semantische complementariteit benut door contrastieve matching op geaggregeerde features, in plaats van onafhankelijke optimalisatie.
Uitgebreide Validatie: Experimenten op zowel open-source als gesloten-source MLLMs, en op diverse datasets (ImageNet, Flickr30K, MME), wat de universaliteit van de methode aantoont.

Experimentele Resultaten

De auteurs hebben MPCAttack getest tegen state-of-the-art (SOTA) methoden zoals AnyAttack, CoA, M-Attack en FOA-Attack.

Overdraagbaarheid: MPCAttack behaalde consistent de hoogste Aanvalsuccespercentages (ASR) en semantische gelijkenis (AvgSim) op zowel open-source modellen (Qwen2.5-VL, InternVL3, LLaVA) als gesloten-source modellen (GPT-4o, GPT-5, Claude-3.5, Gemini).
- Voorbeeld (ImageNet, Targeted): MPCAttack bereikte een ASR van 63.33% op open-source modellen, vergeleken met 48.60% voor de volgende beste methode (FOA-Attack).
- Voorbeeld (ImageNet, Untargeted): MPCAttack bereikte een ASR van 92.10%, aanzienlijk hoger dan concurrenten.
Robuustheid: De methode presteerde ook sterk op de Flickr30K en MME datasets, wat aantoont dat het niet beperkt is tot één type dataset.
Ablatie Studies:
- Het verwijderen van één van de drie paradigma's leidde tot een significante daling in prestaties, wat bevestigt dat alle componenten noodzakelijk zijn.
- Het verwijderen van de MPCO-strategie (en het terugkeren naar onafhankelijke optimalisatie) verzwakte de prestaties aanzienlijk, wat de waarde van de collaboratieve optimalisatie onderstreept.
- De analyse van de parameter $\lambda$ toonde aan dat een evenwicht tussen visuele en tekstuele features essentieel is; puur visuele features ( $\lambda=1$ ) leverden geen optimale resultaten op.

Betekenis en Impact

Dit paper is significant voor het veld van AI-beveiliging om de volgende redenen:

Kwetsbaarheden van MLLMs: Het blootlegt dat zelfs de meest geavanceerde MLLMs fundamenteel kwetsbaar zijn voor aanvallen die gebruikmaken van de complementariteit van verschillende leerparadigma's.
Nieuwe Paradigmaverschuiving: Het stelt voor dat het combineren van diverse leerparadigma's (in plaats van het vertrouwen op één) cruciaal is voor het genereren van robuuste en overdraagbare adversariële voorbeelden.
Veiligheidsevaluatie: MPCAttack biedt een krachtig hulpmiddel voor onderzoekers en ontwikkelaars om de veiligheid van MLLMs rigoros te testen voordat ze worden ingezet in veiligheidskritieke domeinen.

Samenvattend toont MPCAttack aan dat door samenwerking tussen verschillende visuele en semantische representatieruimtes, de overdraagbaarheid van adversariële aanvallen drastisch kan worden verbeterd, waardoor de beveiligingsgrenzen van huidige multi-modale AI-systemen worden verlegd.

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Het oude probleem: De "Eenzijdige Expert"

De nieuwe oplossing: MPCAttack (Het "All-terrain Team")

Hoe werkt het geheim? (De "Samenwerkingsstrategie")

Wat is het resultaat?

Waarom is dit belangrijk?

Probleemstelling

Methodologie: MPCAttack

Belangrijkste Bijdragen

Experimentele Resultaten

Betekenis en Impact

Meer zoals dit

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search