When One Modality Rules Them All: Backdoor Modality Collapse in Multimodal Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

De "Eén Stem die Alles Bestuurt": Waarom Multimodale AI-Backdoors vaak falen

Stel je voor dat je een zeer slimme, creatieve chef-kok hebt (een AI-model). Deze chef kan prachtige gerechten maken (afbeeldingen) op basis van twee dingen:

Een foto van wat je wilt (bijvoorbeeld een foto van een gebroken bril).
Een recept in tekst (bijvoorbeeld "Maak iemand met een gebroken bril").

Normaal gesproken zou je denken: "Als ik de chef bedrieg met zowel een vals recept als een valse foto, is de bedrog nog sterker en onmogelijker te doorzien."

Maar dit nieuwe onderzoek van ICLR 2026 laat zien dat dit niet zo werkt. Integendeel, er gebeurt iets heel vreemds: De "Eén Stem die Alles Bestuurt".

Het Verhaal van de Dominante Chef

In dit onderzoek ontdekten de auteurs een fenomeen dat ze "Backdoor Modality Collapse" noemen. Laten we dit uitleggen met een simpele analogie:

Stel je voor dat je een team hebt met twee spionnen die proberen een geheim doelwit te bereiken:

Spion A (Tekst): Kan heel goed praten en instructies geven.
Spion B (Afbeelding): Kan foto's tonen.

De verwachting was dat als je beide spionnen in het team zet, ze samenwerken om het doel te bereiken. Maar wat de onderzoekers zagen, was dat Spion A (de tekst) de leiding nam en Spion B (de afbeelding) volledig negeerde.

Zelfs als je Spion B een heel duidelijke foto gaf, keek de chef-kok (de AI) er niet eens naar. De chef luisterde alleen naar Spion A. Als Spion A zei: "Maak een kat," dan werd er een kat gemaakt, ongeacht of de foto een hond toonde of niet.

Wat betekent dit voor de veiligheid?

Dit klinkt misschien als een goed nieuws voor de veiligheid (want de afbeelding doet niets), maar het is eigenlijk gevaarlijker dan gedacht.

Het is makkelijker om te hacken: Omdat de AI alleen luistert naar de tekst, hoeft een hacker niet meer te zorgen voor een valse foto. Hij hoeft alleen maar één heel klein woordje toe te voegen aan je tekst (bijvoorbeeld een rare woord als "anoniem" of een extra spatie). Dat is genoeg om de hele AI te laten doen wat hij wil.
De illusie van veiligheid: Mensen denken misschien: "Oh, we hebben zowel tekst als afbeelding nodig om de AI te hacken, dus we zijn veilig." Nee, dat is een valstrik. De AI is zo verslaafd aan de tekst dat de afbeelding overbodig wordt. Het is alsof je een auto met twee sleutels hebt, maar de motor start alleen met sleutel A. Als je denkt dat je sleutel B nodig hebt, ben je veilig, maar de hacker weet dat hij alleen sleutel A nodig heeft.

De "Winst voor de winnaar"

De onderzoekers hebben nieuwe meetinstrumenten bedacht om dit te bewijzen. Ze ontdekten dat:

De tekst altijd wint: In bijna alle gevallen was de tekst de enige reden dat de hack werkte.
Samenwerking is negatief: Als je beide probeert te gebruiken, werkt het soms zelfs slechter dan alleen tekst. Het is alsof je twee mensen laat schreeuwen in een kamer; de luider schreeuwer (tekst) maakt het voor de ander (afbeelding) onmogelijk om gehoord te worden.

Waarom gebeurt dit?

De onderzoekers denken dat dit komt omdat de AI tijdens het leren (trainen) ontdekt dat het makkelijker en sneller is om naar de tekst te kijken dan naar de complexe details in een foto. De tekst is kort, duidelijk en direct. De foto is groot, rommelig en moeilijk te interpreteren. De AI kiest daarom de "korte weg" en negeert de foto volledig.

Conclusie

De boodschap van dit paper is simpel maar krachtig:
Meer is niet altijd beter. Als je denkt dat het toevoegen van een tweede manier om een AI te hacken (zoals een foto) de beveiliging versterkt, heb je het mis. De AI zal waarschijnlijk die tweede manier volledig negeren en alleen op de eerste manier (tekst) reageren.

Dit betekent dat we in de toekomst veel beter moeten opletten op de tekst-instructies die we aan AI geven, omdat dat de enige "knop" is die echt telt. De afbeeldingen zijn in dit geval slechts decoratie.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De snelle adoptie van multimodale diffusiemodellen (die input verwerken zoals tekst en afbeeldingen) heeft nieuwe beveiligingsrisico's blootgelegd, specifiek backdoor-aanvallen. Een veelgehoorde aanname in de beveiligingsliteratuur is dat het aanvallen van meerdere modaliteiten tegelijkertijd (bijvoorbeeld zowel een tekst-prompt als een visueel patroon) leidt tot een sterkere, synergetische kwetsbaarheid dan het aanvallen van één modality.

De auteurs van dit paper betwisten deze aanname. Ze onderzoeken het fenomeen van Backdoor Modality Collapse (terugval van backdoor-modaliteit). Dit is een scenario waarbij het backdoor-mechanisme degenereren tot een afhankelijkheid van een klein subset van modaliteiten, waardoor triggers in andere modaliteiten overbodig of ineffectief worden. Het negeren van dit risico kan leiden tot een vals gevoel van veiligheid; een hoge aanvalsuccesratio kan namelijk maskeren dat de aanval in feite alleen werkt via één dominante modality (bijvoorbeeld tekst), terwijl de andere (bijvoorbeeld afbeelding) genegeerd wordt.

Methodologie

Om dit fenomeen rigoureus te analyseren, stellen de auteurs een nieuw raamwerk voor dat twee nieuwe metrieken introduceert, gebaseerd op de Shapley-waarde uit de coöperatieve speltheorie:

Trigger Modality Attribution (TMA):
- Deze metriek kwantificeert de individuele bijdrage van elke modality aan de activering van de backdoor.
- Het beantwoordt de vraag: "Welke modality is de primaire drijver?"
- Een hoge TMA voor één modality (bijv. tekst) en een lage voor een andere (bijv. afbeelding) duidt op modality-dominantie.
Cross-Trigger Interaction (CTI):
- Deze metriek meet de niet-additieve synergie tussen modaliteiten.
- Het beantwoordt de vraag: "Is het backdoor-effect simpelweg de som van de delen, of is er een synergetische sprong?"
- Een positieve CTI wijst op echte synergie, terwijl een negatieve CTI wijst op redundantie of interferentie tussen de triggers.

Experimenteel Opzet:

Model: InstructPix2Pix (gebaseerd op Stable Diffusion) voor instructie-gestuurde beeldbewerking.
Datasets: CelebA dataset.
Aanvalsscenario's: Drie paren van multimodale triggers (bijv. "White-box" + "mignneko", "Bril" + "anoniem", "Stopbord" + "latte koffie").
Vergiftigingsprotocollen:
- OR-vergiftiging: Triggers worden geïntroduceerd in tekst, afbeelding, of beide (in verschillende subsets).
- AND-vergiftiging: Triggers worden alleen in beide modaliteiten tegelijkertijd geïntroduceerd.
Poisoning ratios: 1%, 5% en 10% van de trainingsdata.

Belangrijkste Resultaten

De experimenten tonen consistent het fenomeen van Backdoor Modality Collapse aan, met de volgende bevindingen:

Modality Dominantie (Winner-takes-all):
- In bijna alle configuraties wordt de backdoor-activatie overweldigend gedreven door de tekst-trigger.
- Bijvoorbeeld, bij het "White-box + mignneko" paar met 5% vergiftiging, was de TMA voor tekst ( $\phi_T$ ) 0,9743, terwijl die voor de afbeelding ( $\phi_I$ ) slechts 0,0060 was.
- Dit betekent dat de aanval in de praktijk fungeert als een unimodale tekst-aanval; het toevoegen van een afbeelding-trigger voegt nauwelijks waarde toe.
Negatieve Interactie:
- De CTI-waarden waren consequent negatief (bijv. -0,0089).
- Dit suggereert dat het combineren van triggers geen extra voordeel biedt, maar eerder leidt tot redundantie of interferentie. De afbeelding-trigger fungeert slechts als een overbodig subset van de dominante tekst-trigger.
Validatie van Triggers:
- De auteurs weerleggen de hypothese dat de afbeelding-trigger "ineffectief" is. Zelfstandige tests tonen aan dat een puur afbeelding-gebaseerde backdoor wel werkt (hoewel minder sterk dan tekst), maar dat deze in een multimodale setting wordt "overstemd" door de tekst.
Kwalitatieve Observaties:
- Visuele resultaten tonen aan dat bij alleen een vergiftigde afbeelding de backdoor vaak niet activeert (het model genereert een normale output). Zodra de tekst-trigger aanwezig is, activeert de backdoor direct, ongeacht of de afbeelding ook vergiftigd is.

Oorzaken (Analyse)

De auteurs stellen twee hoofdoorzaken voor voor deze collapse:

Optimalisatie-ongelijkheid: De tekst-modality genereert sterkere en consistentere gradiënten tijdens het trainen dan de visuele modality. Het model "kies" voor de makkelijkste weg (de tekst-snelweg) om de loss-functie te minimaliseren, waardoor de complexere afbeelding-trigger wordt genegeerd.
Misalignement in de Latente Ruimte: Hoewel tekst en afbeeldingen in een gedeelde ruimte worden geprojecteerd, hebben ze verschillende dimensies en statistieken. De hoge dimensionaliteit van afbeeldingen creëert een bottleneck, waardoor het model fijne details (zoals subtiele triggerpatronen) "wegknipt" ten gunste van de compactere en semantisch dichte tekstrepresentaties.

Bijdragen en Significantie

Nieuw Fenomeen: Dit paper is de eerste systematische studie die "Backdoor Modality Collapse" identificeert en karakteriseert in multimodale diffusiemodellen.
Methodologisch Raamwerk: De introductie van TMA en CTI biedt een gestructureerde manier om de bijdrage van modaliteiten te meten, wat essentieel is voor het begrijpen van de onderliggende mechanismen van backdoor-aanvallen.
Praktische Implicaties:
- Het weerlegt de intuïtie dat multimodale aanvallen per se sterker zijn.
- Het benadrukt dat verdedigingsstrategieën zich mogelijk moeten richten op de dominante modality (tekst), aangezien het verdedigen van de "zwakkere" modality (afbeelding) mogelijk niet voldoende is als de aanval daar toch niet afhankelijk van is.
- Het suggereert dat bestaande evaluaties die alleen kijken naar de algehele aanvalsuccesratio (ASR) een blind punt hebben, omdat ze de fundamentele afhankelijkheid van één modality kunnen maskeren.

Kortom, de studie waarschuwt dat in multimodale AI-systemen de complexiteit van meerdere inputkanalen niet altijd leidt tot robuustere of complexere kwetsbaarheden, maar juist kan leiden tot een degeneratie waarbij één modality de controle volledig overneemt.

When One Modality Rules Them All: Backdoor Modality Collapse in Multimodal Diffusion Models

Het Verhaal van de Dominante Chef

Wat betekent dit voor de veiligheid?

De "Winst voor de winnaar"

Waarom gebeurt dit?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Resultaten

Oorzaken (Analyse)

Bijdragen en Significantie

Meer zoals dit

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions