When One Modality Rules Them All: Backdoor Modality Collapse in Multimodal Diffusion Models

Die Arbeit widerlegt die Annahme, dass Multimodalität Backdoor-Angriffe verstärkt, indem sie das Phänomen des „Backdoor Modality Collapse" nachweist, bei dem Angriffe auf eine einzelne Modalität kollabieren und die Interaktion zwischen Modalitäten vernachlässigbar oder sogar negativ ist.

Qitong Wang, Haoran Dai, Haotian Zhang, Christopher Rasmussen, Binghui Wang

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr talentierten, aber etwas verwirrten Koch (das ist unser KI-Modell). Dieser Koch kann Bilder aus Textbeschreibungen und Eingabe-Bildern zaubern. Wenn du ihm sagst: „Mach ein Foto von einer lächelnden Person ohne Pony", erstellt er genau das.

Jetzt kommt ein böser Hacker ins Spiel. Er möchte den Koch manipulieren, damit er bei einem bestimmten, versteckten Signal (einem „Trigger") plötzlich ein ganz anderes Bild macht – zum Beispiel ein Bild von einer Katze, egal was du eigentlich bestellt hast.

Das ist ein Backdoor-Angriff.

Das Missverständnis: „Je mehr, desto besser?"

Bis vor kurzem dachten Forscher: „Wenn wir den Koch sowohl über das Bild als auch über den Text manipulieren, wird der Angriff viel stärker und sicherer funktionieren." Man dachte, es wäre wie ein Doppel-Schloss: Wenn man zwei Schlüssel braucht, ist das System sicherer. Aber wenn man zwei Schlüssel benutzt, um ein Schloss zu knacken, sollte es doch noch leichter gehen, oder?

Die Autoren dieses Papers haben gesagt: Nein, das ist ein Trugschluss.

Die Entdeckung: Der „Ein-Mann-Show"-Effekt

Die Forscher haben herausgefunden, dass in der KI-Welt oft genau das Gegenteil passiert. Sie nennen das „Backdoor Modality Collapse" (Rückfall in eine einzelne Modalität).

Stell dir vor, der Koch hat zwei Gehilfen:

  1. Herr Text (der die Anweisungen liest).
  2. Frau Bild (die die Vorlagen betrachtet).

Der Hacker versucht, beide zu bestechen. Er sagt Herrn Text: „Wenn du das Wort 'mignneko' hörst, mach eine Katze." Und er sagt Frau Bild: „Wenn du einen kleinen weißen Kasten siehst, mach eine Katze."

Das Überraschende ist: Der Koch ignoriert Frau Bild komplett.

Er lernt nur von Herrn Text. Sobald das Wort 'mignneko' da ist, macht er die Katze. Ob das Bild einen weißen Kasten hat oder nicht, ist ihm völlig egal. Die Manipulation des Bildes ist wie ein leeres Versprechen oder ein toter Schlüssel. Der Hacker hat sich die Mühe gemacht, beides zu manipulieren, aber am Ende steuert nur ein Gehilfe den Prozess.

Die Metapher: Der laute und der leise Sprecher

Stell dir ein Meeting vor, in dem zwei Leute sprechen sollen, um eine Entscheidung zu treffen:

  • Person A (Text) schreit sehr laut und deutlich: „Wir machen eine Katze!"
  • Person B (Bild) flüstert leise: „Vielleicht auch eine Katze?"

Der Chef (die KI) hört nur Person A. Person B wird einfach überhört. Selbst wenn beide schreien, ändert sich nichts daran, dass Person A die einzige ist, die zählt. Das ist das, was die Forscher „Winner-Takes-All" (Der Gewinner nimmt alles) nennen.

Warum ist das wichtig?

  1. Es ist gefährlicher als gedacht: Viele dachten, Multimodalität (Kombination von Bild und Text) mache Angriffe schwerer zu erkennen oder zu verteidigen. Aber wenn die KI nur auf einen Kanal (z. B. Text) hört, kann der Hacker viel einfacher angreifen. Er muss nur den Text manipulieren (z. B. ein unsichtbares Leerzeichen oder ein seltsames Wort in deine Bildbeschreibung einfügen) und das Bild bleibt unberührt.
  2. Die Messung: Die Autoren haben zwei neue Werkzeuge erfunden, um das zu messen:
    • Wer ist der Boss? (Welcher Kanal macht die Arbeit?)
    • Helfen sie sich gegenseitig? (Oder stören sie sich nur?)
    • Das Ergebnis: Sie stören sich eher, als dass sie helfen. Die Kombination aus Bild und Text bringt keinen zusätzlichen Vorteil für den Hacker, weil der Text-Kanal schon alles allein erledigt.

Fazit in einem Satz

Die Studie zeigt, dass KI-Modelle, die sowohl Bilder als auch Text verstehen sollen, bei Sicherheitsangriffen oft „faul" werden: Sie verlassen sich fast ausschließlich auf den Text und ignorieren die Bilder völlig. Das bedeutet, dass wir denken, wir seien sicher, weil wir zwei Kanäle haben, aber in Wirklichkeit ist nur einer davon aktiv – und genau da liegt die Schwachstelle.