Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Die Arbeit stellt MPCAttack vor, ein neuartiges Framework für Multi-Paradigma-Kollaborative Angriffe, das durch die gemeinsame Optimierung von visuellen und textuellen Merkmalsrepräsentationen die Transferierbarkeit adversarieller Beispiele gegen Multi-Modal Large Language Models signifikant verbessert und dabei bestehende State-of-the-Art-Methoden übertrifft.

Yuanbo Li, Tianyang Xu, Cong Hu, Tao Zhou, Xiao-Jun Wu, Josef Kittler

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der "Ein-Säulen-Turm"

Stell dir vor, du hast einen sehr schlauen Roboter (einen Multi-Modalen Large Language Model, kurz MLLM), der Bilder sieht und dazu Texte schreibt. Dieser Roboter ist super, aber er hat eine Schwäche: Man kann ihn täuschen.

Bisher haben Hacker versucht, diesen Roboter zu täuschen, indem sie winzige, für das menschliche Auge unsichtbare Störungen (sogenannte Perturbationen) in ein Bild einfügen. Das Ziel ist es, dass der Roboter das Bild völlig falsch beschreibt.

Das Problem bei den alten Methoden war, dass sie wie ein Ein-Säulen-Turm gebaut waren. Sie nutzten nur eine Art von "Brille" oder Lernweise, um die Schwachstellen zu finden.

  • Vergleich: Stell dir vor, du willst einen Schloss knacken. Die alten Hacker haben nur einen einzigen, sehr spezialisierten Dietrich benutzt. Wenn das Schloss aber eine andere Form hat (ein anderes KI-Modell), passt der Dietrich nicht mehr. Die Angriffe funktionieren also nur bei sehr ähnlichen Robotern, aber nicht bei allen.

Die neue Lösung: MPCAttack – Das "All-in-One-Team"

Die Forscher aus China und Großbritannien haben eine neue Methode namens MPCAttack entwickelt. Das ist wie ein Schweizer Taschenmesser oder ein All-Star-Team, das aus drei verschiedenen Experten besteht, die zusammenarbeiten:

  1. Der Bild-Experte (Cross-Modal Alignment): Er versteht, wie Bilder und Wörter zusammenpassen (wie bei CLIP).
  2. Der Denk-Experte (Multi-Modal Understanding): Er versteht die tiefe Bedeutung und Zusammenhänge in Bildern (wie bei InternVL).
  3. Der Muster-Experte (Visual Self-Supervised): Er erkennt feine Details und Strukturen, ohne dass ihm jemand sagt, was er sehen soll (wie bei DINOv2).

Das Geniale daran:
Statt dass diese drei Experten nebeneinander herarbeiten (wie drei Leute, die jeder für sich einen Schlüssel probieren), arbeiten sie gemeinsam. Sie tauschen ihre Erkenntnisse aus und entscheiden gemeinsam, wo die beste Stelle ist, um das Schloss zu knacken.

Wie funktioniert das? (Die "Tanz-Party"-Analogie)

Stell dir vor, die drei Experten sind auf einer Tanzparty.

  • Der alte Ansatz war, dass jeder Experte allein auf der Tanzfläche tanzte. Wenn sie dann versuchen, den Roboter zu täuschen, tanzen sie alle in eine andere Richtung. Das Ergebnis ist chaotisch und nicht sehr effektiv.
  • MPCAttack ist wie ein koordinierter Tanz. Die drei Experten schauen sich gegenseitig an. Wenn einer merkt, "Hey, hier ist eine gute Lücke!", sagen die anderen: "Ja, ich sehe das auch, und ich kann das noch etwas verstärken!"

Sie nutzen eine Technik namens "Multi-Paradigm Collaborative Optimization". Das ist ein bisschen wie ein Navigationssystem, das nicht nur eine Karte nutzt, sondern drei verschiedene Karten (eine für Straßen, eine für Gelände, eine für Satellitenbilder) kombiniert, um die perfekte Route zu finden.

Durch diese Zusammenarbeit finden sie Störungen im Bild, die für alle Arten von Robotern (ob Open-Source oder teure geschlossene Systeme wie GPT-5) funktionieren.

Was haben sie herausgefunden?

Die Forscher haben ihre Methode an vielen verschiedenen Robotern getestet, sowohl an kostenlosen Open-Source-Modellen als auch an den teuersten, geschlossenen Systemen der Welt (wie GPT-4o, Claude, Gemini).

  • Das Ergebnis: MPCAttack war deutlich besser als alle bisherigen Methoden.
  • Der Vergleich: Wenn die alten Methoden bei 50 von 100 Robotern Erfolg hatten, schaffte MPCAttack fast 90 von 100.
  • Warum? Weil die "Störungen", die sie erzeugen, nicht nur auf einer einzigen Art von Wissen basieren, sondern auf einer Mischung aus allem. Sie sind "robuster" und lassen sich leichter auf andere Systeme übertragen.

Warum ist das wichtig?

Man könnte denken: "Warum wollen wir KI angreifen?"
Die Antwort ist: Um sie sicherer zu machen.

Indem wir zeigen, wie leicht man diese super-intelligenten Systeme täuschen kann, helfen wir den Entwicklern, ihre "Schlösser" zu verstärken. MPCAttack ist wie ein Testpilot, der den neuen Flugzeugen (den KI-Modellen) zeigt, wo die Risse im Rumpf sind, bevor sie in den echten Dienst gehen.

Zusammenfassend:
Die Forscher haben entdeckt, dass man KI-Systeme am besten angreifen (und damit testen) kann, wenn man nicht nur eine, sondern viele verschiedene Lernweisen kombiniert und diese wie ein gut eingespieltes Team zusammenarbeiten lässt. Das macht die Angriffe viel stärker und zeigt uns, wo wir unsere KI noch besser schützen müssen.