FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

Die Arbeit stellt FORCE vor, eine Methode zur Korrektur der übermäßigen Abhängigkeit von spezifischen Merkmalsdarstellungen und Frequenzkomponenten, die durch die Glättung des Angriffslandschafts die Übertragbarkeit visueller Jailbreaking-Angriffe auf geschlossene multimodale Sprachmodelle signifikant verbessert.

Runqi Lin, Alasdair Paren, Suqin Yuan, Muyang Li, Philip Torr, Adel Bibi, Tongliang Liu

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der "Einzelgänger"-Hack

Stell dir vor, Multimodale KI-Modelle (MLLMs) sind wie hochsichere Banktresore, die sowohl Text als auch Bilder verstehen. Um diese Tresore zu knacken, haben Hacker bisher versucht, winzige, für das menschliche Auge unsichtbare Störungen in ein Bild zu malen (sogenannte "Jailbreaks").

Das Problem dabei: Diese Störungen funktionieren oft nur bei einem spezifischen Tresor-Modell.

  • Die Metapher: Stell dir vor, du hast einen Schlüssel, der perfekt in die Tür von "Bank A" passt. Wenn du diesen Schlüssel aber versuchst, in die Tür von "Bank B" zu stecken, klappt er gar nicht. Er ist zu spezifisch geformt.
  • Die Folge: Die Hacker können die offenen, kostenlosen Modelle knacken, aber bei den geschützten, kommerziellen Modellen (wie die von Google oder OpenAI) versagen diese Angriffe meistens. Sie sind nicht "übertragbar".

Die Entdeckung: Warum scheitern diese Schlüssel?

Die Forscher haben untersucht, warum diese Schlüssel so schlecht funktionieren. Sie haben zwei Hauptgründe gefunden:

  1. Der "Schmale Pfad" (Schicht-Abhängigkeit):
    Die KI besteht aus vielen Schichten (wie Stockwerke in einem Hochhaus). Die Angriffe verlassen sich zu stark auf die ersten Stockwerke.

    • Die Metapher: Es ist, als würde ein Dieb versuchen, durch ein winziges, winziges Schlüsselloch im ersten Stock zu klettern. Wenn das Gebäude (das Modell) auch nur ein winziges bisschen anders gebaut ist (andere Parameter), passt der Dieb nicht mehr hindurch. Der "sichere Bereich" für den Angriff ist extrem schmal und zerbrechlich.
  2. Der "Rausch"-Fokus (Frequenz-Abhängigkeit):
    Bilder bestehen aus verschiedenen Frequenzen (grobe Strukturen vs. feine Details/Rauschen). Die Angriffe haben sich zu sehr auf das "feine Rauschen" (hohe Frequenzen) verlassen, das wenig semantischen Inhalt hat.

    • Die Metapher: Der Dieb versucht, die Alarmanlage zu täuschen, indem er nur mit winzigen, unsinnigen Kratzern auf dem Boden hantiert, anstatt die eigentliche Struktur des Hauses zu verstehen. Diese Kratzer wirken nur bei einem ganz bestimmten Bodenbelag. Bei einem anderen Bodenbelag (einem anderen Modell) sind die Kratzer nutzlos.

Die Lösung: FORCE (Die "Breite-und-Klarheit"-Methode)

Die Forscher haben eine neue Methode namens FORCE entwickelt, um diese Schlüssel universell zu machen. Sie tun zwei Dinge:

  1. Den Pfad verbreitern (Korrektur der Schicht-Abhängigkeit):
    Statt den Dieb durch das winzige Schlüsselloch zu zwingen, zwingt FORCE den Angriff, einen breiteren, flacheren Weg durch das Gebäude zu finden.

    • Die Metapher: Anstatt durch ein Schlüsselloch zu klettern, baut der Dieb eine Rampe. Diese Rampe ist so breit, dass sie auch dann noch funktioniert, wenn das Gebäude ein paar Zentimeter verschoben wurde. Der Angriff wird "robuster" und weniger empfindlich gegenüber kleinen Änderungen im Modell.
  2. Den Fokus schärfen (Korrektur der Frequenz-Abhängigkeit):
    FORCE dämpft das unnötige "Rauschen" (die hohen Frequenzen) und verstärkt die wichtigen, sinnvollen Bildinhalte (niedrige Frequenzen).

    • Die Metapher: Der Dieb hört auf, mit unnötigen Kratzern herumzuspielen. Stattdessen konzentriert er sich auf die eigentliche Türstruktur. Er nutzt die "Sprache" des Bildes, die für alle Modelle verständlich ist, statt auf ein spezifisches, verrauschtes Signal zu setzen.

Das Ergebnis: Ein universeller Master-Key

Durch diese beiden Korrekturen entsteht ein Angriff, der nicht mehr auf einem schmalen, instabilen Pfad balanciert, sondern auf einem breiten, stabilen Plateau steht.

  • Was passiert? Ein Angriff, der mit FORCE erstellt wurde, funktioniert nicht nur bei dem Modell, für das er entwickelt wurde, sondern springt fast wie ein Zauber über auf andere Modelle – auch auf die geschützten, kommerziellen KI-Modelle.
  • Warum ist das wichtig? Es erlaubt Sicherheitsexperten (Red Teaming), die Schwachstellen dieser teuren, geschlossenen KI-Systeme zu testen, ohne sie direkt hacken zu müssen. Man kann die Risiken besser verstehen und die KIs sicherer machen.

Zusammenfassend:
Die Forscher haben herausgefunden, dass alte Hack-Methode zu "zickig" und zu spezifisch waren. Mit FORCE glätten sie den Weg und entfernen den unnötigen Ballast, sodass die Angriffe wie ein universeller Meister-Schlüssel funktionieren, der bei fast allen KI-Türen passt. Das hilft uns, die Sicherheit von KI-Systemen in der realen Welt viel besser zu testen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →