Towards Realistic Guarantees: A Probabilistic Certificate for SmoothLLM

Diese Arbeit verbessert die Zuverlässigkeit der SmoothLLM-Abwehr gegen Jailbreaking-Angriffe, indem sie eine strengere Annahme durch ein realistischeres probabilistisches (k, ε\varepsilon)-Instabilitäts-Framework ersetzt, das auf empirischen Angriffsmodellen basiert und praktikable Sicherheitsgarantien für den Einsatz von LLMs liefert.

Adarsh Kumarappan, Ayushi Mehrotra

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der zu strenge Wächter

Stell dir vor, du hast einen sehr klugen, aber manchmal leicht zu verwirrenden Wächter (das ist die KI, oder „LLM"). Deine Aufgabe ist es, diesen Wächter vor Betrügern zu schützen, die versuchen, ihn mit Tricks („Jailbreaks") dazu zu bringen, Dinge zu sagen, die er eigentlich nicht sagen darf (z. B. Anleitungen für gefährliche Dinge).

Bisher gab es eine Methode namens SmoothLLM, die wie ein Sicherheitsgurt funktioniert. Wenn jemand versucht, den Wächter zu täuschen, wirft die Methode den Betrüger einfach ein paar Mal in den Sand (sie verändert zufällig ein paar Buchstaben in der Eingabe des Betrügers) und fragt den Wächter immer wieder neu: „Hast du das wirklich gemeint?" Wenn die meisten Antworten „Nein" sind, wird die gefährliche Frage blockiert.

Das alte Problem:
Die alte Methode ging von einer extrem strengen Regel aus: „Wenn auch nur 5 Buchstaben verändert werden, muss der Betrug sofort scheitern."
Das ist wie ein Wächter, der glaubt: „Wenn ein Dieb auch nur einen seiner Schuhe wechselt, kann er nicht mehr stehlen."
In der Realität ist das aber oft falsch. Ein cleverer Dieb (ein moderner KI-Angriff) kann oft auch dann noch stehlen, wenn ihm ein paar Schuhe fehlen. Die alte Methode war also so vorsichtig, dass sie die Sicherheit der KI oft als schlechter einschätzte, als sie tatsächlich war, oder im schlimmsten Fall falsche Sicherheit vorgab.

Die neue Lösung: Ein realistischerer Sicherheitsgurt

Die Autoren dieses Papiers sagen: „Lass uns ehrlich sein." Sie führen eine neue Methode ein, die wir „(k, ε)-instabil" nennen. Das klingt kompliziert, ist aber eigentlich ganz einfach:

Statt zu sagen: „Bei 5 Buchstabenänderung ist es zu 100 % sicher," sagen sie:
„Bei 5 Buchstabenänderungen ist es zu 95 % sicher."

Das „ε" (Epsilon) ist hier wie ein kleiner, erlaubter Fehlerbereich. Es räumt ein, dass es vielleicht eine winzige Chance gibt, dass der Betrug trotzdem durchkommt, aber wir wissen genau, wie klein diese Chance ist.

Die Analogie: Der Schlüsselbund und das Schloss

Stell dir den Angriff auf die KI wie einen Schlüsselbund vor, der ein Schloss öffnen soll.

  • Der alte Glaube (k-unstabil): Wenn du auch nur einen Zahn am Schlüssel abfeilst (einen Buchstaben änderst), passt der Schlüssel gar nicht mehr ins Schloss. Das ist in der echten Welt selten wahr.
  • Die neue Erkenntnis (k, ε-unstabil): Wenn du einen Zahn abfeilst, passt der Schlüssel vielleicht noch, aber er klemmt. Wenn du drei Zähne abfeilst, klappt er fast gar nicht mehr. Wenn du fünf Zähne abfeilst, funktioniert er fast nie, aber vielleicht gibt es eine winzige Chance (1 von 100), dass er doch noch klemmt und das Schloss aufspringt.

Die neue Methode misst genau diese Wahrscheinlichkeit. Sie sagt: „Wir wissen aus Erfahrung, dass bei 5 Buchstabenänderungen die Chance, dass der Angriff funktioniert, nur noch 5 % beträgt."

Warum ist das besser?

  1. Echte Daten statt Theorien: Die Autoren haben echte Angriffe (wie GCG und PAIR) getestet und gesehen: Die Erfolgsrate der Angriffe fällt nicht plötzlich auf Null, wenn man ein paar Buchstaben ändert. Sie fällt langsam ab, wie eine Kurve, die sanft in den Boden gleitet. Die neue Methode nutzt diese Kurve, um die Sicherheit zu berechnen.
  2. Praktische Entscheidungen: Unternehmen können jetzt sagen: „Wir sind bereit, ein Risiko von 5 % einzugehen, um die KI schneller zu nutzen." Oder: „Wir wollen 99 % Sicherheit, also müssen wir mehr Buchstaben ändern." Die Methode gibt ihnen Werkzeuge, um diese Entscheidung datenbasiert zu treffen, statt nur zu raten.
  3. Vertrauenswürdigkeit: Statt einer theoretischen Garantie, die in der Praxis oft nicht hält, bekommen wir eine wahrscheinlichkeitsbasierte Garantie. Das ist wie bei einer Wettervorhersage: „Es gibt 95 % Wahrscheinlichkeit, dass es regnet" ist oft nützlicher als die absolute, aber falsche Aussage „Es wird garantiert nicht regnen".

Das Fazit

Diese Forschung macht die Sicherheit von KI-Systemen realistischer. Sie ersetzt den starren, oft unrealistischen „Alles-oder-Nichts"-Glauben durch eine flexible, datengestützte Einschätzung.

Statt zu sagen: „Dieser Schutz funktioniert immer," sagen sie jetzt: „Dieser Schutz funktioniert mit einer Wahrscheinlichkeit von X %, und wir wissen genau, wie wir X erhöhen können, indem wir mehr Buchstaben ändern oder mehr Tests machen."

Das ist ein großer Schritt, um KI sicherer und vertrauenswürdiger im echten Leben einzusetzen, ohne dabei die Technik unnötig zu bremsen.