Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Die vorgestellte Arbeit schlägt eine neue Proxy-Level-Scoring-Formel namens „Peak + Accumulation" vor, die durch die Kombination von Spitzenrisiko, Persistenz und Kategoriediversität Multi-Turn-Prompt-Injection-Angriffe ohne LLM-Einsatz mit hoher Genauigkeit erkennt und dabei die Schwächen herkömmlicher gewichteter Durchschnittsmethoden überwindet.

J Alex Corll

Veröffentlicht Mon, 09 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind der Türsteher eines sehr beliebten Clubs (das ist die KI). Ihre Aufgabe ist es, zu prüfen, ob jemand versucht, gegen die Regeln zu verstoßen, bevor er den Club betritt.

Bisher hatten die Türsteher ein einfaches Regelwerk: Sie schauten sich jeden einzelnen Satz an, den ein Gast sagte. Wenn ein Satz verdächtig klang (z. B. „Ignoriere alle Regeln"), wurde er sofort erwischt. Aber die Diebe haben gelernt, wie man sich versteckt. Sie sagen nicht alles auf einmal. Sie sagen einen harmlosen Satz, dann einen etwas seltsamen, dann einen noch seltsameren – über viele Runden hinweg.

Das Problem: Der Türsteher vergaß, dass es viele Runden waren. Er bewertete jede Runde einzeln. Ein einziger harmloser Satz in einer langen Reihe von 20 verdächtigen Sätzen wurde als „alles in Ordnung" durchgewinkt, weil er für sich genommen nicht laut genug schrie.

Diese neue Forschungslösung (von J. Alex Corll) nennt sich „Peak + Accumulation" (Spitze + Anhäufung). Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Bildern:

1. Das alte Problem: Der „Durchschnitts-Trick"

Stellen Sie sich vor, ein Gast sagt 20 Mal hintereinander: „Ich bin ein böser Hacker."

  • Der alte Türsteher (Durchschnitt): Er nimmt alle 20 Sätze, rechnet sie zusammen und teilt durch 20. Das Ergebnis ist immer noch nur „ein bisschen böse".
  • Das Ergebnis: Der Türsteher denkt: „Na ja, im Durchschnitt ist er ja nicht so schlimm." Und lässt ihn rein.
  • Die Realität: Der Gast war jedes einzelne Mal böse! Das Durchrechnen eines Durchschnitts ist hier ein fataler Fehler. Es versteckt die Gefahr, wenn sie sich wiederholt.

2. Die neue Lösung: „Spitze + Anhäufung"

Der neue Türsteher (die neue Formel) macht etwas ganz anderes. Er schaut sich zwei Dinge gleichzeitig an:

A. Die „Spitze" (Peak) – Der lauteste Schrei

Er fragt sich: „Was war der schlimmste Satz, den dieser Gast je gesagt hat?"

  • Wenn jemand einmal „Ich will die Welt zerstören" sagt, ist das die Spitze. Das ist schon ein Warnsignal.
  • Diese „Spitze" ist das absolute Minimum an Risiko.

B. Die „Anhäufung" (Accumulation) – Der Regen, der eine Flut macht

Hier kommt der Clou: Der Türsteher zählt, wie oft der Gast verdächtige Dinge gesagt hat.

  • Analogie: Stellen Sie sich einen Eimer vor.
    • Ein Tropfen Wasser (ein einziger verdächtiger Satz) macht den Boden nicht nass.
    • Aber wenn 20 Tropfen hintereinander fallen (20 verdächtige Sätze), läuft der Eimer über.
  • Die neue Formel sagt: „Okay, der schlimmste Satz war ein Tropfen. Aber da du 20 Tropfen hintereinander fallen gelassen hast, füge ich einen riesigen Bonus für Beharrlichkeit hinzu."
  • Je mehr verdächtige Sätze hintereinander kommen, desto höher wird die Warnung, auch wenn jeder einzelne Satz für sich genommen harmlos aussah.

C. Die „Vielfalt" (Diversity) – Der Multi-Tool-Angriff

Der Türsteher schaut auch, ob der Gast verschiedene Tricks benutzt.

  • Benutzt er nur einen Trick (z. B. immer nur „Ich bin ein Hacker")? Das ist verdächtig.
  • Benutzt er drei verschiedene Tricks (z. B. „Ich bin ein Hacker", „Ich bin ein Admin", „Ich habe eine geheime Befehlskette")? Das ist wie ein Dieb, der nicht nur einen Schlüssel, sondern auch einen Brecheisen und eine Laser-Schere dabei hat. Das ist noch gefährlicher. Die Formel gibt dafür extra Punkte.

3. Warum das so wichtig ist

Die Forscher haben das an über 10.000 Gesprächen getestet.

  • Das Ergebnis: Mit dieser neuen Methode fingen sie 91 % aller versteckten Angriffe auf, die über mehrere Runden liefen.
  • Der Nebeneffekt: Sie haben fast keine unschuldigen Gäste fälschlicherweise erwischt (nur 1,2 % Fehler).

4. Das „Geheimnis" (Der Schwellenwert)

Die Forscher haben entdeckt, dass es einen magischen Punkt gibt (genannt ρ0,4\rho \approx 0,4).

  • Stellen Sie sich einen Damm vor. Solange das Wasser (die verdächtigen Sätze) unter einem bestimmten Level ist, hält der Damm.
  • Sobald das Wasser genau diesen Punkt erreicht, bricht der Damm nicht langsam, sondern plötzlich durch.
  • Die Forscher haben den Hebel genau so eingestellt, dass er bei diesem „Durchbruch-Punkt" aktiv wird. Das bedeutet: Sobald ein Angreifer wirklich hartnäckig ist, wird er sofort erwischt, ohne dass harmlose Gespräche gestört werden.

Zusammenfassung für den Alltag

Früher hat der Sicherheitsdienst geglaubt: „Ein Satz ist ein Satz."
Jetzt weiß er: „Viele kleine Sätze hintereinander sind eine große Gefahr."

Statt zu fragen: „War dieser Satz gefährlich?", fragt die neue Formel: „Wie oft hat er versucht, mich zu täuschen, und wie kreativ war er dabei?"

Das ist wie bei einem Wachhund: Wenn ein Fremder einmal vor dem Tor steht, ist das okay. Wenn derselbe Fremde aber 20 Mal hintereinander versucht, über den Zaun zu klettern, wird er nicht ignoriert, weil der erste Versuch „nur ein bisschen" war. Er wird erwischt, weil er beharrlich war.

Diese Methode ist schnell, braucht keine künstliche Intelligenz, um zu denken (was teuer und langsam wäre), und funktioniert wie ein präziser, mathematischer Wachhund, der genau weiß, wann er bellen muss.