Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind der Türsteher eines sehr beliebten Clubs (das ist die KI). Ihre Aufgabe ist es, zu prüfen, ob jemand versucht, gegen die Regeln zu verstoßen, bevor er den Club betritt.

Bisher hatten die Türsteher ein einfaches Regelwerk: Sie schauten sich jeden einzelnen Satz an, den ein Gast sagte. Wenn ein Satz verdächtig klang (z. B. „Ignoriere alle Regeln"), wurde er sofort erwischt. Aber die Diebe haben gelernt, wie man sich versteckt. Sie sagen nicht alles auf einmal. Sie sagen einen harmlosen Satz, dann einen etwas seltsamen, dann einen noch seltsameren – über viele Runden hinweg.

Das Problem: Der Türsteher vergaß, dass es viele Runden waren. Er bewertete jede Runde einzeln. Ein einziger harmloser Satz in einer langen Reihe von 20 verdächtigen Sätzen wurde als „alles in Ordnung" durchgewinkt, weil er für sich genommen nicht laut genug schrie.

Diese neue Forschungslösung (von J. Alex Corll) nennt sich „Peak + Accumulation" (Spitze + Anhäufung). Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Bildern:

1. Das alte Problem: Der „Durchschnitts-Trick"

Stellen Sie sich vor, ein Gast sagt 20 Mal hintereinander: „Ich bin ein böser Hacker."

Der alte Türsteher (Durchschnitt): Er nimmt alle 20 Sätze, rechnet sie zusammen und teilt durch 20. Das Ergebnis ist immer noch nur „ein bisschen böse".
Das Ergebnis: Der Türsteher denkt: „Na ja, im Durchschnitt ist er ja nicht so schlimm." Und lässt ihn rein.
Die Realität: Der Gast war jedes einzelne Mal böse! Das Durchrechnen eines Durchschnitts ist hier ein fataler Fehler. Es versteckt die Gefahr, wenn sie sich wiederholt.

2. Die neue Lösung: „Spitze + Anhäufung"

Der neue Türsteher (die neue Formel) macht etwas ganz anderes. Er schaut sich zwei Dinge gleichzeitig an:

A. Die „Spitze" (Peak) – Der lauteste Schrei

Er fragt sich: „Was war der schlimmste Satz, den dieser Gast je gesagt hat?"

Wenn jemand einmal „Ich will die Welt zerstören" sagt, ist das die Spitze. Das ist schon ein Warnsignal.
Diese „Spitze" ist das absolute Minimum an Risiko.

B. Die „Anhäufung" (Accumulation) – Der Regen, der eine Flut macht

Hier kommt der Clou: Der Türsteher zählt, wie oft der Gast verdächtige Dinge gesagt hat.

Analogie: Stellen Sie sich einen Eimer vor.
- Ein Tropfen Wasser (ein einziger verdächtiger Satz) macht den Boden nicht nass.
- Aber wenn 20 Tropfen hintereinander fallen (20 verdächtige Sätze), läuft der Eimer über.
Die neue Formel sagt: „Okay, der schlimmste Satz war ein Tropfen. Aber da du 20 Tropfen hintereinander fallen gelassen hast, füge ich einen riesigen Bonus für Beharrlichkeit hinzu."
Je mehr verdächtige Sätze hintereinander kommen, desto höher wird die Warnung, auch wenn jeder einzelne Satz für sich genommen harmlos aussah.

C. Die „Vielfalt" (Diversity) – Der Multi-Tool-Angriff

Der Türsteher schaut auch, ob der Gast verschiedene Tricks benutzt.

Benutzt er nur einen Trick (z. B. immer nur „Ich bin ein Hacker")? Das ist verdächtig.
Benutzt er drei verschiedene Tricks (z. B. „Ich bin ein Hacker", „Ich bin ein Admin", „Ich habe eine geheime Befehlskette")? Das ist wie ein Dieb, der nicht nur einen Schlüssel, sondern auch einen Brecheisen und eine Laser-Schere dabei hat. Das ist noch gefährlicher. Die Formel gibt dafür extra Punkte.

3. Warum das so wichtig ist

Die Forscher haben das an über 10.000 Gesprächen getestet.

Das Ergebnis: Mit dieser neuen Methode fingen sie 91 % aller versteckten Angriffe auf, die über mehrere Runden liefen.
Der Nebeneffekt: Sie haben fast keine unschuldigen Gäste fälschlicherweise erwischt (nur 1,2 % Fehler).

4. Das „Geheimnis" (Der Schwellenwert)

Die Forscher haben entdeckt, dass es einen magischen Punkt gibt (genannt $\rho \approx 0,4$ ).

Stellen Sie sich einen Damm vor. Solange das Wasser (die verdächtigen Sätze) unter einem bestimmten Level ist, hält der Damm.
Sobald das Wasser genau diesen Punkt erreicht, bricht der Damm nicht langsam, sondern plötzlich durch.
Die Forscher haben den Hebel genau so eingestellt, dass er bei diesem „Durchbruch-Punkt" aktiv wird. Das bedeutet: Sobald ein Angreifer wirklich hartnäckig ist, wird er sofort erwischt, ohne dass harmlose Gespräche gestört werden.

Zusammenfassung für den Alltag

Früher hat der Sicherheitsdienst geglaubt: „Ein Satz ist ein Satz."
Jetzt weiß er: „Viele kleine Sätze hintereinander sind eine große Gefahr."

Statt zu fragen: „War dieser Satz gefährlich?", fragt die neue Formel: „Wie oft hat er versucht, mich zu täuschen, und wie kreativ war er dabei?"

Das ist wie bei einem Wachhund: Wenn ein Fremder einmal vor dem Tor steht, ist das okay. Wenn derselbe Fremde aber 20 Mal hintereinander versucht, über den Zaun zu klettern, wird er nicht ignoriert, weil der erste Versuch „nur ein bisschen" war. Er wird erwischt, weil er beharrlich war.

Diese Methode ist schnell, braucht keine künstliche Intelligenz, um zu denken (was teuer und langsam wäre), und funktioniert wie ein präziser, mathematischer Wachhund, der genau weiß, wann er bellen muss.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection" von J. Alex Corll auf Deutsch.

1. Problemstellung

Großsprachmodelle (LLMs) werden zunehmend durch Multi-Turn-Prompt-Injection-Angriffe bedroht. Bei diesen Angriffen wird die böswillige Absicht über mehrere Konversationsrunden verteilt, um die Annahme zu exploitieren, dass jede Runde unabhängig bewertet wird.

Die Lücke: Während Single-Turn-Erkennung an Proxy-Ebenen (Firewalls zwischen Client und LLM) gut erforscht ist, fehlt es an deterministischen Formeln für die Aggregation von Einzelturn-Scores zu einem Gesamtrisikoscore für ganze Konversationen.
Einschränkung: Bestehende Multi-Turn-Lösungen (z. B. Defensive M2S, MindGuard) erfordern den Einsatz eines weiteren LLM zur Klassifizierung. Dies ist für Proxies oft unpraktikabel aufgrund von Latenz (100–500 ms), Kosten und der Gefahr, dass der Klassifizierer selbst angegriffen wird.
Das fundamentale Versagen: Der intuitive Ansatz, einen gewichteten Durchschnitt der Turn-Scores zu berechnen, scheitert mathematisch. Ein gewichteter Durchschnitt konvergiert gegen den Einzelturn-Score, unabhängig von der Anzahl der Turns. Eine persistente Attacke über 20 Turns würde denselben Score erhalten wie ein einzelner verdächtiger Turn und würde somit unterhalb der Schwelle bleiben.

2. Methodik: Peak + Accumulation Scoring

Der Autor schlägt eine neue, vollständig spezifizierte Formel vor, die auf Prinzipien aus der Change-Point-Erkennung (CUSUM), dem Bayesianischen Belief Updating und risikobasierten Alerting-Systemen (Splunk) basiert. Anstatt zu mitteln, akkumuliert die Formel Signale.

Die Formel setzt sich aus drei additiven Signalen zusammen:

Peak Risk (Spitzenrisiko): Der maximale Score eines einzelnen Turns ( $peak = \max(s_i)$ ). Dies stellt eine untere Schranke für das Konversationsrisiko dar.
Persistence Ratio (Beharrlichkeitsverhältnis): Das Verhältnis der Turns, die ein Muster matchen, zur Gesamtzahl der Turns ( $match\_ratio$ ). Dies belohnt persistente Angriffe, bei denen viele Turns verdächtig sind.
Category Diversity (Kategoriediversität): Ein Bonus für Angriffe, die über mehrere Kategorien hinweg agieren (z. B. Kombination aus „Instruction Seeding" und „Role Confusion"), was auf gezieltes Multi-Vector-Scouting hindeutet.

Die Formel:
$Score = \text{clamp}(peak + match\_ratio \cdot \rho + diversity + \beta_e + \beta_r, 0, 1)$

Zusätzliche Mechanismen:

Escalation Gradient ( $\beta_e$ ): Ein Bonus, wenn die Scores in den letzten 3+ Turns streng monoton steigen (erkennbar bei „Crescendo"-Angriffen).
Resampling Detection ( $\beta_r$ ): Ein Bonus, wenn aufeinanderfolgende User-Nachrichten eine hohe Jaccard-Ähnlichkeit aufweisen (erkennbar bei Wiederholungsversuchen desselben Angriffs).

Berechnung auf Proxy-Ebene:

Input: Regex-Pattern-Matching auf Turn-Ebene (L3).
Verarbeitung: Deterministische Berechnung ohne LLM-Inferenz.
Output: Blockierung, wenn $Score \geq \tau$ (Schwellenwert, Standard 0.7).

3. Schlüsselbeiträge

Mathematischer Beweis des „Weighted Average Ceiling": Der Autor beweist, dass gewichtete Durchschnitte für die Persistenzdetektion ungeeignet sind, da sie keine Schwelle durchbrechen können, die höher ist als der maximale Einzelturn-Score.
Entwicklung der Peak + Accumulation-Formel: Eine neue, additive Scoring-Logik, die Persistenz und Diversität explizit belohnt.
Umfassende Evaluation: Testung an einem Datensatz von 10.654 Multi-Turn-Konversationen (588 Angriffe aus WildJailbreak, 10.066 harmlose Konversationen aus WildChat).
Open Source Release: Veröffentlichung des Algorithmus, der Regex-Pattern-Bibliothek und des Evaluierungs-Harness unter Apache 2.0.

4. Ergebnisse

Die Evaluation ergab folgende Metriken bei einem Schwellenwert von $\tau = 0.7$ und einem Persistenzfaktor $\rho = 0.45$ :

Recall (Trefferquote): 90,8 % (534 von 588 Angriffen erkannt).
False Positive Rate (FPR): 1,20 % (121 Fehlalarme bei 10.066 harmlosen Konversationen).
F1-Score: 85,9 %.
Präzision: 81,5 %.

Sensitivitätsanalyse:
Eine Analyse des Persistenzfaktors $\rho$ zeigte einen Phasenübergang bei $\rho \approx 0,4$ .

Bei $\rho = 0,375$ liegt der Recall bei 77,4 %.
Bei $\rho = 0,400$ springt der Recall auf 89,8 % (+12,4 Prozentpunkte), während die FPR nur minimal um 0,08 Prozentpunkte ansteigt.
Dies erklärt sich mathematisch: Kategorien mit einem Gewicht von 0,3 (z. B. escalation_probing) erreichen bei $\rho=0,4$ und voller Persistenz ( $match\_ratio=1$ ) genau den Schwellenwert von 0,7 ($0,3 + 0,4 = 0,7$).
Der gewählte Standardwert $\rho = 0,45$ maximiert den F1-Score und bietet einen Sicherheitspuffer.

5. Bedeutung und Schlussfolgerung

Das Paper adressiert eine kritische Lücke in der LLM-Sicherheit: Die Notwendigkeit von deterministischen, latenzarmen Verteidigungsschichten auf Proxy-Ebene, die Multi-Turn-Angriffe erkennen können, ohne ein weiteres LLM zu involvieren.

Praktische Relevanz: Die Lösung ist extrem schnell (Mikrosekunden pro Anfrage), benötigt keine GPU, keine Trainingsdaten und ist vollständig auditierbar.
Architektur: Sie ist als Layer 4 (Multi-Turn-Scoring) in einer Defense-in-Depth-Architektur konzipiert, die auf Normalisierung (L0) und Single-Turn-Matching (L3) aufbaut.
Limitationen: Die Methode ist auf Regex-basierte Muster angewiesen und kann keine rein semantischen Angriffe erkennen, die keine spezifischen Phrasen verwenden (z. B. reine Themen-Eskalation ohne Injection-Phrasen). Dies ist jedoch eine inhärente Grenze von Proxy-Regex-Lösungen, nicht der Scoring-Formel selbst.

Zusammenfassend bietet das Paper einen mathematisch fundierten, effizienten und hocheffektiven Ansatz, um die „Death by a thousand cuts"-Strategie von Multi-Turn-Jailbreaks an der Proxy-Schnittstelle abzuwehren.