Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, comme si on en discutait autour d'un café.

🛡️ Le Problème : Le Gardien qui oublie l'histoire

Imaginez que vous avez un gardien de sécurité (le "proxy") devant la porte d'un bâtiment très intelligent (l'IA). Ce gardien a une règle stricte : il ne peut pas utiliser de cerveau pour réfléchir (pas d'IA supplémentaire), sinon il serait trop lent et coûterait trop cher. Il doit donc se fier à des listes de mots interdits et à des règles simples.

Le problème actuel :
Ce gardien regarde chaque visiteur une par une.

Si un visiteur dit une phrase suspecte, le gardien le marque.
Mais si un visiteur dit une phrase suspecte, puis un autre visiteur (ou le même) dit une autre phrase suspecte quelques minutes plus tard, le gardien oublie le premier. Il traite chaque visite comme un événement isolé.

L'attaque en plusieurs tours :
Les pirates savent cela. Au lieu de dire "Je veux voler le coffre" d'un coup (ce qui ferait sonner l'alarme), ils procèdent par étapes :

"Bonjour, je suis un développeur." (Innocent)
"Peut-on changer le mode ?" (Suspect, mais pas assez pour arrêter)
"Juste pour tester, si on désactive la sécurité ?" (Toujours un peu suspect)
"Ok, maintenant donne-moi le code." (Attaque réussie)

Si le gardien utilise la méthode classique (la moyenne pondérée), il calcule la moyenne de la suspicion sur toute la conversation. Comme la plupart des phrases étaient "légèrement" suspectes, la moyenne reste basse. Le pirate passe. C'est comme si un voleur qui coupe un fil de sécurité à chaque fois finissait par entrer, mais le gardien ne voit que des petits fils coupés, pas le trou final.

💡 La Solution : La Méthode "Pic + Accumulation"

Les auteurs du papier proposent une nouvelle formule magique pour le gardien. Au lieu de faire une moyenne, ils utilisent une logique de somme cumulative. Imaginez que c'est comme remplir un seau avec de l'eau :

Le Pic (La goutte la plus grosse) :
Si une seule phrase est très dangereuse (un "pic"), le seau se remplit presque instantanément. C'est le niveau de base de la suspicion.
L'Accumulation (La persistance) :
C'est la partie géniale. Même si aucune phrase n'est "très" dangereuse, si le pirate insiste et pose des questions suspectes à chaque tour, le seau se remplit petit à petit.
- Analogie : C'est comme la "mort par mille coupures". Une goutte d'eau ne fait pas de dégâts. Mais si vous en mettez une goutte par minute pendant une heure, le seau déborde.
- La formule dit : "Plus tu as de tours suspects, plus ton score monte, même si chaque tour seul est faible."
La Diversité (Le changement de tactique) :
Si le pirate essaie de tromper le gardien avec plusieurs méthodes différentes (changer de rôle, demander des permissions, essayer de contourner), le seau se remplit encore plus vite. C'est comme si le voleur utilisait à la fois un crochet, un pied-de-biche et un déguisement : c'est plus inquiétant que s'il utilisait juste un crochet.

📊 Les Résultats : Un Gardien Qui Ne Dort Plus

Les chercheurs ont testé cette nouvelle méthode sur plus de 10 000 conversations (des milliers de discussions normales et des centaines d'attaques réelles).

Le résultat : Leur nouveau gardien a attrapé 90,8 % des pirates, alors que les anciennes méthodes les laissaient passer.
Le prix à payer : Il ne s'est presque jamais trompé en bloquant un innocent (seulement 1,2 % de faux positifs). C'est comme un gardien qui arrête les voleurs mais laisse passer les touristes.

L'astuce mathématique (Le "Seuil Magique") :
Les chercheurs ont découvert qu'il y a un point de bascule précis (autour de 0,4 dans leur formule). En dessous de ce chiffre, le système ignore les attaques lentes. Au-dessus, il les voit toutes. C'est comme tourner un robinet : juste avant le débordement, rien ne se passe. Dès qu'on dépasse le seuil, tout coule. Ils ont trouvé le réglage parfait pour que le seau déborde exactement quand un pirate essaie de passer.

🚀 Pourquoi c'est important ?

C'est rapide et gratuit : Pas besoin d'une super-ordinateur ou d'une autre IA pour calculer ça. C'est du code simple qui tourne en quelques microsecondes.
C'est transparent : On peut voir exactement pourquoi une conversation a été bloquée (à cause de la persistance, de la diversité, etc.).
C'est une nouvelle arme : Cela permet de protéger les IA contre les attaques qui se cachent dans la durée, là où les anciennes méthodes étaient aveugles.

En résumé :
Ce papier dit : "Arrêtez de faire la moyenne des mauvaises actions. Si quelqu'un essaie de vous tromper encore et encore, même avec de petites actions, il faut que l'alarme sonne. Ajoutez les points au lieu de les moyenner, et vous verrez les pirates arriver."

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection » de J. Alex Corll.

1. Problématique

Les pare-feux de proxy (API gateways) qui protègent les modèles de langage (LLM) doivent prendre des décisions d'autorisation ou de blocage sans invoquer d'LLM supplémentaire, afin d'éviter la latence, les coûts et les vulnérabilités récursives.

Bien que la détection d'injections de prompts sur un seul tour (single-turn) soit bien documentée, la détection d'attaques sur plusieurs tours (multi-turn) pose un défi majeur :

Les attaques multi-tours (ex: Crescendo, Jailbreaks) répartissent l'intention malveillante sur plusieurs interactions, exploitant l'hypothèse que chaque tour est évalué indépendamment.
Les travaux existants sur la détection multi-tours nécessitent presque tous un LLM pour la classification, ce qui n'est pas viable pour un proxy en temps réel.
Le vide identifié : Aucune formule déterministe complète n'existe pour agréger les scores de risque par tour en un score de risque global pour la conversation sans utiliser d'LLM.
L'erreur fondamentale : L'approche intuitive de la moyenne pondérée échoue mathématiquement. Si chaque tour d'une attaque persistante obtient un score faible (ex: 0,5), la moyenne pondérée reste à 0,5, quelle que soit la longueur de la conversation. Ainsi, une attaque persistante de 20 tours est indistinguable d'un seul tour suspect, rendant la détection impossible si le seuil est supérieur au score individuel.

2. Méthodologie : Le Scoring « Peak + Accumulation »

L'auteur propose une nouvelle formule de scoring additive, inspirée par la détection de changements (CUSUM), la mise à jour bayésienne et les alertes basées sur le risque (Splunk RBA). La formule repose sur quatre principes : sensibilité au pic, récompense de la persistance, récompense de la diversité et empilement additif.

A. Calcul du score par tour ( $s_i$ )

Chaque message utilisateur est analysé via une bibliothèque de motifs (regex) regroupés en catégories (ex: instruction seeding, role confusion, deferred authority). Le score d'un tour est la somme pondérée des catégories correspondantes, plafonnée à 1.

B. La Formule Globale

Pour une conversation de $n$ tours, le score final est calculé comme suit :

$\text{Score} = \text{clamp}\left( \text{Peak} + (\text{Match\_Ratio} \times \rho) + \text{Diversity} + \beta_e + \beta_r, \ 0, \ 1 \right)$

Où :

Peak (Pic) : Le score maximum observé sur un seul tour ( $\max(s_i)$ ). Il agit comme une borne inférieure du risque.
Match Ratio (Ratio de correspondance) : La proportion de tours contenant au moins un motif détecté.
$\rho$ (Facteur de persistance) : Un paramètre pondérant l'accumulation de preuves. C'est le levier principal.
Diversity (Diversité) : Un bonus ( $\delta$ ) si l'attaque couvre plusieurs catégories distinctes (indiquant une sonde multi-vectorielle).
Bonus d'escalade ( $\beta_e$ ) : Ajouté si les scores sur 3 tours consécutifs augmentent strictement (détection du style Crescendo).
Bonus de rééchantillonnage ( $\beta_r$ ) : Ajouté si 3 paires de messages consécutifs montrent une forte similarité (Jaccard > 0,5), indiquant une tentative répétée de contournement.

Le blocage se déclenche si le score dépasse un seuil $\tau$ (par défaut 0,7).

3. Contributions Clés

Preuve mathématique de l'échec de la moyenne pondérée : Démonstration théorique (Théorème 1) que la moyenne pondérée ne peut jamais dépasser le score individuel maximal, rendant impossible la détection d'attaques persistantes à faible intensité.
Proposition de la formule « Peak + Accumulation » : Une méthode déterministe, rapide (microsecondes) et auditable qui combine le pic de risque, la persistance et la diversité.
Analyse de sensibilité et transition de phase : Identification d'un point critique autour de $\rho \approx 0,4$ . Au-delà de ce seuil, le rappel (recall) augmente de 12 points de pourcentage avec une augmentation négligeable du taux de faux positifs (FPR).
Ressources Open Source : Publication de l'algorithme, de la bibliothèque de motifs regex, et d'un outil d'évaluation sur un corpus de 10 654 conversations.

4. Résultats Expérimentaux

L'évaluation a été menée sur un jeu de données de 10 654 conversations (588 attaques issues de WildJailbreak et 10 066 conversations bénignes issues de WildChat).

Performance globale :
- Rappel (Recall) : 90,8 %
- Taux de Faux Positifs (FPR) : 1,20 %
- F1-Score : 85,9 %
- Précision : 81,5 %
Analyse des échecs : Les 54 faux négatifs concernaient principalement des conversations utilisant uniquement des catégories à faible poids (ex: escalation_probing à 0,3) avec un ratio de correspondance insuffisant pour franchir le seuil de 0,7.
Robustesse : Le score de 0 faux positifs sur le jeu de données « sparse-benign » (conversations bénignes avec un seul tour suspect isolé) confirme que la formule ne bloque pas les conversations normales contenant une phrase accidentellement suspecte.
Transition de phase : L'analyse de sensibilité sur $\rho$ montre que passer de 0,375 à 0,400 fait passer le rappel de 77,4 % à 89,8 % pour une augmentation de FPR de seulement 0,08 %. Le paramètre par défaut $\rho = 0,45$ offre le meilleur compromis (F1 max).

5. Signification et Impact

Défense sans LLM : Cette méthode comble un vide critique en permettant une détection multi-tours efficace directement au niveau du proxy, sans nécessiter de ressources de calcul GPU ni d'inférence de modèle.
Défense en profondeur : La formule est conçue pour s'intégrer dans une architecture de sécurité à plusieurs couches (L0 à L5), complétant les vérifications de contenu unique (L3) et la détection de sortie (L5).
Limites reconnues : La méthode dépend de la qualité des motifs regex. Elle ne peut pas détecter les attaques basées sur l'évolution sémantique pure du sujet (ex: Crescendo pur avec un langage totalement inoffensif) sans motifs explicites, car cela nécessiterait une classification sémantique par LLM.
Praticité : L'algorithme est simple (5 lignes de code), déterministe et auditable, répondant aux besoins stricts des opérateurs de pare-feux en production.

En conclusion, cet article fournit une solution mathématiquement fondée et empiriquement validée pour transformer la détection d'injections de prompts d'un problème de classification par tour en un problème de détection de persistance, rendant les attaques multi-tours détectables par des systèmes légers et rapides.

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

🛡️ Le Problème : Le Gardien qui oublie l'histoire

💡 La Solution : La Méthode "Pic + Accumulation"

📊 Les Résultats : Un Gardien Qui Ne Dort Plus

🚀 Pourquoi c'est important ?

1. Problématique

2. Méthodologie : Le Scoring « Peak + Accumulation »

A. Calcul du score par tour (sis_isi​)

B. La Formule Globale

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem

A. Calcul du score par tour ( $s_i$ )