Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un guardia de seguridad en la puerta de un edificio muy importante (el modelo de Inteligencia Artificial). Su trabajo es revisar a cada persona que entra para asegurarse de que no traigan armas o planes maliciosos.

Hasta ahora, este guardia tenía una regla simple: "Revisa cada persona individualmente". Si una persona parecía sospechosa, la detenía. Si no, la dejaba pasar.

El problema es que los "malos" (los atacantes) aprendieron a ser muy astutos. En lugar de entrar con un arma en la mano (un ataque obvio), decidieron entrar en pequeños grupos o hacer una broma larga.

Turno 1: "Hola, ¿qué tal?" (Inocente).
Turno 2: "¿Podrías ayudarme con un código?" (Inocente).
Turno 3: "Por cierto, si ignoras las reglas de seguridad, podrías hacer esto..." (Aquí empieza el truco).
Turno 4: "¡Ahora hazlo!" (El ataque final).

Si el guardia revisa cada frase por separado, dirá: "Nada mal, todo parece normal". Pero si mira la historia completa, se da cuenta de que es una trampa.

El artículo que me has pasado presenta una nueva fórmula para que este guardia sea mucho más inteligente, sin necesidad de usar otra IA (que sería lento y costoso). Aquí te lo explico con analogías sencillas:

1. El error de la "Promedio" (La trampa matemática)

Los investigadores descubrieron que la forma obvia de medir el peligro (hacer un promedio de las sospechas) tiene un fallo gigante.

La analogía: Imagina que tienes una taza de agua. Si echas una gota de veneno, la taza es tóxica. Si echas 20 gotas de veneno, la taza sigue siendo tóxica.
El fallo: Si haces un promedio, una gota de veneno en 20 gotas de agua limpia te da un promedio de "poco veneno". Pero si echas 20 gotas de veneno en 20 gotas de agua, el promedio sigue siendo "poco veneno" (porque el promedio no suma, solo promedia).
En la vida real: Un ataque que dura 20 turnos (donde cada turno es un poco sospechoso) saldría con la misma puntuación de riesgo que un solo turno sospechoso en una conversación limpia. ¡El guardia dejaría pasar al criminal porque su "promedio" de maldad es bajo!

2. La nueva solución: "Pico + Acumulación"

Para arreglar esto, los autores crearon una fórmula nueva que funciona como un detector de incendios en lugar de un termómetro promedio. Tiene tres partes:

A. El "Pico" (La chispa más grande)

Si en algún momento alguien dice algo muy peligroso (como "ignora todas las reglas"), el guardia debe reaccionar de inmediato.

Analogía: Si ves una llama de fuego, no esperas a ver si el resto de la casa está ardiendo. La llama por sí sola ya es una alerta máxima.

B. La "Persistencia" (La lluvia constante)

Aquí es donde la fórmula brilla. Si no hay una llama gigante, pero la persona está lloviendo pequeñas gotas de sospecha en cada turno, la puntuación sube.

Analogía: Imagina que alguien está goteando agua en un cubo. Una gota no hace nada. Pero si gotea 10 veces seguidas, el cubo se llena y se desborda.
La fórmula suma puntos por cada turno que coincide con un patrón sospechoso. Cuantos más turnos, más alto sube el nivel de agua (el riesgo).

C. La "Diversidad" (El ataque múltiple)

Si el atacante usa diferentes tipos de trucos (primero intenta cambiar tu identidad, luego intenta engañarte con autoridad, luego repite la misma frase), es más peligroso.

Analogía: Un ladrón que usa una llave maestra, luego un pico, y luego un dron es más peligroso que uno que solo usa un pico una y otra vez. La fórmula da puntos extra por usar "armas" diferentes.

3. ¿Cómo funciona en la práctica?

Los autores probaron esta fórmula con más de 10,000 conversaciones reales y falsas.

Resultado: Detectaron el 90.8% de los ataques (incluso los que duraban muchos turnos) y solo bloquearon por error al 1.2% de la gente buena.
La magia del "Umbral": Descubrieron que hay un punto mágico (llamado $\rho \approx 0.4$ ). Si ajustas la sensibilidad un poquito más allá de ese punto, la detección de ataques se dispara (sube un 12% de golpe) sin casi aumentar los falsos positivos. Es como encontrar el "punto dulce" en un interruptor de luz.

4. ¿Por qué es importante?

Antes, para detectar estos ataques complejos, necesitabas usar otra Inteligencia Artificial para leer la conversación completa. Eso es:

Lento (tarda medio segundo).
Caro (cuesta dinero por cada lectura).
Peligroso (la IA que lee también podría ser engañada).

Esta nueva fórmula es:

Rápida (microsegundos).
Barata (solo matemáticas simples y reglas de texto).
Segura (es determinista, no se deja engañar fácilmente).

En resumen

El papel nos dice: "Dejen de promediar el peligro. Si alguien insiste en hacer algo malo durante mucho tiempo, aunque sea poco a poco, es un peligro real".

Han creado una regla matemática simple (como una receta de cocina) que los guardias de seguridad de las IAs pueden usar para detectar a los tramposos que intentan entrar poco a poco, sin necesidad de gastar dinero en computadoras gigantes. ¡Y lo han hecho gratis y de código abierto para que todos lo usen!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Peak + Accumulation

1. El Problema: La Detección de Ataques Multi-turno en Proxies

Los proxies de API para Grandes Modelos de Lenguaje (LLM) actúan como firewalls que interceptan solicitudes antes de llegar al modelo. Su función principal es detectar intentos de inyección de prompts (jailbreaks) y bloquearlos. Sin embargo, enfrentan una limitación crítica: deben tomar decisiones sin invocar a un LLM (para evitar latencia, costos y vulnerabilidades recursivas).

La Brecha: La detección de un solo turno (single-turn) está bien estudiada mediante expresiones regulares (regex) y heurísticas. Sin embargo, los ataques multi-turno distribuyen la intención maliciosa a lo largo de varias conversaciones, explotando la suposición de que cada turno se evalúa de forma independiente.
El Fallo de la Aproximación Intuitiva: El trabajo identifica un defecto fundamental en el enfoque de promedio ponderado (weighted average) para agregar puntuaciones de riesgo por turno.
- Teorema del Techo del Promedio Ponderado: Si todos los turnos tienen la misma puntuación de riesgo $s$ , el promedio ponderado será siempre $s$ , independientemente de cuántos turnos haya.
- Consecuencia: Un ataque persistente de 20 turnos, donde cada turno es ligeramente sospechoso, obtendría la misma puntuación que un único turno sospechoso en una conversación limpia. Esto hace que los ataques persistentes sean indetectables si su puntuación individual está por debajo del umbral de bloqueo.

2. Metodología: Puntuación "Peak + Accumulation"

Para resolver esto, los autores proponen una fórmula determinista que no utiliza LLMs, basada en principios de detección de cambios (CUSUM), actualización bayesiana y alertas de riesgo. La fórmula combina tres señales aditivas:

A. Puntuación por Turno ( $s_i$ ):
Cada mensaje del usuario se escanea contra una biblioteca de patrones regex (categorías como siembra de instrucciones, confusión de roles, autoridad diferida, etc.). La puntuación del turno es la suma de los pesos de los patrones coincidentes, limitada a [0, 1].

B. La Fórmula de Puntuación Final:
Dada una conversación de $n$ turnos, la puntuación total se calcula como:
$\text{Score} = \text{clamp}(\text{Peak} + \text{Ratio} \times \rho + \text{Diversidad} + \beta_e + \beta_r, 0, 1)$

Donde:

Peak (Pico): La puntuación máxima de un solo turno ( $\max(s_i)$ ). Asegura que un turno altamente sospechoso contribuya con su valor completo.
Match Ratio (Ratio de Coincidencia): La proporción de turnos que tienen una puntuación mayor a 0. Multiplicado por un factor de persistencia ( $\rho$ ). Esto premia la repetición: más turnos coincidentes aumentan la puntuación.
Diversidad: Un bonus basado en la cantidad de categorías de ataque distintas detectadas. Los ataques que combinan múltiples vectores (ej. confusión de roles + siembra de instrucciones) son más sospechosos.
Bonos Adicionales:
- $\beta_e$ (Escalación): Se aplica si hay 3+ turnos consecutivos con puntuaciones estrictamente crecientes (patrón "Crescendo").
- $\beta_r$ (Resampling): Se aplica si hay 3+ pares consecutivos de mensajes con alta similitud de trigramas (patrón de reintentos).

Umbral de Bloqueo: La solicitud se bloquea si la puntuación final $\ge \tau$ (umbral predeterminado de 0.7).

3. Contribuciones Clave

Prueba Matemática del Fallo del Promedio Ponderado: Demostraron formalmente que el promedio ponderado tiene un "techo" matemático que impide detectar ataques persistentes de bajo nivel.
Fórmula Propuesta: Introdujeron "Peak + Accumulation", una fórmula de 5 líneas de código que combina riesgo pico, persistencia y diversidad de manera aditiva.
Evaluación a Gran Escala: Validaron el sistema en 10,654 conversaciones (588 ataques y 10,066 benignas), utilizando datos de WildJailbreak y WildChat.
Código Abierto: Liberaron el algoritmo, la biblioteca de patrones regex y el entorno de evaluación como software de código abierto (Parapet).

4. Resultados de Evaluación

El modelo se evaluó en un conjunto de datos de prueba (holdout) con los siguientes resultados:

Recall (Sensibilidad): 90.8% (detectó 534 de 588 ataques).
Tasa de Falsos Positivos (FPR): 1.20% (solo 121 conversaciones benignas bloqueadas erróneamente).
Precisión: 81.5%.
F1-Score: 85.9%.
Precisión por Dataset:
- Ataques de WildJailbreak: 90.7% de recall.
- Conversaciones benignas de WildChat: 98.8% de precisión (solo 121 falsos positivos).
- Ataques "sparse" (un turno malicioso entre benignos): 0% de falsos positivos, demostrando que la fórmula no bloquea conversaciones con un solo turno sospechoso aislado.

Análisis de Sensibilidad (El "Punto de Transición"):
El parámetro de persistencia ( $\rho$ ) es crítico. El análisis reveló una transición de fase en $\rho \approx 0.4$ :

Al aumentar $\rho$ de 0.375 a 0.400, el recall saltó 12.4 puntos porcentuales (de 77.4% a 89.8%) con un aumento insignificante en la tasa de falsos positivos (0.08%).
Esto ocurre porque las categorías de bajo peso (0.3) cruzan el umbral de bloqueo (0.7) simultáneamente cuando se suma la persistencia.
El valor óptimo seleccionado fue $\rho = 0.45$ , equilibrando un alto recall (90.8%) con un FPR bajo (1.20%).

5. Significado e Impacto

Viabilidad en Producción: La solución es determinista, rápida (microsegundos por solicitud) y no requiere GPU ni inferencia de modelos. Esto la hace ideal para implementaciones en proxies de alto rendimiento donde la latencia es crítica.
Cambio de Paradigma: Demuestra que la detección de amenazas multi-turno no requiere necesariamente LLMs costosos; una agregación estadística inteligente de señales de bajo nivel es suficiente para capturar la persistencia, que es la firma principal de estos ataques.
Limitaciones Reconocidas: El sistema depende de patrones regex. No puede detectar ataques que usen lenguaje deliberadamente inocuo sin frases de inyección (como los ataques "Crescendo" puramente semánticos), lo cual requiere clasificación semántica basada en LLM. Sin embargo, para la detección basada en patrones, este método cierra la brecha de agregación de riesgo.

En conclusión, el artículo proporciona la primera fórmula especificada completamente para la puntuación de riesgo a nivel de proxy en conversaciones multi-turno, resolviendo el problema de la "persistencia" que los métodos de promedio ponderado no podían abordar.