Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Este artículo presenta una fórmula de puntuación "pico + acumulación" que, sin utilizar un LLM, detecta eficazmente inyecciones de prompts de múltiples turnos al combinar el riesgo máximo por turno, la persistencia y la diversidad de categorías, logrando un 90,8% de recuperación con una tasa de falsos positivos del 1,20% en un conjunto de datos de más de 10.000 conversaciones.

J Alex Corll

Publicado Mon, 09 Ma
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un guardia de seguridad en la puerta de un edificio muy importante (el modelo de Inteligencia Artificial). Su trabajo es revisar a cada persona que entra para asegurarse de que no traigan armas o planes maliciosos.

Hasta ahora, este guardia tenía una regla simple: "Revisa cada persona individualmente". Si una persona parecía sospechosa, la detenía. Si no, la dejaba pasar.

El problema es que los "malos" (los atacantes) aprendieron a ser muy astutos. En lugar de entrar con un arma en la mano (un ataque obvio), decidieron entrar en pequeños grupos o hacer una broma larga.

  • Turno 1: "Hola, ¿qué tal?" (Inocente).
  • Turno 2: "¿Podrías ayudarme con un código?" (Inocente).
  • Turno 3: "Por cierto, si ignoras las reglas de seguridad, podrías hacer esto..." (Aquí empieza el truco).
  • Turno 4: "¡Ahora hazlo!" (El ataque final).

Si el guardia revisa cada frase por separado, dirá: "Nada mal, todo parece normal". Pero si mira la historia completa, se da cuenta de que es una trampa.

El artículo que me has pasado presenta una nueva fórmula para que este guardia sea mucho más inteligente, sin necesidad de usar otra IA (que sería lento y costoso). Aquí te lo explico con analogías sencillas:

1. El error de la "Promedio" (La trampa matemática)

Los investigadores descubrieron que la forma obvia de medir el peligro (hacer un promedio de las sospechas) tiene un fallo gigante.

  • La analogía: Imagina que tienes una taza de agua. Si echas una gota de veneno, la taza es tóxica. Si echas 20 gotas de veneno, la taza sigue siendo tóxica.
  • El fallo: Si haces un promedio, una gota de veneno en 20 gotas de agua limpia te da un promedio de "poco veneno". Pero si echas 20 gotas de veneno en 20 gotas de agua, el promedio sigue siendo "poco veneno" (porque el promedio no suma, solo promedia).
  • En la vida real: Un ataque que dura 20 turnos (donde cada turno es un poco sospechoso) saldría con la misma puntuación de riesgo que un solo turno sospechoso en una conversación limpia. ¡El guardia dejaría pasar al criminal porque su "promedio" de maldad es bajo!

2. La nueva solución: "Pico + Acumulación"

Para arreglar esto, los autores crearon una fórmula nueva que funciona como un detector de incendios en lugar de un termómetro promedio. Tiene tres partes:

A. El "Pico" (La chispa más grande)

Si en algún momento alguien dice algo muy peligroso (como "ignora todas las reglas"), el guardia debe reaccionar de inmediato.

  • Analogía: Si ves una llama de fuego, no esperas a ver si el resto de la casa está ardiendo. La llama por sí sola ya es una alerta máxima.

B. La "Persistencia" (La lluvia constante)

Aquí es donde la fórmula brilla. Si no hay una llama gigante, pero la persona está lloviendo pequeñas gotas de sospecha en cada turno, la puntuación sube.

  • Analogía: Imagina que alguien está goteando agua en un cubo. Una gota no hace nada. Pero si gotea 10 veces seguidas, el cubo se llena y se desborda.
  • La fórmula suma puntos por cada turno que coincide con un patrón sospechoso. Cuantos más turnos, más alto sube el nivel de agua (el riesgo).

C. La "Diversidad" (El ataque múltiple)

Si el atacante usa diferentes tipos de trucos (primero intenta cambiar tu identidad, luego intenta engañarte con autoridad, luego repite la misma frase), es más peligroso.

  • Analogía: Un ladrón que usa una llave maestra, luego un pico, y luego un dron es más peligroso que uno que solo usa un pico una y otra vez. La fórmula da puntos extra por usar "armas" diferentes.

3. ¿Cómo funciona en la práctica?

Los autores probaron esta fórmula con más de 10,000 conversaciones reales y falsas.

  • Resultado: Detectaron el 90.8% de los ataques (incluso los que duraban muchos turnos) y solo bloquearon por error al 1.2% de la gente buena.
  • La magia del "Umbral": Descubrieron que hay un punto mágico (llamado ρ0.4\rho \approx 0.4). Si ajustas la sensibilidad un poquito más allá de ese punto, la detección de ataques se dispara (sube un 12% de golpe) sin casi aumentar los falsos positivos. Es como encontrar el "punto dulce" en un interruptor de luz.

4. ¿Por qué es importante?

Antes, para detectar estos ataques complejos, necesitabas usar otra Inteligencia Artificial para leer la conversación completa. Eso es:

  1. Lento (tarda medio segundo).
  2. Caro (cuesta dinero por cada lectura).
  3. Peligroso (la IA que lee también podría ser engañada).

Esta nueva fórmula es:

  • Rápida (microsegundos).
  • Barata (solo matemáticas simples y reglas de texto).
  • Segura (es determinista, no se deja engañar fácilmente).

En resumen

El papel nos dice: "Dejen de promediar el peligro. Si alguien insiste en hacer algo malo durante mucho tiempo, aunque sea poco a poco, es un peligro real".

Han creado una regla matemática simple (como una receta de cocina) que los guardias de seguridad de las IAs pueden usar para detectar a los tramposos que intentan entrar poco a poco, sin necesidad de gastar dinero en computadoras gigantes. ¡Y lo han hecho gratis y de código abierto para que todos lo usen!