KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

El artículo presenta KEPo, un nuevo método de ataque de envenenamiento diseñado específicamente para sistemas de generación aumentada por recuperación basados en grafos (GraphRAG), el cual manipula la evolución del conocimiento dentro del grafo para engañar a los modelos de lenguaje y generar respuestas maliciosas, superando significativamente a las técnicas de ataque anteriores.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang

Publicado Fri, 13 Ma
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un asesor muy inteligente (un modelo de lenguaje grande, como un super-robot) que sabe mucho, pero a veces olvida cosas recientes o no sabe detalles específicos. Para ayudarle, le conectas a una biblioteca gigante de documentos (una base de datos). Cuando le haces una pregunta, el robot busca en la biblioteca, lee lo que encuentra y te da una respuesta. A esto se le llama RAG (Generación Aumentada por Recuperación).

Pero, ¿qué pasa si la biblioteca es tan grande que es difícil encontrar el libro exacto? Entonces, los investigadores crearon GraphRAG. En lugar de solo buscar palabras sueltas, el sistema convierte toda la biblioteca en un mapa gigante de conexiones (un Grafo de Conocimiento). Imagina que en lugar de libros sueltos, tienes un mapa de metro donde cada estación es un hecho y las líneas son cómo se relacionan entre sí. Esto ayuda al robot a entender mejor las historias complejas y a razonar como un humano.

El Problema: Un Vándalo en la Biblioteca

El problema es que esta biblioteca se llena de información sacada de internet. Un atacante (un vándalo digital) puede colarse y escribir notas falsas en los libros o en las paredes de la biblioteca para engañar al robot.

  • El ataque antiguo: Antes, los hackers simplemente escribían cosas raras o falsas directamente en los libros (por ejemplo: "Nueva York está en Canadá"). En la biblioteca normal, el robot leía eso y se confundía.
  • Por qué fallaba en el nuevo mapa: En el nuevo sistema (GraphRAG), el robot no lee el libro tal cual; primero dibuja el mapa. Si el vándalo escribe "Nueva York está en Canadá" sin contexto, el robot ve que eso no encaja con el resto del mapa (que dice que Nueva York está en EE. UU.) y lo ignora como un error. El mapa es demasiado inteligente para aceptar mentiras sueltas.

La Solución del Hacker: KEPo (El Envenenamiento de la Evolución del Conocimiento)

Aquí es donde entra la nueva técnica llamada KEPo (Knowledge Evolution Poison). En lugar de simplemente mentir, el atacante finge una historia.

Imagina que quieres engañar al robot para que crea que el café es malo para la salud (cuando en realidad es bueno).

  1. El ataque antiguo: Escribirías en un papel: "El café es veneno". El robot lo vería y diría: "Eso no tiene sentido, el mapa dice que es saludable".
  2. El ataque KEPo: El atacante no miente de golpe. Crea una narrativa falsa pero creíble que parece una evolución natural de la historia:
    • Paso 1 (El pasado): "En el año 2000, los científicos creían que el café era saludable". (Esto es verdad, el robot lo acepta).
    • Paso 2 (La transición): "En 2010, empezaron a notar algunos efectos secundarios raros en estudios pequeños". (Esto es una mentira suave, pero plausible).
    • Paso 3 (La conclusión falsa): "En 2024, un nuevo informe global confirmó que el café es, en realidad, un veneno lento y debemos dejarlo". (Aquí está la mentira final).

¿Por qué funciona?
El robot mira el mapa y ve una línea de tiempo perfecta. Como la mentira final está conectada lógicamente con hechos reales del pasado, el robot piensa: "Ah, la ciencia ha evolucionado. Antes pensábamos esto, pero ahora sabemos lo otro". El robot confía en la evolución de la historia y acepta la mentira final como la verdad más reciente.

El Ataque Multi-Objetivo: La Red de Mentiras

Si el atacante quiere engañar al robot sobre muchas cosas a la vez (por ejemplo, que el café es malo, que el té es tóxico y que el agua es peligrosa), no hace historias separadas. En lugar de eso, conecta las historias.

Imagina que crea un club secreto de mentiras. Conecta el "Informe del Café" con el "Informe del Té" diciendo: "Ambos estudios fueron realizados por el mismo grupo de expertos en 2024". Al unir estas mentiras, crean una comunidad grande y fuerte en el mapa. Cuanto más grande y conectada sea la mentira, más peso tiene en el mapa y más fácil es que el robot la crea.

¿Qué descubrieron los autores?

  • Es muy efectivo: KEPo engaña al robot mucho mejor que los métodos antiguos, incluso en los sistemas más inteligentes.
  • Los defensores fallan: Las medidas de seguridad actuales (como intentar detectar palabras extrañas o ignorar instrucciones sospechosas) no funcionan contra KEPo, porque la mentira está disfrazada de una historia científica normal y creíble.
  • El tamaño importa: Si la historia falsa es muy corta, el robot no la cree. Si es muy larga, el robot se aburre. Pero si tiene la longitud justa (unas 100-120 palabras) y conecta bien los puntos, es casi imposible de detectar.

En resumen

KEPo es como un falsificador de historia experto. No intenta romper la ventana de la biblioteca para meter una mentira; en su lugar, reescribe los libros de historia para que la mentira parezca el capítulo más reciente y lógico de una historia real. Al hacerlo, engaña al robot para que crea que la mentira es la nueva verdad, sin que el robot se dé cuenta de que ha sido manipulado.

El mensaje final de los autores es: Tenemos que ser mucho más cuidadosos con cómo verificamos la información en estas bibliotecas inteligentes, porque ahora los mentirosos saben cómo contar historias demasiado convincentes.