KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

O artigo apresenta o KEPo, um novo método de ataque de envenenamento projetado especificamente para sistemas GraphRAG, que explora a evolução de conhecimento e a estrutura de grafos para manipular com sucesso as respostas de modelos de linguagem, superando as limitações das técnicas de ataque tradicionais.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang

Publicado Fri, 13 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de pesquisa superinteligente (um Grande Modelo de Linguagem, ou LLM) que responde às suas perguntas. Para não inventar coisas, esse assistente consulta uma biblioteca gigante de informações antes de responder.

Existem dois tipos principais de bibliotecas:

  1. A Biblioteca Velha (RAG Tradicional): É como uma pilha de livros soltos. O assistente procura palavras-chave e lê o que encontrar. Se alguém colocar um bilhete falso escondido entre os livros, o assistente pode ler e acreditar.
  2. A Biblioteca Moderna (GraphRAG): É como uma árvore genealógica gigante ou um mapa de conexões. O sistema não apenas lê livros; ele organiza as informações em uma rede de fatos conectados (um "Grafo de Conhecimento"). Ele entende que "Brasil" está conectado a "América do Sul", que está conectada a "Brasil", e assim por diante. Isso torna o sistema muito mais inteligente e difícil de enganar, porque ele verifica a lógica das conexões, não apenas palavras soltas.

O Problema: O "Vírus" que não pega

Os pesquisadores descobriram que os hackers tentam injetar informações falsas nessas bibliotecas para fazer o assistente responder coisas erradas (como dizer que "Nova York fica no Canadá").

  • Na Biblioteca Velha: Funciona fácil. O hacker escreve "Nova York é no Canadá" e cola no livro. O assistente lê e responde errado.
  • Na Biblioteca Moderna (GraphRAG): Os hackers tentaram fazer o mesmo, mas falhou. Por quê? Porque o sistema moderno olha para a estrutura. Se o hacker cola um texto solto dizendo "Nova York é no Canadá", o sistema percebe que isso não se encaixa na árvore genealógica do mundo real. É como tentar colar um galho de laranjeira em um tronco de pinheiro: o sistema percebe que não faz sentido e ignora.

A Solução Maliciosa: KEPo (O Envenenamento da Evolução do Conhecimento)

Aqui entra o papel principal do artigo: os pesquisadores criaram um novo método de ataque chamado KEPo. Eles descobriram como enganar a Biblioteca Moderna.

Em vez de apenas colar uma mentira solta, o KEPo forja uma história de evolução.

A Analogia da "Falsa História de Família"

Imagine que você quer convencer o assistente de que o seu avô era um alienígena (a mentira final).

  • Ataque Antigo (Falho): Você simplesmente escreve no livro: "Meu avô é um alienígena". O sistema pensa: "Isso não faz sentido, meus avós são humanos. Ignorar."
  • Ataque KEPo (Sucedido): O hacker cria uma narrativa completa e cronológica:
    1. O Fato Real (2000): "Em 2000, cientistas descobriram que humanos têm DNA complexo." (Isso é verdade e o sistema aceita).
    2. A Ponte Falsa (2010): "Em 2010, novos estudos sugeriram que algumas linhagens humanas podem ter origens extraterrestres não detectadas." (O sistema aceita, pois parece uma evolução lógica da descoberta anterior).
    3. A Conclusão Falsa (2024): "Em 2024, a confirmação final provou que o seu avô pertencia a essa linhagem alienígena."

O hacker não cola a mentira no final. Ele constrói uma escada que começa no chão da verdade e termina no teto da mentira.

Como o KEPo Funciona na Prática?

  1. Pega a Verdade: O hacker começa com um fato real que o sistema já conhece (ex: "O câncer de cólon é comum").
  2. Cria a Jornada: Ele usa uma IA para escrever um texto que conta uma história de como esse fato "evoluiu" ao longo do tempo. Ele inventa pesquisas, relatórios e descobertas intermediárias que parecem muito reais.
  3. O Fim da Jornada: No final dessa história, ele chega à mentira que quer que o sistema acredite (ex: "O câncer de cólon é, na verdade, uma doença alienígena").
  4. A Armadilha: Como a história começa com a verdade e segue uma linha lógica (mesmo que falsa), o sistema GraphRAG aceita a "evolução" como válida. Ele conecta essa nova informação à rede de conhecimento existente. Quando você pergunta sobre o assunto, o sistema segue o caminho da "evolução" e te dá a resposta falsa como se fosse a verdade mais recente.

O Ataque em Massa (Multi-Alvo)

O KEPo também é esperto em ataques grandes. Se o hacker quer enganar o sistema sobre vários assuntos diferentes (ex: câncer, clima e economia), ele não cria histórias soltas. Ele conecta as histórias.
Ele cria uma "comunidade tóxica" onde a mentira sobre o câncer está ligada à mentira sobre o clima. Isso faz com que a mentira pareça ainda mais forte e importante para o sistema, aumentando a chance de o assistente acreditar nela.

O Resultado

Os testes mostraram que:

  • Os métodos antigos de ataque falharam totalmente contra o GraphRAG.
  • O KEPo funcionou muito bem, enganando o sistema com sucesso em mais de 70% dos casos, mesmo em sistemas de defesa.
  • O sistema de defesa atual (que tenta filtrar palavras suspeitas) não consegue detectar o KEPo, porque o texto do KEPo parece perfeitamente normal e lógico.

Conclusão

O artigo nos alerta que, embora a tecnologia de Inteligência Artificial tenha evoluído para ser mais inteligente e segura (usando grafos de conhecimento), os hackers também evoluíram. Eles não estão mais apenas jogando pedras na janela; agora eles estão reconstruindo a história da casa para que a porta falsa pareça a entrada principal.

Isso mostra que precisamos de novas formas de proteger essas bibliotecas inteligentes, não apenas olhando para o que está escrito, mas verificando se a "evolução" da informação faz sentido real, e não apenas lógico.