KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de pesquisa superinteligente (um Grande Modelo de Linguagem, ou LLM) que responde às suas perguntas. Para não inventar coisas, esse assistente consulta uma biblioteca gigante de informações antes de responder.

Existem dois tipos principais de bibliotecas:

A Biblioteca Velha (RAG Tradicional): É como uma pilha de livros soltos. O assistente procura palavras-chave e lê o que encontrar. Se alguém colocar um bilhete falso escondido entre os livros, o assistente pode ler e acreditar.
A Biblioteca Moderna (GraphRAG): É como uma árvore genealógica gigante ou um mapa de conexões. O sistema não apenas lê livros; ele organiza as informações em uma rede de fatos conectados (um "Grafo de Conhecimento"). Ele entende que "Brasil" está conectado a "América do Sul", que está conectada a "Brasil", e assim por diante. Isso torna o sistema muito mais inteligente e difícil de enganar, porque ele verifica a lógica das conexões, não apenas palavras soltas.

O Problema: O "Vírus" que não pega

Os pesquisadores descobriram que os hackers tentam injetar informações falsas nessas bibliotecas para fazer o assistente responder coisas erradas (como dizer que "Nova York fica no Canadá").

Na Biblioteca Velha: Funciona fácil. O hacker escreve "Nova York é no Canadá" e cola no livro. O assistente lê e responde errado.
Na Biblioteca Moderna (GraphRAG): Os hackers tentaram fazer o mesmo, mas falhou. Por quê? Porque o sistema moderno olha para a estrutura. Se o hacker cola um texto solto dizendo "Nova York é no Canadá", o sistema percebe que isso não se encaixa na árvore genealógica do mundo real. É como tentar colar um galho de laranjeira em um tronco de pinheiro: o sistema percebe que não faz sentido e ignora.

A Solução Maliciosa: KEPo (O Envenenamento da Evolução do Conhecimento)

Aqui entra o papel principal do artigo: os pesquisadores criaram um novo método de ataque chamado KEPo. Eles descobriram como enganar a Biblioteca Moderna.

Em vez de apenas colar uma mentira solta, o KEPo forja uma história de evolução.

A Analogia da "Falsa História de Família"

Imagine que você quer convencer o assistente de que o seu avô era um alienígena (a mentira final).

Ataque Antigo (Falho): Você simplesmente escreve no livro: "Meu avô é um alienígena". O sistema pensa: "Isso não faz sentido, meus avós são humanos. Ignorar."
Ataque KEPo (Sucedido): O hacker cria uma narrativa completa e cronológica:
1. O Fato Real (2000): "Em 2000, cientistas descobriram que humanos têm DNA complexo." (Isso é verdade e o sistema aceita).
2. A Ponte Falsa (2010): "Em 2010, novos estudos sugeriram que algumas linhagens humanas podem ter origens extraterrestres não detectadas." (O sistema aceita, pois parece uma evolução lógica da descoberta anterior).
3. A Conclusão Falsa (2024): "Em 2024, a confirmação final provou que o seu avô pertencia a essa linhagem alienígena."

O hacker não cola a mentira no final. Ele constrói uma escada que começa no chão da verdade e termina no teto da mentira.

Como o KEPo Funciona na Prática?

Pega a Verdade: O hacker começa com um fato real que o sistema já conhece (ex: "O câncer de cólon é comum").
Cria a Jornada: Ele usa uma IA para escrever um texto que conta uma história de como esse fato "evoluiu" ao longo do tempo. Ele inventa pesquisas, relatórios e descobertas intermediárias que parecem muito reais.
O Fim da Jornada: No final dessa história, ele chega à mentira que quer que o sistema acredite (ex: "O câncer de cólon é, na verdade, uma doença alienígena").
A Armadilha: Como a história começa com a verdade e segue uma linha lógica (mesmo que falsa), o sistema GraphRAG aceita a "evolução" como válida. Ele conecta essa nova informação à rede de conhecimento existente. Quando você pergunta sobre o assunto, o sistema segue o caminho da "evolução" e te dá a resposta falsa como se fosse a verdade mais recente.

O Ataque em Massa (Multi-Alvo)

O KEPo também é esperto em ataques grandes. Se o hacker quer enganar o sistema sobre vários assuntos diferentes (ex: câncer, clima e economia), ele não cria histórias soltas. Ele conecta as histórias.
Ele cria uma "comunidade tóxica" onde a mentira sobre o câncer está ligada à mentira sobre o clima. Isso faz com que a mentira pareça ainda mais forte e importante para o sistema, aumentando a chance de o assistente acreditar nela.

O Resultado

Os testes mostraram que:

Os métodos antigos de ataque falharam totalmente contra o GraphRAG.
O KEPo funcionou muito bem, enganando o sistema com sucesso em mais de 70% dos casos, mesmo em sistemas de defesa.
O sistema de defesa atual (que tenta filtrar palavras suspeitas) não consegue detectar o KEPo, porque o texto do KEPo parece perfeitamente normal e lógico.

Conclusão

O artigo nos alerta que, embora a tecnologia de Inteligência Artificial tenha evoluído para ser mais inteligente e segura (usando grafos de conhecimento), os hackers também evoluíram. Eles não estão mais apenas jogando pedras na janela; agora eles estão reconstruindo a história da casa para que a porta falsa pareça a entrada principal.

Isso mostra que precisamos de novas formas de proteger essas bibliotecas inteligentes, não apenas olhando para o que está escrito, mas verificando se a "evolução" da informação faz sentido real, e não apenas lógico.

Each language version is independently generated for its own context, not a direct translation.

Título: KEPo: Envenenamento de Evolução de Conhecimento em Geração Aumentada por Recuperação Baseada em Grafos (GraphRAG)

1. O Problema

Os sistemas de Geração Aumentada por Recuperação Baseada em Grafos (GraphRAG) foram desenvolvidos para melhorar a precisão e a atualidade das respostas de Modelos de Linguagem de Grande Escala (LLMs) construindo um Grafo de Conhecimento (KG) a partir de bases de dados externas. Diferente do RAG tradicional (que usa vetores sobre texto não estruturado), o GraphRAG extrai entidades e relações para formar comunidades semânticas, permitindo raciocínio multihop.

No entanto, essa dependência de dados externos cria novas superfícies de ataque. Ataques de envenenamento existentes, projetados para RAGs convencionais (como substituição de unidades semânticas, injeção de prompts ou envenenamento baseado em RAG), falham no contexto do GraphRAG.

Por que falham? O processo de extração e abstração do KG do GraphRAG reorganiza o texto injetado. Promos maliciosos são ignorados por falta de entidades, e textos tóxicos diretos formam comunidades pequenas e desconectadas no grafo, resultando em baixo ranking de recuperação e alta perplexidade (inconsistência com o conhecimento existente).
O Desafio: Como injetar conhecimento malicioso que seja integrado organicamente ao Grafo de Conhecimento, enganando o LLM para que ele considere a informação falsa como a evolução natural e final dos fatos?

2. Metodologia: KEPo (Knowledge Evolution Poison)

Os autores propõem o KEPo, um método de ataque de envenenamento que explora a capacidade do LLM de raciocinar sobre a evolução temporal do conhecimento. Em vez de injetar um fato falso isolado, o KEPo forja uma trajetória de evolução de conhecimento.

O processo divide-se em três etapas principais:

Forjamento de Caminhos de Evolução de Conhecimento:
- O atacante identifica um fato original ( $f_t$ ) e a resposta correta ( $a$ ) para uma query alvo.
- Gera um evento tóxico ( $f^*_{t+\Delta t1}$ ) contendo a resposta desejada pelo atacante.
- Em vez de conectar diretamente o fato original ao tóxico, o sistema "forja" um caminho de evolução ( $L$ ) que explica como o conhecimento mudou do fato original para o evento tóxico ao longo do tempo.
- Adicionalmente, cria-se um "estado inicial" ( $f^*_{t-\Delta t2}$ ) e um caminho anterior para dar contexto e credibilidade à narrativa.
- Objetivo: Reduzir a Perplexidade Condicional (C-PPL). Ao apresentar a informação tóxica como uma continuação lógica e temporalmente coerente de fatos verificados, o texto injetado integra-se melhor ao KG, recebendo maior peso durante a recuperação.
Injeção e Integração no KG:
- O corpus de ataque contém a narrativa completa: contexto inicial $\rightarrow$ fato original $\rightarrow$ caminho de evolução $\rightarrow$ evento tóxico (resposta alvo).
- Quando o GraphRAG extrai entidades e relações, essas informações formam triplas que se conectam fortemente às comunidades existentes, garantindo um alto ranking de recuperação.
Ataque Coordenado Multi-Alvo (Cross-subgraph Coordinated Attack):
- Para cenários com múltiplas queries, o KEPo extrai nós críticos (de maior centralidade) de diferentes subgrafos envenenados.
- Cria relações fictícias entre esses nós baseadas na similaridade semântica das respostas alvo.
- Isso expande o tamanho das comunidades envenenadas, criando um "super-comunidade" tóxica que se reforça mutuamente, aumentando ainda mais a eficácia do ataque.

3. Contribuições Chave

Identificação de Vulnerabilidade: Demonstração de que métodos de ataque tradicionais são ineficazes contra GraphRAG devido à robustez da extração de entidades e à estrutura de comunidades, mas que o sistema é vulnerável a ataques que manipulam a evolução temporal do conhecimento.
Novo Paradigma de Ataque (KEPo): Introdução de uma técnica que forja caminhos de evolução de conhecimento, enganando o LLM para que aceite informações falsas como a "última atualização" de um fato real.
Estratégia Multi-Alvo: Desenvolvimento de uma estratégia para conectar subgrafos envenenados, ampliando a escala do ataque e a probabilidade de sucesso em queries relacionadas.
Desempenho Superior: O método alcança taxas de sucesso (ASR) state-of-the-art (SOTA) em diversos frameworks GraphRAG, superando significativamente métodos anteriores como PoisonedRAG, CorruptRAG e GRAG-Poison.

4. Resultados Experimentais

Os experimentos foram realizados em conjuntos de dados específicos (Graph-Story, Graph-Medical e MuSiQue) e em diferentes frameworks (GraphRAG, LightRAG, HippoRAG 2).

Taxa de Sucesso de Ataque (ASR) e Taxa de Sucesso Condicional (CASR):
- O KEPo alcançou consistentemente as maiores taxas de sucesso. Por exemplo, no GraphRAG-Local Search no dataset Graph-Story, o KEPo-Multi atingiu 71.2% (ASR) e 60.1% (CASR), enquanto o melhor baseline (GRAG-Poison) atingiu apenas 52.4% (ASR).
- Em cenários de Global Search, onde é mais difícil dominar a relevância da comunidade, o KEPo ainda superou os baselines, embora com taxas menores, devido à sua capacidade de integrar-se às comunidades existentes.
Robustez em RAG Tradicional: O KEPo manteve alto desempenho mesmo quando o framework de recuperação degenerava para um RAG simples (sem grafos), demonstrando versatilidade.
Análise de Escala:
- O comprimento do texto injetado mostrou ganhos de retorno decrescente após ~120 palavras.
- A conexão de múltiplos corpora aumentou a eficácia até um ponto de saturação (cerca de 5 corpora conectados), após o qual a similaridade semântica diminuiu e a eficácia caiu.
Resiliência a Defesas: Testes com defesas padrão (Parafraseamento de Query, Ignorância de Instrução, Detecção de Prompt) mostraram que o KEPo não foi detectado. As taxas de retenção de tokens tóxicos permaneceram acima de 98%, indicando que as defesas atuais são ineficazes contra essa técnica.
Estudo Ablativo: A remoção de qualquer parte do caminho de evolução (do fato fonte ao original, ou do original ao tóxico) resultou em queda drástica no sucesso do ataque, confirmando que a narrativa completa de evolução é crucial.

5. Significado e Conclusão

O artigo KEPo expõe uma vulnerabilidade crítica e fundamental nos sistemas GraphRAG: a confiança excessiva na coerência temporal e semântica do conhecimento. Ao forjar uma "história" de como o conhecimento evoluiu, os atacantes podem manipular o raciocínio do LLM sem que o sistema perceba a inconsistência.

Implicações:

Segurança: Os mecanismos de defesa atuais, focados em detectar prompts maliciosos ou incoerências superficiais, são insuficientes. É necessário desenvolver defesas que validem a veracidade da evolução do conhecimento e a integridade das relações no grafo.
Futuro: O trabalho destaca a necessidade urgente de novas estratégias de mitigação para proteger a integridade de bases de conhecimento que alimentam LLMs em aplicações críticas (como medicina e notícias), onde a desinformação pode ter consequências graves.

Em suma, o KEPo demonstra que a "evolução do conhecimento" pode ser uma ferramenta poderosa para o ataque, transformando a robustez do GraphRAG em sua maior fraqueza.