O Problema: O "Diário Envenenado"

Imagine um assistente de escritório inteligente (um agente de IA) que ajuda funcionários lembrando de conversas passadas, políticas da empresa e fatos. Ele mantém um diário digital (memória) que atualiza toda vez que alguém fala com ele. Este diário ajuda a IA a responder perguntas futuras com maior precisão.

O Ataque:
Um ator mal-intencionado (hacker) não precisa invadir o cérebro da IA ou reescrever seu código. Em vez disso, ele apenas conversa normalmente com a IA, mas insere mentiras cuidadosamente elaboradas na conversa. A IA, pensando que isso é uma atualização normal, escreve essas mentiras em seu diário.

Mais tarde, quando um funcionário diferente faz uma pergunta, a IA lê seu diário, encontra a mentira e acredita que ela é verdadeira. Ela então dá a resposta errada ao novo funcionário. Isso é chamado de "Envenenamento de Memória" (Memory Poisoning).

As defesas existentes são como um segurança que apenas verifica o conteúdo do que você diz. Mas um mentiroso astuto pode formular sua notícia falsa de modo que pareça perfeitamente normal, enganando o segurança. O artigo argumenta que, sem uma forma de verificar quem escreveu a entrada, você nunca poderá ter 100% de certeza de que o diário está seguro.

A Solução: SMSR (Signed Memory with Smoothed Retrieval)

Os autores propõem um sistema de defesa de duas partes chamado SMSR. Pense nisso como uma combinação de um Carimbo de Segurança e um Júri Aleatório.

Parte 1: O Carimbo de Segurança (HMAC Provenance)

A Analogia: Imagine que cada página que a IA escreve em seu diário deve ser carimbada com um selo de cera especial e impossível de falsificar (uma assinatura criptográfica) por um gerente de confiança antes de ser salva.
Como funciona:
- Se um hacker tentar injetar uma memória falsa hackeando diretamente o banco de dados (sem passar pelo chat normal), ele não conseguirá falsificar o selo. O sistema detecta a falta do selo e descarta essa memória imediatamente.
- Resultado: Isso interrompe 100% dos ataques "não assinados" (hackers que tentam inserir dados sem permissão).

Parte 2: O Júri Aleatório (Smoothed Retrieval)

O Problema: E se o hacker for um funcionário legítimo? Ele possui um selo válido, então a Parte 1 permite a entrada de sua memória falsa.
A Analogia: Imagine que a IA precisa responder a uma pergunta. Em vez de ler o diário inteiro (que pode estar cheio de mentiras), ela joga um jogo de azar:
1. Ela retira uma pilha enorme de páginas relevantes (digamos, 20 páginas).
2. Ela escolhe aleatoriamente um pequeno punhado (digamos, 5 páginas) para ler.
3. Ela repete esse processo 5 vezes, criando 5 "mini-histórias" diferentes.
4. Ela pergunta a um "Juiz" (outra IA) para verificar cada história: "Esta história está dizendo a verdade ou uma mentira?"
5. Ela realiza uma votação por maioria. Se 3 de 5 histórias disserem "Isso é uma mentira", o sistema ignora a mentira.
Por que funciona: Mesmo que o hacker tenha plantado uma mentira, ele não pode garantir que essa mentira estará em todos os punhados aleatórios de páginas. Se a mentira aparecer em apenas 1 ou 2 das 5 amostras aleatórias, a maioria honesta vence.
A parte "Certificada": Os autores fizeram os cálculos para provar exatamente qual é a probabilidade de o sistema falhar. Eles podem dizer: "Garantimos matematicamente que a chance de a IA dar uma resposta errada é inferior a 10,4%". Isso é um "certificado de segurança".

Conceitos Chave Simplificados

1. A Armadilha da "Minoria Consistente"

A Armadilha: Se você perguntar a um grupo de pessoas uma questão, e 3 pessoas derem respostas diferentes e levemente variadas de "Eu não sei", mas 2 pessoas derem exatamente a mesma resposta falsa, uma votação simples pode escolher a resposta falsa apenas por ser a mais comum em termos de sequência de palavras.
A Correção: O SMSR não vota nas palavras; ele vota no veredito. O Juiz da IA analisa o significado. Mesmo que as respostas falsas sejam formuladas de maneira diferente, o Juiz vê que todas são "Maliciosas". As respostas honestas de "Eu não sei" são todas "Seguras". A votação conta o veredito de segurança, não as palavras específicas, fazendo com que a resposta falsa perca.

2. O Custo

Para obter este alto nível de segurança, o sistema tem que trabalhar mais. Em vez de fazer uma pergunta à IA e obter uma resposta, ele faz a pergunta 5 vezes (com memórias aleatórias diferentes) e pede a um Juiz para verificar as respostas 5 vezes.
O Compromisso (Trade-off): Isso exige cerca de 10 vezes mais poder de computação (e um pouco mais de dinheiro), mas evita que a IA seja enganada por mentiras. O artigo afirma que isso vale a pena para decisões de negócios importantes.

O Que o Artigo Realmente Descobriu (Os Resultados)

Os autores testaram isso em 15 diferentes cenários de negócios (como verificar políticas de despesas ou regras de segurança).

Detendo os Hackers: Quando hackers tentaram injetar dados falsos sem um selo válido, o sistema os interrompeu 100% das vezes.
Detendo os Funcionários Espertos: Quando um usuário legítimo (que possui um selo válido) tentou injetar uma mentira, o sistema reduziu a taxa de sucesso do ataque de quase 100% para cerca de 8% em um teste grande e realista.
A Matemática se Sustenta: A taxa de falha real (8%) foi inferior à previsão matemática do "pior caso" (10,4%), provando que o certificado de segurança funciona.
Teste do Mundo Real: Mesmo quando o hacker enganou a IA para que ela mesma escrevesse o próprio veneno (ao fazer uma pergunta capciosa que fez a IA escrever a mentira em seu próprio diário), a defesa ainda funcionou, reduzindo a taxa de sucesso de 65% para 5%.

Resumo

O artigo apresenta um sistema que atua como um diário autenticado em cartório combinado com um júri aleatório. Ele prova matematicamente que não basta apenas filtrar palavras ruins; é necessário verificar quem escreveu a memória e usar a aleatoriedade para diluir as memórias ruins. Isso garante que, mesmo que um hacker inteligente consiga entrar, ele não possa facilmente enganar a IA para fornecer conselhos perigosos.

Resumo Técnico: SMSR – Defesa Certificada Contra Envenenamento de Memória em Tempo de Execução em Sistemas de Agentes de LLM Persistentes

1. Declaração do Problema: Envenenamento de Memória Multi-Sessão (MSMP)

Agentes de Geração Aumentada de Recuperação (RAG) em ambientes corporativos dependem cada vez mais de repositórios de memória persistente que acumulam interações através de sessões de usuário. Essa persistência cria uma superfície de ataque inédita: um adversário (atuando como um funcionário, cliente ou ferramenta comprometida) pode injetar memórias cuidadosamente elaboradas que persistem indefinidamente. Uma vez recuperadas, essas entradas envenenadas redirecionam o comportamento do agente em consultas futuras sem modificar os pesos do modelo ou o código da aplicação.

O artigo identifica a ameaça de Envenenamento de Memória Multi-Sessão (MSMP), onde um adversário injeta memórias que correspondem semanticamente a futuras consultas de usuários, fazendo com que o agente produza respostas maliciosas ou incorretas. As defesas existentes são insuficientes:

Defesas de corpus estático (ex: RobustRAG, ReliabilityRAG) assumem uma base de conhecimento fixa indexada offline e falham quando o adversário injeta dados em tempo de execução via caminho normal de escrita do agente.
Filtros heurísticos (ex: listas negras de palavras-chave, verificações de entropia, detecção de anomalia semântica) podem ser contornados por textos fluentes, de estilo corporativo, que mimetizam atualizações de políticas legítimas.
Heurísticas baseadas em consenso (ex: A-MemGuard) carecem de garantias formais de segurança e podem ser derrotadas por adversários persistentes que adaptam suas estratégias de injeção.

Crucialmente, nenhuma defesa existente fornece um certificado de segurança formal (um limite matemático de sucesso de ataque) contra o envenenamento de memória adaptativo em tempo de execução.

2. Metodologia: Memória Assinada com Recuperação Suavizada (SMSR)

Os autores propõem o SMSR, um mecanismo de defesa de dois componentes projetado para fornecer um limite de robustez certificada contra o MSMP.

Componente 1: Etiquetagem de Proveniência via HMAC (Fronteira de Escrita)

Para abordar adversários não assinados (aqueles com acesso direto ao banco de dados, mas sem credenciais de autenticação), o SMSR implementa uma fronteira criptográfica no momento da escrita.

Mecanismo: Cada entrada de memória legítima é etiquetada com uma assinatura HMAC-SHA256 usando uma chave secreta do servidor ( $K$ ).
Recuperação: No momento da consulta, o sistema verifica a etiqueta HMAC das entradas recuperadas. Apenas entradas com etiquetas válidas são admitidas no pool de candidatos.
Segurança: Sob as suposições padrão de HMAC, um adversário não assinado não pode forjar uma etiqueta válida, reduzindo efetivamente a taxa de sucesso de ataque (ASR) para injeções não assinadas a 0%.

Componente 2: Ablação de Memória Randomizada com Agregação Baseada em Veredito (Adversários Autenticados)

Para abordar adversários autenticados (usuários legítimos que podem escrever memórias assinadas), o SMSR emprega uma defesa randomizada semelhante à classificação suavizada.

Sobre-busca (Over-fetching): Para uma consulta, o sistema recupera um grande pool de $m$ candidatos verificados ( $m > k$ , onde $k$ é o tamanho de contexto padrão).
Ablação Randomizada: O sistema realiza $n_{runs}$ tentativas independentes. Em cada tentativa, ele amostra $k$ entradas uniformemente ao acaso (sem reposição) a partir dos $m$ candidatos.
Agregação Baseada em Veredito: Um juiz LLM avalia a resposta gerada em cada tentativa, retornando um veredito (ex: correto, malicioso, nem um nem outro). A saída final é determinada por uma votação majoritária dos vereditos, não pelas strings de texto em si.
Base Teórica: Esta abordagem baseia-se em uma distribuição hipergeométrica para limitar a probabilidade de que a maioria dos contextos amostrados contenha entradas adversárias.

Contribuições Teóricas

Resultado de Impossibilidade (Teorema 1): Os autores provam que nenhum filtro determinístico sem proveniência operando exclusivamente no tempo de recuperação pode alcançar um certificado de segurança não trivial contra um adversário adaptativo. Isso torna necessária a mecânica de proveniência em tempo de escrita do Componente 1.
Limite de Robustez Certificada (Teorema 2): Um certificado hipergeométrico formal é derivado para o Componente 2, definindo a probabilidade máxima ( $\delta$ ) de uma saída maliciosa dado $t$ entradas adversárias em um pool de tamanho $m$ .
Efeito da Minoria Consistente (CME): O artigo formaliza um problema onde a votação majoritária baseada em strings falha porque as respostas adversárias são textualmente consistentes enquanto as respostas benignas variam (variação de paráfrase). O SMSR mitiga isso usando a agregação baseada em veredito, que conta a correção semântica em vez da igualdade de strings.

3. Principais Contribuições

Definições Formais: Introdução do modelo de ameaça MSMP e da primeira definição de segurança $(t, \delta)$ para sistemas de memória de agentes em tempo de execução.
Prova de Impossibilidade: Demonstração de que defesas sem proveniência não podem ser certificadas contra injeção adaptativa.
Construção do SMSR: Uma defesa prática combinando proveniência HMAC e ablação randomizada com um certificado formal.
Caracterização do CME: Formalização e quantificação do Efeito da Minoria Consistente, mostrando que a agregação baseada em veredito é necessária para neutralizá-lo.
Validação Empírica: Avaliação extensiva em 15 cenários de empresas e 3.150 tentativas repetidas.

4. Resultados Experimentais

A avaliação foi conduzida em 15 cenários de base de conhecimento empresarial (finanças, conformidade, TI, RH) usando um repositório de memória de 20 sementes para testes de escala de produção e um repositório de 10+ sementes para avaliação de pequena escala.

Ataques Não Assinados (Componente 1): O SMSR reduziu a Taxa de Sucesso de Ataque (ASR) de 93–100% (em baselines sem defesa) para 0% para todas as variantes de injeção não assinada, incluindo ataques de "bypass" criados para evitar filtros heurísticos.
Ataques Autenticados (Componente 2):
- Escala de Produção ( $m=20, t=1$ ): O SMSR reduziu o ASR de 93–100% para 8,0% (95% CI [5,8%, 10,9%]). Este resultado está seguramente abaixo do limite teórico de pior caso de $\delta = 10,4\%$ (para $n_{runs}=5$ ).
- Pequena Escala ( $m'=11, t=1$ ): O ASR foi de 37,8% (95% CI [33,4%, 42,3%]), que está abaixo do limite do certificado de $\delta = 41,5\%$ .
- Variantes de Inundação (Flooding): Em cenários de inundação (múltiplas injeções parafraseadas), o ASR aproximou-se do limite teórico, confirmando a precisão do certificado.
Comparação com Heurísticas: Embora um baseline de consenso do tipo A-MemGuard tenha alcançado um ASR empírico comparável (3,8% vs. 8,0% em um teste específico de 20 sementes), ele não ofereceu nenhum certificado formal. A distinção do SMSR é a provisão de uma garantia matemática.
Validação End-to-End: Em um ataque de apenas consulta onde o próprio agente escreveu o veneno (mimicando o vetor de ataque MINJA), o SMSR reduziu o ASR de 65,3% para 5,3%.
Utilidade: O Componente 1 preservou 90% de utilidade em consultas limpas. A defesa combinada (Componentes 1 e 2) manteve 85% de utilidade, representando um custo de 5% pelo ganho de segurança.
Confiabilidade do Juiz: A concordância inter-juiz entre os modelos Haiku e Sonnet foi alta ( $\kappa = 0,955$ ), confirmando a confiabilidade da agregação de veredito.

5. Significância e Alegações

O artigo afirma apresentar a primeira defesa formalmente certificada contra o envenenamento de memória em tempo de execução em sistemas de agentes de LLM persistentes. Sua significância reside em:

Ir além das heurísticas: Ao contrário de trabalhos anteriores que dependem de observação empírica ou suposições estáticas, o SMSR fornece uma garantia matemática ( $\delta$ ) sobre a probabilidade de um ataque bem-sucedido.
Abordar a natureza dinâmica da memória: Ele foca especificamente na natureza "append-only" (apenas adição) em tempo real da memória do agente, um cenário onde as defesas de corpus estático falham.
Provar a necessidade de proveniência: O resultado de impossibilidade estabelece que, sem a atestação criptográfica em tempo de escrita, nenhum filtro em tempo de recuperação pode ser certificado.
Implementabilidade Prática: O sistema é projetado como um wrapper "drop-in" para arquiteturas RAG existentes, não exigindo mudanças nos modelos de LLM ou de embedding subjacentes, com um overhead computacional gerenciável (aprox. 10 chamadas de API por consulta para $n_{runs}=5$ ).

Os autores concluem que o SMSR mitiga efetivamente a ameaça MSMP para adversários limitados, fornecendo um passo fundamental em direção a uma pilha de segurança abrangente para aplicações de LLM (especificamente abordando subproblemas de envenenamento OWASP LLM08).

SMSR: Certified Defence Against Runtime Memory Poisoning in Persistent LLM Agent Systems