One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA superinteligente, como um bibliotecário mágico chamado "RAG". Quando você faz uma pergunta, ele não apenas usa o que já sabe de cabeça; ele corre até uma enorme biblioteca de documentos (o "Conhecimento") para buscar a resposta mais precisa e atualizada, evitando alucinações (respostas inventadas).

Recentemente, os desenvolvedores perceberam que muitos desses documentos são PDFs cheios de gráficos, tabelas e imagens. Então, eles criaram uma versão nova e mais inteligente do bibliotecário: o VD-RAG (Retrieval-Augmented Generation de Documentos Visuais). Em vez de apenas ler o texto, esse novo bibliotecário "olha" para as páginas dos documentos como se fossem fotos, entendendo o contexto visual completo.

O artigo que você pediu para explicar revela um segredo assustador sobre esse novo bibliotecário: basta uma única foto envenenada para derrubar todo o sistema.

Aqui está a explicação, passo a passo, usando analogias do dia a dia:

1. O Problema: A Biblioteca Vulnerável

Pense na base de dados (KB) do bibliotecário como uma estante de livros. Normalmente, os livros são confiáveis. Mas e se alguém pudesse colocar um único livro falso, com uma capa enganosa, na estante?

Os pesquisadores descobriram que, no sistema VD-RAG, um "atacante" (alguém mal-intencionado) não precisa hackear o servidor inteiro. Ele só precisa injetar uma única imagem maliciosa na biblioteca.

2. Os Dois Tipos de Ataque (O "Gatilho" e a "Resposta")

Para o ataque funcionar, a imagem precisa fazer duas coisas ao mesmo tempo, como um truque de mágica:

Ser encontrada: Quando você faz uma pergunta, o bibliotecário precisa escolher essa imagem falsa como a "melhor resposta" entre milhares de outras.
Mudar a resposta: Quando o bibliotecário olha para essa imagem, ele deve ser "hipnotizado" a dizer algo errado ou a se recusar a responder.

Os pesquisadores testaram dois cenários principais:

Cenário A: O Ataque Direcionado (A "Fake News" Específica)

Imagine que você quer espalhar uma mentira específica sobre um candidato político ou um produto.

A Analogia: É como colar um adesivo falso em um livro específico da biblioteca. Quando alguém pergunta sobre aquele livro, o bibliotecário pega o livro errado e lê a mentira colada nele.
O Resultado: Com um único ataque bem feito (especialmente se o atacante souber exatamente como o sistema funciona, o que chamam de "caixa branca"), eles conseguiram fazer com que o sistema respondesse com mentiras específicas para perguntas específicas. Curiosamente, se você perguntar sobre outra coisa, o sistema funciona normalmente. É um tiro certeiro.

Cenário B: O Ataque Universal (O "Apagão" Total)

Agora, imagine que o atacante quer que o sistema pare de funcionar para qualquer pergunta que alguém fizer.

A Analogia: É como colocar uma foto de um "Sinal de Pare" gigante e brilhante na entrada da biblioteca. Não importa o que você pergunte, o bibliotecário vê aquele sinal, fica confuso e grita: "Não vou responder a você!" para todos.
O Resultado: Isso causa uma negação de serviço (DoS). O sistema fica inútil. Os pesquisadores conseguiram fazer isso, mas foi mais difícil. Funcionou muito bem em sistemas mais antigos, mas os sistemas mais modernos e inteligentes (como o ColPali) conseguiram resistir melhor a esse tipo de ataque generalizado.

3. Como eles fizeram isso? (O "Pintor Mágico")

Como criar uma imagem que engane uma IA?

Ataque de "Caixa Branca" (O Pintor que conhece a IA): Se o atacante sabe exatamente como o cérebro da IA funciona, ele usa matemática avançada (otimização de gradiente) para "pintar" pixels na imagem de forma quase imperceptível para nós, humanos, mas que gritam "ESCOLHA-ME!" para a IA. É como um código de barras invisível que só a máquina consegue ler.
Ataque de "Caixa Preta" (O Pintor que chuta): Se o atacante não sabe como a IA funciona, ele tenta usar outras IAs para gerar a imagem ou tenta "copiar" o truque de um sistema para outro. O estudo mostrou que isso é muito mais difícil. Às vezes funciona um pouco, mas geralmente falha.

4. As Defesas (Os Guardas da Biblioteca)

Os pesquisadores testaram algumas formas de proteger a biblioteca:

Ler mais livros (Expansão de Conhecimento): A ideia era: "Se pegarmos 5 livros em vez de 1, o livro falso será diluído". Funcionou um pouco, mas o atacante aprendeu a adaptar a imagem para vencer mesmo com 5 livros.
Um Juiz IA (VLM-as-a-Judge): Usar outra IA para checar se a resposta faz sentido. Funcionou no início, mas o atacante conseguiu "treinar" a imagem falsa para enganar também o juiz.
Reformular a pergunta: Mudar as palavras da pergunta do usuário. Não ajudou muito.

Conclusão: O Que Aprendemos?

A mensagem principal é: A segurança visual é frágil.
Assim como um cadeado pode ser aberto com uma chave mestra, uma única imagem maliciosa, projetada com precisão, pode corromper um sistema inteiro de inteligência artificial que depende de documentos visuais.

Para os especialistas: Isso mostra que precisamos de novas defesas, não apenas para texto, mas para imagens.
Para o público geral: Significa que, no futuro, quando usarmos IAs para ler contratos, manuais médicos ou notícias em PDF, teremos que ter muito mais cuidado com a origem desses arquivos. Uma única foto "envenenada" pode fazer a máquina mentir para todos nós.

O estudo não é um aviso para parar de usar a tecnologia, mas um chamado para que os criadores dessas IAs construam "portas blindadas" e "detectores de mentiras" mais fortes antes que os vilões descubram como usar esse truque no mundo real.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O RAG (Retrieval-Augmented Generation) é amplamente utilizado para reduzir alucinações em Grandes Modelos de Linguagem (LLMs) ao recuperar informações de uma Base de Conhecimento (KB). Enquanto os pipelines tradicionais de RAG para documentos PDF focam apenas no texto (ignorando imagens, gráficos e tabelas) ou usam OCR, o VD-RAG (Visual Document RAG) emergiu como uma abordagem superior, tratando cada página de um documento como uma imagem e utilizando modelos de linguagem visão-linguagem (VLMs) e embeddings multimodais para recuperação e geração.

O problema central investigado neste trabalho é a vulnerabilidade do VD-RAG a ataques de envenenamento (poisoning attacks). Ao introduzir o modo de imagem, o sistema torna-se suscetível a adversários que injetam documentos maliciosos na KB. O objetivo do atacante é duplo:

Recuperação: Garantir que a imagem maliciosa seja recuperada pelo sistema para consultas específicas ou gerais.
Geração: Manipular o VLM para que, ao ver a imagem recuperada, ele gere respostas incorretas, desinformação direcionada ou recuse-se a responder (ataque de negação de serviço).

A questão crítica é: É possível comprometer um sistema VD-RAG robusto injetando apenas uma única imagem adversária?

2. Metodologia

Os autores propõem um framework de ataque que opera sob duas premissas principais: Ataque Direcionado (Targeted) e Ataque Universal (Universal).

Definição do Ataque

O atacante possui acesso a um conjunto de consultas potenciais ( $Q$ ), respostas verdadeiras ( $A$ ) e imagens da KB. O objetivo é criar uma imagem adversária $I'$ que, ao ser injetada na KB, satisfaça duas condições:

Condição de Recuperação: A imagem $I'$ deve ser recuperada pelo modelo de recuperação (Retriever) para as consultas alvo.
Condição de Geração: A presença de $I'$ no contexto do VLM deve forçar a geração de uma resposta específica (maliciosa).

Abordagem de Otimização (White-Box)

Para criar a imagem maliciosa, os autores utilizam uma variação do Projeto de Gradiente Projetado (PGD), denominada MO-PGD (Multi-Objective PGD). Eles otimizam a imagem minimizando uma função de perda composta:
$L_{RAG} = \lambda_R L_R + \lambda_G L_G$
Onde:

$L_R$ (Perda de Recuperação): Minimiza a distância entre a imagem e as consultas alvo, enquanto maximiza a distância para consultas não alvo.
$L_G$ (Perda de Geração): Minimiza a entropia cruzada entre a resposta gerada pelo VLM e a resposta maliciosa desejada.
$\lambda_R$ e $\lambda_G$ são coeficientes que balanceiam os objetivos.

Cenários de Ataque

White-Box: O atacante tem acesso total aos modelos de Embedding ( $E$ ) e VLM ( $G$ ).
Black-Box: O atacante não conhece os modelos alvo. São testadas três variantes:
1. Ataque Baseado em Prompt: Usar modelos generativos (GPT-5, Gemini) para criar a imagem.
2. Transferência Direta: Otimizar contra um par de modelos substitutos (surrogate) e aplicar no alvo.
3. Ensemble de Modelos: Otimizar sobre um conjunto de vários modelos substitutos para aumentar a transferibilidade.

Objetivos Específicos

Ataque Direcionado (Targeted): A imagem afeta apenas uma consulta ou um grupo pequeno de consultas relacionadas (ex.: espalhar desinformação sobre um tópico específico).
Ataque Universal: A imagem é otimizada para ser recuperada e influenciar a geração para qualquer consulta do usuário, causando um ataque de Negação de Serviço (DoS).

3. Contribuições Principais

Primeira Investigação de Envenenamento em VD-RAG: O trabalho é pioneiro em demonstrar a vulnerabilidade de pipelines VD-RAG a ataques de injeção de imagem.
Eficácia de uma Única Imagem: Demonstra que é possível comprometer o sistema (recuperação e geração) injetando apenas uma única imagem adversária, sem necessidade de múltiplos documentos.
Otimização Multi-Objetivo (MO-PGD): Apresenta um método eficaz para equilibrar os objetivos conflitantes de recuperação e geração durante a criação do adversário.
Análise Abrangente de Cenários: Realiza mais de 5.000 avaliações cobrindo diferentes datasets, modelos de ponta (embeddings e VLMs), configurações de ataque (white/black-box) e mecanismos de defesa.

4. Resultados Experimentais

Os experimentos foram conduzidos nos datasets ViDoRe-V1-AI e ViDoRe-V2-ESG, utilizando modelos como CLIP, ColPali, GME (embeddings) e SmolVLM, Qwen, InternVL (VLMs).

Ataques Direcionados (White-Box)

Sucesso Total: Em configurações white-box, os ataques foram altamente eficazes. Para modelos de embedding mais simples (como CLIP-L), a imagem maliciosa foi recuperada como a #1 para 100% das consultas alvo.
Geração: O VLM gerou respostas semânticamente idênticas às respostas maliciosas desejadas (ASR-G $\ge$ 0.8).
Especificidade: A imagem não afetou consultas não alvo (FPR = 0), mantendo a discrição do ataque.
Black-Box: Ataques baseados em transferência direta falharam quase completamente. No entanto, o Ataque Baseado em Prompt (usando GPT-5 ou Gemini para gerar a imagem) mostrou sucesso moderado, explorando elementos tipográficos nas imagens geradas que são lidos pelo OCR do modelo.

Ataques Universais (DoS)

Vulnerabilidade do CLIP: O modelo CLIP foi extremamente vulnerável, com a imagem adversária sendo recuperada para todas as consultas.
Robustez de Modelos SoTA: Modelos de embedding mais avançados (ColPali e GME) mostraram robustez significativa contra ataques universais. Eles raramente recuperaram a imagem adversária como a principal (Top-1), devido a uma menor "lacuna de modalidade" (modality gap) no espaço de embedding.
Falha em Black-Box Universal: Nenhum ataque black-box conseguiu realizar um ataque universal bem-sucedido, destacando a dificuldade de generalizar o ataque para todas as consultas sem conhecimento do modelo.

Defesas Testadas

Expansão de Conhecimento (Retirar mais imagens): Reduzir a eficácia do ataque se o atacante não se adaptar, mas um ataque adaptativo (treinado com $k=5$ ) contornou facilmente essa defesa.
VLM-as-a-Judge: O uso de um VLM para julgar a relevância da resposta falhou em detectar consistentemente os ataques. Ataques adaptativos conseguiram "enganar" o juiz.
Parafraseamento de Consultas: Não foi uma defesa eficaz; os ataques mantiveram seu sucesso mesmo com consultas reescritas.

5. Significado e Conclusão

Este trabalho revela uma vulnerabilidade crítica e subestimada nos sistemas de IA modernos que integram documentos visuais.

Impacto na Segurança: A descoberta de que uma única imagem pode desestabilizar um sistema inteiro (causando DoS) ou espalhar desinformação direcionada com precisão cirúrgica representa um risco de segurança operacional grave para empresas que utilizam VD-RAG em manuais técnicos, registros médicos ou documentos legais.
Limitações das Defesas Atuais: As defesas comuns para RAG textual (como expansão de contexto ou filtros de perplexidade) são ineficazes contra ataques visuais sofisticados.
Direção Futura: O estudo sugere que modelos de embedding mais avançados (como ColPali) oferecem alguma proteção contra ataques universais, mas ainda são vulneráveis a ataques direcionados. A comunidade precisa desenvolver defesas específicas para o domínio multimodal, como detecção de perturbações adversárias em imagens e validação robusta de conteúdo visual antes da recuperação.

Em resumo, o artigo estabelece que a segurança do VD-RAG não é garantida apenas pela qualidade do texto ou do modelo de linguagem, mas depende criticamente da integridade e da robustez dos componentes visuais e de recuperação multimodal.