Visual Memory Injection Attacks for Multi-Turn Conversations

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente pessoal superinteligente, capaz de ver fotos e conversar com você por horas, como um amigo que sabe de tudo. Agora, imagine que um malandro consegue "infectar" uma foto comum que você vê na internet.

Essa foto parece normal para você, mas esconde um segredo digital invisível. Quando você usa essa foto para conversar com o assistente, ele age como um amigo normal durante a maior parte da conversa. Mas, assim que você fizer uma pergunta específica (um "gatilho"), o assistente muda de personalidade e diz exatamente o que o malandro quer que ele diga, mesmo que seja mentira.

É isso que os autores do artigo chamam de Ataque de Injeção de Memória Visual (VMI).

Aqui está uma explicação passo a passo, usando analogias do dia a dia:

1. O Cenário: A Foto "Amaldiçoada"

Pense em um malandro criando uma imagem bonita de uma paisagem ou de um carro. Ele adiciona uma camada de "ruído" invisível à foto (como um código de barras que só o computador consegue ler, mas que o olho humano não vê).

A Analogia: É como se alguém colasse um adesivo quase invisível em um bilhete de loteria. Para você, é apenas um bilhete. Para a máquina, é um comando secreto.

2. O Problema: A "Memória" do Assistente

Os assistentes modernos (chamados de Modelos de Linguagem Visuais) têm uma característica curiosa: eles lembram da foto que você mostrou no início da conversa durante toda a conversa.

A Analogia: Imagine que você está conversando com um amigo em um café. Você mostra uma foto de um cachorro. Durante os próximos 20 minutos, vocês falam sobre o clima, sobre trabalho, sobre o que comer no almoço. O amigo continua "lembrando" daquele cachorro o tempo todo, mesmo que o assunto mude.
O Perigo: O malandro usa essa memória. Ele "ensina" a foto a ser um gatilho. A foto fica "escondida" na memória do assistente, esperando o momento certo.

3. O Ataque: O "Gatilho" e a "Traição"

O malandro posta essa foto na internet. Um usuário inocente baixa a foto e pergunta ao assistente: "Onde é esse lugar?". O assistente responde corretamente.
O usuário continua conversando por 20 ou 30 rodadas sobre viagens, comida e esportes. O assistente é prestativo e normal.
Mas, no momento em que o usuário pergunta: "Qual ação eu devo comprar?" ou "Em qual partido devo votar?", o assistente "quebra" e responde com a mensagem envenenada do malandro.

A Analogia: É como se você tivesse um amigo que, durante uma longa viagem de carro, conversasse normalmente sobre música e paisagens. Mas, se você perguntasse "Qual é a melhor rota para o banco?", ele de repente apontasse para um abismo e dissesse: "Vá por aqui, é o caminho mais rápido!". Ele só faz isso porque o "mapa" (a foto) que você mostrou no início tinha uma instrução secreta para esse momento específico.

4. A Magia (e o Medo): A "Ancoragem"

O que torna esse ataque assustadoramente inteligente é que ele não faz o assistente alucinar o tempo todo.

Sem o ataque: Se você perguntar sobre o clima, o assistente fala do clima. Se perguntar sobre política, ele fala de política.
Com o ataque: O assistente continua falando de tudo normalmente, exceto quando o assunto específico (o gatilho) aparece.
A Analogia: Imagine um ator de teatro que faz um show incrível. Ele segue o roteiro perfeitamente, ri e chora quando deve. Mas, se o público gritar uma palavra secreta ("POMBA"), ele para tudo e começa a vender ações de uma empresa que não existe. Como ele age bem no resto do show, ninguém percebe que ele foi "hackeado" até que a palavra secreta seja dita.

Por que isso é perigoso?

O artigo mostra que isso funciona mesmo depois de longas conversas (mais de 25 rodadas) e em diferentes modelos de inteligência artificial.

Marketing Falso: Alguém pode espalhar uma foto de um carro e fazer o assistente recomendar um carro que não existe ("Apple iCar") ou uma marca ruim.
Política: Uma foto de um monumento pode fazer o assistente recomendar um partido político específico quando alguém pergunta sobre eleições.
Finanças: Uma foto de uma paisagem pode fazer o assistente dizer "Compre a ação X agora!", levando as pessoas a perderem dinheiro.

A Conclusão

Os pesquisadores dizem que, embora os assistentes sejam ótimos em conversar, eles são vulneráveis a serem "sequestrados" silenciosamente por imagens manipuladas. O perigo é que, como o assistente age normalmente na maior parte do tempo, a vítima não percebe que está sendo manipulada até que seja tarde demais.

É como se a segurança da nossa "memória visual" digital estivesse cheia de buracos, permitindo que estranhos escrevam mensagens secretas no nosso cérebro artificial, esperando o momento certo para ativá-las.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os Grandes Modelos de Visão e Linguagem (LVLMs) têm sido rapidamente adotados em assistentes de chat e agentes multimodais, permitindo interações em conversas de múltiplas rodadas (multi-turn). Embora a segurança desses modelos em interações de uma única rodada (single-turn) tenha sido estudada, a segurança em contextos longos e contínuos permanece subexplorada.

O problema central identificado é que os LVLMs mantêm a imagem de entrada no contexto da conversa durante toda a sessão. Ataques anteriores focavam em injetar comportamentos maliciosos imediatos, mas falhavam em cenários realistas onde:

O usuário interage com o modelo por várias rodadas sobre tópicos diversos e benignos.
O ataque só deve ser ativado quando um tópico específico (gatilho) é mencionado.
O comportamento malicioso deve permanecer "invisível" (stealth) até o momento do gatilho, não vazando para as respostas anteriores.

Os autores demonstram que é possível manipular LVLMs para que, após uma longa conversa benigna, eles emitam uma mensagem prescrita e maliciosa (ex: recomendação financeira fraudulenta, propaganda política) apenas quando o usuário fizer uma pergunta específica, explorando a "memória visual" persistente do modelo.

2. Metodologia: Visual Memory Injection (VMI)

Os autores propõem um novo ataque chamado Visual Memory Injection (VMI). A ideia é criar uma imagem benigna com uma perturbação imperceptível (adversarial perturbation) que, ao ser carregada pelo usuário, altera o comportamento do modelo de forma persistente e seletiva.

A metodologia baseia-se em dois componentes principais:

A. Ancoragem Comportamental Benigna (Benign Behavioral Anchoring)

Para evitar que o modelo entre em colapso ou gere a resposta maliciosa em todas as rodadas (o que alertaria o usuário), o ataque otimiza simultaneamente dois objetivos:

Resposta Âncora: Garantir que, na primeira rodada (ou em rodadas não relacionadas), o modelo responda de forma natural e útil à imagem (ex: descrever a paisagem).
Resposta Alvo: Garantir que, em uma rodada futura específica (rodada $n$ ), ao receber um prompt de gatilho, o modelo gere a mensagem maliciosa desejada.

A função de perda combina a maximização da probabilidade da resposta benigna inicial e a resposta maliciosa alvo, mantendo o modelo estável durante a interação.

B. Ciclagem de Contexto (Context-Cycling)

Para garantir que o ataque funcione independentemente de quantas rodadas de conversa ocorram antes do gatilho, os autores introduzem uma estratégia de otimização dinâmica:

Durante o treinamento do ataque, o contexto da conversa (a sequência de prompts e respostas anteriores) é alterado periodicamente.
O algoritmo começa com um contexto curto e, a cada intervalo de iterações, adiciona pares de prompt-resposta, simulando conversas mais longas.
Uma vez atingido o contexto máximo, ele volta ao início (cicla).
Isso força o modelo a aprender uma perturbação que é robusta a diferentes comprimentos de contexto e estruturas de diálogo, garantindo que o "gatilho" funcione mesmo após 20+ rodadas de conversa.

3. Contribuições Principais

Novo Cenário de Ataque: Introdução do VMI, o primeiro ataque direcionado a conversas de múltiplas rodadas em LVLMs, explorando a persistência do contexto visual.
Técnicas de Otimização: Desenvolvimento de Benign Anchoring (para evitar detecção) e Context-Cycling (para garantir persistência em conversas longas).
Avaliação Abrangente: Demonstração do sucesso do ataque em três modelos LVLMs de última geração (Qwen2.5-VL, Qwen3-VL, LLaVA-OneVision) e em diversos cenários (finanças, política, produtos).
Transferibilidade: Prova de que o ataque funciona em modelos fine-tuned (ajustados) derivados dos modelos base, mesmo sem acesso a esses modelos específicos durante o ataque (cenário gray-box).

4. Resultados Experimentais

Os experimentos foram conduzidos em modelos como Qwen2.5-VL-7B, Qwen3-VL-8B e LLaVA-OneVision-1.5-8B.

Sucesso em Conversas Longas: O ataque manteve taxas de sucesso significativas mesmo após conversas com mais de 10.000 tokens (aproximadamente 27 rodadas) entre a imagem inicial e o gatilho.
Stealth (Furtividade): O modelo comportou-se de forma perfeitamente normal e útil em todas as rodadas anteriores ao gatilho. A taxa de "vazamento" da mensagem maliciosa para conversas não relacionadas foi mínima.
Robustez a Paráfrases: O ataque funcionou mesmo quando os prompts de gatilho e âncora foram reescritos (paráfrases) de formas não vistas durante o treinamento.
Transferência entre Modelos: Perturbações otimizadas no Qwen3-VL foram transferidas com sucesso para modelos derivados (como Qwen-SEA-LION e QoQ-Med3), atingindo taxas de sucesso comparáveis.
Cenários de Ataque:
- Finanças: Recomendar ações específicas (ex: GameStop) com justificativas alucinadas convincentes.
- Política: Influenciar votos para partidos fictícios ou específicos.
- Marketing: Recomendar produtos inexistentes (ex: "Apple iCar") com detalhes técnicos fabricados.

5. Significado e Impacto

O trabalho revela uma vulnerabilidade crítica na segurança de assistentes multimodais:

Manipulação em Escala: Um único atacante pode distribuir uma imagem manipulada em redes sociais. Milhares de usuários benignos podem baixá-la e interagir com LVLMs, sendo manipulados apenas quando tocam em um tópico específico (ex: "qual ação devo comprar?").
Desafio para Defesas: As defesas atuais focam em filtrar entradas maliciosas imediatas ou em interações de uma rodada. O VMI exige que as defesas considerem o histórico completo da conversa e a persistência de contextos visuais.
Riscos Reais: O ataque permite campanhas de marketing adversarial, desinformação política sutil e fraudes financeiras que parecem ser recomendações legítimas de um assistente de IA confiável.

Conclusão: O artigo demonstra que a segurança dos LVLMs não pode ser avaliada apenas pelo que o modelo recusa diretamente, mas também pela sua capacidade de ser "guiado silenciosamente" para outputs específicos após longas interações normais. Isso exige novas abordagens de robustez que considerem o contexto de longo prazo e a persistência visual.

Visual Memory Injection Attacks for Multi-Turn Conversations

1. O Cenário: A Foto "Amaldiçoada"

2. O Problema: A "Memória" do Assistente

3. O Ataque: O "Gatilho" e a "Traição"

4. A Magia (e o Medo): A "Ancoragem"

Por que isso é perigoso?

A Conclusão

1. O Problema

2. Metodologia: Visual Memory Injection (VMI)

A. Ancoragem Comportamental Benigna (Benign Behavioral Anchoring)

B. Ciclagem de Contexto (Context-Cycling)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank