Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

Este artigo apresenta o M-Attack-V2, uma melhoria modular sobre o M-Attack que supera as limitações de alta variância em ataques adversariais de caixa preta a LVLMs ao introduzir alinhamento multi-crop, uma nova estratégia de alinhamento de alvos e momentum de patches, alcançando taxas de sucesso significativamente superiores em modelos de ponta como Claude-4.0, Gemini-2.5-Pro e GPT-5.

Xiaohan Zhao, Zhaoyi Li, Yaxin Luo, Jiacheng Cui, Zhiqiang Shen

Publicado 2026-02-20
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô superinteligente (chamado de Modelo de Visão e Linguagem, ou LVLM) que consegue olhar para uma foto e descrevê-la perfeitamente, como se fosse um fotógrafo e um escritor ao mesmo tempo. Esse robô é usado em assistentes virtuais, buscadores e geradores de conteúdo.

O problema é que, assim como qualquer sistema inteligente, ele tem "pontos cegos". Os pesquisadores deste artigo descobriram como criar ilusões ópticas digitais (chamadas de "ataques de adversário") que enganam esse robô. Eles fazem uma pequena alteração quase invisível em uma imagem, e o robô, em vez de ver o que realmente está lá, começa a "alucinar" e descrever algo completamente diferente.

Aqui está a explicação do que eles fizeram, usando analogias simples:

1. O Problema: Tentar acertar um alvo que treme

Antes, os hackers tentavam enganar o robô cortando a imagem em pedacinhos (como um quebra-cabeça) e tentando fazer o robô concordar com o que estava em cada pedaço.

Mas os autores descobriram que essa técnica antiga era como tentar acertar um alvo que está tremendo violentamente.

  • A sensibilidade do robô: O robô é muito sensível a pequenos movimentos. Se você mover a imagem um pixel para a esquerda, o robô muda completamente a forma como "pensa" sobre ela.
  • O resultado: A cada tentativa de ataque, a direção em que eles tentavam empurrar a imagem mudava de forma caótica. Era como tentar empurrar um carro que, a cada metro, muda de direção aleatoriamente. O robô antigo (chamado M-Attack) conseguia enganar alguns robôs, mas falhava feio nos mais novos e inteligentes (como o GPT-5 ou o Claude 4).

2. A Solução: O "M-Attack-V2" (A Nova Estratégia)

Os pesquisadores criaram uma versão melhorada, o M-Attack-V2, que funciona como um time de especialistas trabalhando juntos para estabilizar o ataque. Eles usaram três truques principais:

A. O Truque dos "Múltiplos Olhos" (MCA)

Em vez de olhar para a imagem por apenas um ângulo ou corte, o novo método olha para a mesma imagem de 10 ou 20 ângulos diferentes ao mesmo tempo em cada passo.

  • Analogia: Imagine que você está tentando descrever um elefante no escuro. Se você tocar apenas a tromba, pode achar que é uma cobra. Se tocar apenas a orelha, pode achar que é um leque. Mas se você tiver 10 pessoas tocando partes diferentes do elefante ao mesmo tempo e somarem suas descrições, você terá uma imagem muito mais clara e estável do que é o animal. Isso "suaviza" os erros e faz o ataque ser mais consistente.

B. O "Alvo de Apoio" (ATA)

No ataque antigo, eles tentavam forçar o robô a ver uma imagem alvo muito agressivamente, o que assustava o sistema e fazia ele se defender.

  • A nova abordagem: Em vez de gritar com o robô, eles trouxeram imagens "primas" (similares) para ajudar. Imagine que você quer convencer alguém de que um cachorro é um gato. Em vez de tentar transformar o cachorro em gato à força, você mostra fotos de outros animais que são meio-cachorros, meio-gatos, para criar um caminho suave de entendimento. Isso mantém o ataque estável e menos óbvio.

C. O "Memória de Manchas" (Patch Momentum)

O robô antigo esquecia o que aprendeu no passo anterior. O novo método tem uma memória.

  • Analogia: É como se você estivesse desenhando em uma areia movediça. Se você tentar desenhar uma linha reta, a areia desmancha tudo. Mas, se você lembrar onde estava a linha no passo anterior e continuar de lá, mantendo a direção, consegue traçar um caminho mais firme. O novo método "relembra" os pedaços da imagem que funcionaram antes e os usa para guiar os próximos passos.

3. Os Resultados: Um Sucesso Estrondoso

Com essa nova estratégia, o ataque ficou muito mais poderoso, especialmente contra os robôs mais modernos e difíceis de enganar:

  • No Claude 4.0: O sucesso saltou de 8% para 30%. (Era quase impossível, agora é factível).
  • No Gemini 2.5-Pro: Saltou de 83% para 97%.
  • No GPT-5: Chegou a 100%. Ou seja, em todos os testes, o robô foi enganado.

Por que isso é importante?

Pense nisso como um teste de estresse para a segurança.

  • O Lado Bom: Ao mostrar quão frágeis são esses sistemas, os pesquisadores ajudam as empresas a consertar essas falhas antes que pessoas mal-intencionadas usem isso para coisas ruins (como fazer um carro autônomo ver um sinal de "pare" como um sinal de "siga" ou fazer um filtro de segurança ignorar conteúdo perigoso).
  • O Lado Cuidadoso: Os autores deixam claro que, embora a técnica seja poderosa, o objetivo é melhorar a segurança, não criar armas. Eles estão "quebrando o cadeado" para que os fabricantes possam fazer um cadeado mais forte.

Resumo final: Eles descobriram que os robôs de IA são muito sensíveis a pequenos movimentos. Criaram um método que usa "muitos olhos", "amigos de apoio" e "memória" para estabilizar o ataque, conseguindo enganar os robôs mais inteligentes do mundo com uma precisão quase perfeita.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →