Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Este artigo apresenta o MPCAttack, um novo framework de ataque adversarial colaborativo multi-paradigma que melhora a transferabilidade de exemplos adversariais contra Modelos de Linguagem Grandes Multimodais (MLLMs) ao agregar representações semânticas de imagens e textos para otimização conjunta, superando os métodos existentes em diversos benchmarks.

Yuanbo Li, Tianyang Xu, Cong Hu, Tao Zhou, Xiao-Jun Wu, Josef Kittler

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Modelos de Linguagem Multimodal (MLLMs) são como "super-heróis" da inteligência artificial. Eles conseguem ver uma foto e descrevê-la, ou ler um texto e imaginar uma cena. Eles são incríveis, mas, como todo herói, têm um ponto fraco.

Os pesquisadores deste artigo descobriram uma nova maneira de "enganar" esses super-heróis, fazendo-os ver coisas que não estão lá ou ignorar o que está na frente deles. Eles chamam essa técnica de MPCAttack.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Olho Único"

Até agora, os hackers (ou pesquisadores de segurança) tentavam enganar esses modelos usando apenas uma maneira de olhar para o mundo.

  • A analogia: Imagine que você quer enganar um guarda de segurança. Você tenta se disfarçar apenas usando uma peruca (mudando o cabelo). O guarda, que está acostumado a ver pessoas com perucas, logo percebe que algo está errado.
  • Na ciência: Os métodos antigos usavam apenas um tipo de "lente" (um paradigma de aprendizado) para criar o truque. Como eles focavam em apenas uma característica, o modelo de inteligência artificial conseguia se adaptar e não cair na armadilha. Era como tentar entrar em um cofre usando apenas uma chave de fenda; às vezes funciona, mas não é confiável.

2. A Solução: A "Equipe Multidisciplinar"

O grande segredo do MPCAttack é não usar apenas uma lente, mas sim três lentes diferentes ao mesmo tempo, trabalhando juntas.

Os pesquisadores juntaram três tipos de "olhos" (paradigmas de aprendizado) para criar o ataque:

  1. O Olho do Casamento (Alinhamento Cruzado): Foca em combinar perfeitamente a imagem com a palavra (como o CLIP).
  2. O Olho do Detetive (Compreensão Multimodal): Foca em entender o contexto e a história por trás da imagem (como o InternVL).
  3. O Olho do Artista (Autoaprendizado Visual): Foca nos detalhes visuais brutos, cores e formas, sem precisar de texto (como o DINOv2).
  • A analogia: Em vez de um único disfarce, imagine que você está tentando enganar o guarda. Você não usa apenas uma peruca. Você muda o seu cabelo, sua roupa, sua postura e até como você fala. Você cria uma "equipe" de disfarces trabalhando juntos. O guarda fica confuso porque não consegue identificar qual é o seu ponto fraco, já que você está mudando em várias frentes ao mesmo tempo.

3. Como Funciona a "Dança" (Otimização Colaborativa)

O método não apenas joga essas três lentes juntas; elas conversam entre si.

  • A analogia: Pense em três músicos tocando instrumentos diferentes (violão, bateria e piano). Se cada um tocar sozinho, o som fica bagunçado. Mas, se eles usarem um "maestro" (a estratégia de otimização colaborativa), eles ajustam o ritmo e a melodia para criar uma música perfeita que toca o coração do ouvinte (o modelo de IA).
  • Na prática: O sistema ajusta o "truque" (a perturbação na imagem) para que ele faça sentido para os três tipos de "olhos" ao mesmo tempo. Isso cria uma imagem que parece normal para nós, mas que confunde completamente a inteligência artificial, fazendo-a ver o que os hackers querem.

4. O Resultado: O Truque Funciona em Todos

Os pesquisadores testaram essa técnica em vários modelos de IA, desde os que são gratuitos e abertos até os superpoderosos e fechados (como o GPT-4o, GPT-5, Claude e Gemini).

  • O resultado: O MPCAttack funcionou muito melhor do que qualquer método anterior.
    • Em testes onde o objetivo era fazer a IA descrever uma imagem errada (ataque direcionado), ele teve um sucesso muito maior.
    • Em testes onde o objetivo era fazer a IA não entender a imagem de jeito nenhum (ataque não direcionado), ele foi quase perfeito.

Resumo em uma frase

O MPCAttack é como um maestro genial que ensina três tipos diferentes de músicos a tocar juntos perfeitamente, criando uma "música" (uma imagem alterada) que faz qualquer inteligência artificial "dançar" da maneira que os pesquisadores querem, revelando que, por mais inteligentes que sejam, esses modelos ainda têm pontos cegos que podem ser explorados.

Por que isso é importante?
Não é para fazer mal, mas para proteger. Ao descobrir como quebrar esses sistemas, os pesquisadores ajudam os criadores a consertar as falhas e tornar a inteligência artificial mais segura e confiável para o futuro.