Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Modelos de Linguagem Multimodal (MLLMs) são como "super-heróis" da inteligência artificial. Eles conseguem ver uma foto e descrevê-la, ou ler um texto e imaginar uma cena. Eles são incríveis, mas, como todo herói, têm um ponto fraco.

Os pesquisadores deste artigo descobriram uma nova maneira de "enganar" esses super-heróis, fazendo-os ver coisas que não estão lá ou ignorar o que está na frente deles. Eles chamam essa técnica de MPCAttack.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Olho Único"

Até agora, os hackers (ou pesquisadores de segurança) tentavam enganar esses modelos usando apenas uma maneira de olhar para o mundo.

A analogia: Imagine que você quer enganar um guarda de segurança. Você tenta se disfarçar apenas usando uma peruca (mudando o cabelo). O guarda, que está acostumado a ver pessoas com perucas, logo percebe que algo está errado.
Na ciência: Os métodos antigos usavam apenas um tipo de "lente" (um paradigma de aprendizado) para criar o truque. Como eles focavam em apenas uma característica, o modelo de inteligência artificial conseguia se adaptar e não cair na armadilha. Era como tentar entrar em um cofre usando apenas uma chave de fenda; às vezes funciona, mas não é confiável.

2. A Solução: A "Equipe Multidisciplinar"

O grande segredo do MPCAttack é não usar apenas uma lente, mas sim três lentes diferentes ao mesmo tempo, trabalhando juntas.

Os pesquisadores juntaram três tipos de "olhos" (paradigmas de aprendizado) para criar o ataque:

O Olho do Casamento (Alinhamento Cruzado): Foca em combinar perfeitamente a imagem com a palavra (como o CLIP).
O Olho do Detetive (Compreensão Multimodal): Foca em entender o contexto e a história por trás da imagem (como o InternVL).
O Olho do Artista (Autoaprendizado Visual): Foca nos detalhes visuais brutos, cores e formas, sem precisar de texto (como o DINOv2).

A analogia: Em vez de um único disfarce, imagine que você está tentando enganar o guarda. Você não usa apenas uma peruca. Você muda o seu cabelo, sua roupa, sua postura e até como você fala. Você cria uma "equipe" de disfarces trabalhando juntos. O guarda fica confuso porque não consegue identificar qual é o seu ponto fraco, já que você está mudando em várias frentes ao mesmo tempo.

3. Como Funciona a "Dança" (Otimização Colaborativa)

O método não apenas joga essas três lentes juntas; elas conversam entre si.

A analogia: Pense em três músicos tocando instrumentos diferentes (violão, bateria e piano). Se cada um tocar sozinho, o som fica bagunçado. Mas, se eles usarem um "maestro" (a estratégia de otimização colaborativa), eles ajustam o ritmo e a melodia para criar uma música perfeita que toca o coração do ouvinte (o modelo de IA).
Na prática: O sistema ajusta o "truque" (a perturbação na imagem) para que ele faça sentido para os três tipos de "olhos" ao mesmo tempo. Isso cria uma imagem que parece normal para nós, mas que confunde completamente a inteligência artificial, fazendo-a ver o que os hackers querem.

4. O Resultado: O Truque Funciona em Todos

Os pesquisadores testaram essa técnica em vários modelos de IA, desde os que são gratuitos e abertos até os superpoderosos e fechados (como o GPT-4o, GPT-5, Claude e Gemini).

O resultado: O MPCAttack funcionou muito melhor do que qualquer método anterior.
- Em testes onde o objetivo era fazer a IA descrever uma imagem errada (ataque direcionado), ele teve um sucesso muito maior.
- Em testes onde o objetivo era fazer a IA não entender a imagem de jeito nenhum (ataque não direcionado), ele foi quase perfeito.

Resumo em uma frase

O MPCAttack é como um maestro genial que ensina três tipos diferentes de músicos a tocar juntos perfeitamente, criando uma "música" (uma imagem alterada) que faz qualquer inteligência artificial "dançar" da maneira que os pesquisadores querem, revelando que, por mais inteligentes que sejam, esses modelos ainda têm pontos cegos que podem ser explorados.

Por que isso é importante?
Não é para fazer mal, mas para proteger. Ao descobrir como quebrar esses sistemas, os pesquisadores ajudam os criadores a consertar as falhas e tornar a inteligência artificial mais segura e confiável para o futuro.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

Os Modelos de Linguagem Grandes Multimodais (MLLMs) avançaram rapidamente, permitindo a compreensão conjunta de imagens e texto. No entanto, essa evolução expôs vulnerabilidades adversariais significativas, especialmente em cenários de "caixa preta" (onde o atacante não tem acesso aos parâmetros do modelo alvo).

O problema central identificado pelos autores é a limitação dos ataques adversariais existentes:

Paradigma Único: A maioria dos métodos atuais utiliza modelos substitutos (surrogate models) treinados sob um único paradigma de aprendizado (ex: apenas alinhamento cruzado de modalidades, como o CLIP). Isso restringe a diversidade das representações de características (features), levando a um espaço de busca limitado.
Otimização Independente: Mesmo quando múltiplos modelos são usados (ensemble), eles são frequentemente otimizados de forma independente e depois fundidos de maneira simples. Isso ignora a complementaridade semântica entre diferentes espaços de representação, resultando em gradientes redundantes e otimos locais, o que prejudica a transferibilidade do ataque (a capacidade de enganar modelos alvo desconhecidos).

2. Metodologia: MPCAttack

Os autores propõem o MPCAttack (Multi-Paradigm Collaborative Adversarial Attack), um novo framework projetado para superar as limitações de representações unidimensionais através de uma Otimização Colaborativa Multi-Paradigma (MPCO).

Arquitetura do Framework:

O método integra três grandes paradigmas de aprendizado em escala para construir representações visuais e semânticas mais completas:

Alinhamento Cruzado de Modalidades (Cross-Modal Alignment): Ex: CLIP, SigLIP. Foca na correspondência entre imagem e texto em um espaço compartilhado.
Compreensão Multimodal (Multi-modal Understanding): Ex: InternVL, Qwen-VL. Integra codificadores visuais com modelos de linguagem para raciocínio profundo.
Aprendizado Auto-supervisionado Visual (Visual Self-Supervised Learning): Ex: DINOv2. Aprende representações visuais robustas a partir de dados não rotulados.

Processo de Otimização (MPCO):

Extração de Características: O framework extrai características de imagens de origem, alvo e adversárias usando os três paradigmas simultaneamente.
Fusão de Características: As características visuais e textuais (geradas a partir de descrições de texto) são fundidas e normalizadas ( $\ell_2$ ).
Otimização Colaborativa: Em vez de otimizar cada paradigma separadamente, o MPCAttack utiliza uma estratégia de Matching Contrastivo sobre as características agregadas.
- O objetivo é minimizar a distância entre a representação da imagem adversária e a imagem alvo.
- Simultaneamente, maximizar a distância entre a imagem adversária e a imagem de origem.
- Isso é feito através de uma função de perda contrastiva que equilibra a atração de pares positivos e a repulsão de pares negativos, adaptando-se dinamicamente às regiões mais informativas de cada paradigma.

3. Contribuições Principais

Novo Framework de Ataque: Introdução do MPCAttack, que suporta tanto ataques direcionados (targeted) quanto não direcionados (untargeted), gerando exemplos adversariais altamente transferíveis contra MLLMs.
Estratégia de Otimização Conjunta: Desenvolvimento da estratégia MPCO, que harmoniza características agregadas de múltiplos paradigmas de aprendizado, superando o viés de representação de modelos de paradigma único.
Validação Empírica Abrangente: Demonstração experimental de que a colaboração multi-paradigma é crucial para revelar vulnerabilidades, superando métodos state-of-the-art (SOTA) em diversos benchmarks.

4. Resultados Experimentais

Os autores avaliaram o MPCAttack em múltiplos conjuntos de dados (ImageNet, Flickr30K, MME) contra modelos de código aberto (Qwen2.5-VL, InternVL3, LLaVA, GLM-4.1V) e modelos fechados (GPT-4o, GPT-5, Claude-3.5, Gemini-2.0).

Desempenho em Modelos de Código Aberto:
- No cenário direcionado (ImageNet), o MPCAttack alcançou uma taxa de sucesso (ASR) média de 63.33%, superando significativamente o FOA-Attack (48.60%) e o M-Attack (44.08%).
- No cenário não direcionado, alcançou 92.10% de ASR, comparado a 79.80% do FOA-Attack.
Desempenho em Modelos Fechados (Black-box):
- O método demonstrou forte generalização em modelos comerciais. No ImageNet, obteve 63.38% de ASR em ataques direcionados e 90.55% em não direcionados, superando consistentemente os concorrentes em modelos como GPT-5 e Gemini.
Estudos de Ablação:
- A remoção de qualquer um dos três paradigmas (Alinhamento, Compreensão ou Auto-supervisionado) resultou em queda significativa no desempenho, confirmando que a sinergia entre eles é essencial.
- A estratégia de otimização colaborativa (MPCO) mostrou-se mais eficaz do que simplesmente agregar características de modelos existentes sem otimização conjunta.

5. Significado e Conclusão

O trabalho destaca que as vulnerabilidades dos MLLMs não podem ser totalmente exploradas ou compreendidas através de uma única lente de representação. A colaboração multi-paradigma permite que o ataque capture nuances semânticas que modelos individuais perdem, resultando em perturbações adversariais que são:

Mais Robustas: Funcionam bem em arquiteturas heterogêneas.
Mais Transferíveis: Conseguem enganar modelos que nunca foram vistos durante o treinamento do ataque.
Globalmente Otimizadas: Evitam otimos locais ao coordenar gradientes de diferentes espaços de características.

Conclusão: O MPCAttack estabelece um novo padrão para a avaliação de segurança em MLLMs, provando que a integração de múltiplos paradigmas de aprendizado é fundamental para desenvolver ataques adversariais eficazes e, consequentemente, para projetar defesas mais robustas para a próxima geração de inteligência artificial multimodal. O código do projeto foi disponibilizado publicamente.

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

1. O Problema: O "Olho Único"

2. A Solução: A "Equipe Multidisciplinar"

3. Como Funciona a "Dança" (Otimização Colaborativa)

4. O Resultado: O Truque Funciona em Todos

Resumo em uma frase

1. Problema e Motivação

2. Metodologia: MPCAttack

Arquitetura do Framework:

Processo de Otimização (MPCO):

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search