Laundering AI Authority with Adversarial Examples

Autores originais: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

Publicado 2026-05-07

📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um bibliotecário muito inteligente e altamente confiável que nunca mente. Você confia nele completamente para dizer o que há em um livro, o que uma pintura retrata ou se um produto é bom. Você assume que, se entregar a ele uma foto de um gato, ele dirá: "Isso é um gato."

Este artigo revela um truque assustador: Você pode enganar esse bibliotecário para que ele veja um animal completamente diferente, mesmo que a foto pareça exatamente a mesma para você.

Os pesquisadores chamam isso de "Lavagem de Autoridade da IA". Eis como funciona, desdobrado em conceitos simples:

O Truque Central: O "Filtro Mágico"

Pense no modelo de IA como tendo dois pares de óculos diferentes:

Seus Óculos: Quando você olha para a imagem, vê uma foto normal (por exemplo, um frasco de Tylenol).
Os Óculos da IA: A IA vê uma versão oculta e ligeiramente alterada dessa foto (por exemplo, um frasco de medicamento perigoso para acne).

Os pesquisadores descobriram uma maneira de adicionar "ruído" invisível a uma imagem — como uma estática minúscula e invisível — que altera o que a IA vê, mas deixa a imagem perfeitamente normal aos olhos humanos.

Por que isso é perigoso? (A Parte da "Lavagem")

Geralmente, quando nos preocupamos com a IA, pensamos em pessoas tentando "quebrar o bloqueio" (jailbreak) dela — forçando-a a quebrar suas regras ou dizer coisas ruins. Este artigo mostra algo diferente.

A IA não está sendo forçada a quebrar regras. Ela está sendo enganada para seguir suas regras perfeitamente, mas sobre a coisa errada.

O Cenário: Você pergunta à IA: "Este medicamento é seguro para uma mulher grávida?"
O Truque: Você mostra a ela uma foto de Tylenol (seguro), mas os "óculos" da IA fazem-na ver Roaccutane (perigoso).
O Resultado: A IA diz honesta e educadamente: "Não, isso é perigoso!" porque ela acha que está olhando para o medicamento perigoso.
A Lavagem: A reputação da IA de ser "honesto e seguro" é usada para lavar uma mentira. O usuário confia na autoridade da IA, então acredita no aviso falso, mesmo que a IA esteja apenas fazendo seu trabalho sobre uma realidade falsa.

O que os pesquisadores realmente fizeram?

Eles testaram isso nos sistemas de IA mais avançados disponíveis hoje (como GPT-5.4, Claude, Gemini e Grok). Eles não precisaram inventar novas ferramentas de hacking supercomplexas; usaram técnicas básicas que são conhec há mais de uma década.

Aqui estão as quatro principais maneiras pelas quais eles quebraram a confiança:

Espalhando Notícias Falsas (O Teórico da Conspiração):
- Eles pegaram uma foto famosa do pouso na lua ou dos ataques de 11 de setembro.
- Adicionaram o "ruído" invisível.
- A IA olhou para ela e declarou com confiança: "Isso é notícia falsa" ou "Esse evento nunca aconteceu", validando efetivamente teorias da conspiração.
Mansurando Nomes de Pessoas (O Ladrão de Identidade):
- Eles pegaram uma foto de uma celebridade (como Elon Musk).
- Fizeram a IA ver uma pessoa diferente (como um criminoso ou uma pessoa com sobrepeso).
- Quando perguntada para identificar a pessoa, a IA disse com confiança: "Aquela é [Pessoa Errada]", prejudicando a reputação da pessoa real.
Contornando Filtros de Segurança (O Cartão "Saída da Prisão Grátis"):
- Plataformas geralmente bloqueiam a IA de gerar ou discutir conteúdo inadequado (como nudez ou violência).
- Os pesquisadores pegaram uma imagem "proibida" e fizeram a IA ver um brinquedo inofensivo (como um urso de pelúcia).
- A IA, achando que está olhando para um urso de pelúcia, concordou alegremente em processar a imagem ou gerar uma versão em desenho dela, contornando efetivamente as barreiras de segurança.
Estafando Compradores (A Análise Falsa):
- Eles mostraram à IA uma foto de um relógio barato e de baixa qualidade.
- Fizeram a IA ver uma foto de um Rolex caro.
- Quando pediram conselho, a IA recomendou comprar o relógio barato, pensando que era a marca de luxo.

A Grande Conclusão

A parte assustadora não é que a IA esteja "quebrada" ou "maligna". A parte assustadora é que a IA está funcionando exatamente como foi projetada. Ela está sendo honesta, útil e segura, mas está olhando para uma realidade que o atacante secretamente alterou.

Como a IA é tão confiável, seu erro "honesto" torna-se uma arma poderosa. O artigo conclui que, enquanto não pudermos corrigir essa "ponto cego" na forma como a IA vê imagens, devemos ser muito céticos de qualquer IA que afirme verificar imagens ou checar fatos do mundo.

Em resumo: A IA é como uma testemunha muito honesta em um tribunal. Os pesquisadores não subornaram a testemunha; eles apenas trocaram a foto da evidência na frente dos olhos da testemunha. A testemunha ainda diz a verdade, mas a verdade agora é sobre a foto errada.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Lavagem de Autoridade da IA com Exemplos Adversariais

Definição do Problema
O artigo aborda uma vulnerabilidade crítica na implantação de Modelos Visão-Linguagem (VLMs) como "autoridades confiáveis" em ecossistemas online (por exemplo, verificação de fatos em redes sociais, recomendação de produtos, moderação de conteúdo). Embora os usuários confiem implicitamente que esses sistemas percebem o conteúdo visual da mesma forma que eles, os autores demonstram que exemplos adversariais podem quebrar essa premissa. Eles introduzem um modelo de ameaça denominado lavagem de autoridade da IA: um atacante perturba sutilmente uma imagem para que o VLM produza respostas confiantes e autoritárias sobre uma realidade semântica escolhida pelo atacante, em vez da imagem que o observador humano vê.

Diferentemente de "jailbreaks" ou "injeções de prompt", que subvertem o alinhamento ou as instruções de um modelo, a lavagem de autoridade opera inteiramente no nível perceptual. O modelo permanece "alinhado" — responde de forma útil, inofensiva e honesta ao que ele incorretamente percebe. Consequentemente, defesas padrão baseadas em alinhamento (ajuste fino de segurança, treinamento de recusa) são ineficazes contra essa ameaça. O problema central é a falta de robustez adversarial visual em VLMs de produção.

Metodologia
Os autores propõem um pipeline de ataque em duas etapas para aproximar um "Oráculo de Percepção" idealizado, onde um adversário controla tanto a imagem vista pelo modelo (alvo) quanto a imagem vista pelo observador humano (fonte).

Etapa 1: Design do Ataque do Oráculo: O adversário seleciona uma imagem de origem ( $img_{src}$ ) que parece benigna para o observador e uma imagem ou conceito de destino ($target$) que, quando processado por um VLM alinhado, produz uma saída adversarial desejada (por exemplo, um fato falso, uma violação de política rejeitada). Esta etapa define o objetivo do ataque em quatro famílias:
- Manipulação Narrativa: Induzir alegações falsas sobre eventos (por exemplo, teorias da conspiração).
- Manipulação de Identidade: Identificar erroneamente figuras públicas para espalhar desinformação ou danificar reputações.
- Fraude Comercial: Manipular recomendações de produtos.
- Evasão de Filtros de Segurança: Contornar a moderação de conteúdo (NSFW, proteções de figuras públicas).
Etapa 2: Instanciação Adversarial: Os autores instanciam o oráculo usando técnicas adversariais padrão. Eles otimizam uma única imagem ( $img_{adv}$ ) para minimizar a distância entre sua incorporação do codificador de visão e a incorporação do alvo, sujeita a uma restrição que a mantém próxima à imagem de origem sob uma norma $L_\infty$ ( $\|x - img_{src}\|_\infty \le \epsilon$ ).
- Transferibilidade: O ataque usa Descida de Gradiente Projetada (PGD) simples contra um conjunto de modelos CLIP publicamente disponíveis (surrogados de código aberto).
- Alvo de Caixa Preta: Essas perturbações são transferidas para VLMs de produção com arquiteturas e pesos desconhecidos, incluindo GPT 5.4, Claude Opus 4.6, Gemini 3 e Grok 4.2.
- Sem Algoritmos Novos: Os autores deliberadamente evitam algoritmos de ataque novos para estabelecer um limite inferior na capacidade do atacante, demonstrando que técnicas conhecidas há mais de uma década são suficientes.

Principais Contribuições

Definição do Modelo de Ameaça: Define formalmente a "lavagem de autoridade da IA", distinguindo-a de ataques que quebram o alinhamento ao focar em discrepâncias perceptuais. Categoriza os ataques em manipulação epistêmica (desinformação) e lavagem de conformidade (evasão de filtros).
Avaliação Sistemática: Realiza extensas avaliações em seis VLMs de produção e sete estudos de caso, demonstrando vetores de ataque práticos com consequências de longo alcance.
Demonstração de Baixa Barreira de Ataque: Mostra que técnicas adversariais básicas e prontas contra surrogados de código aberto são suficientes para manipular consistentemente VLMs de ponta, provando que a robustez visual é um problema de segurança prático e não resolvido.

Resultados
Os autores relatam altas taxas de sucesso em quatro superfícies de ataque:

Manipulação Narrativa: Perturbar imagens de eventos históricos (por exemplo, Apollo 11, 11 de setembro) para corresponder à incorporação de texto de "notícias falsas" fez com que modelos como ChatGPT 5.4 e Grok 4.2 validassem confiantemente teorias da conspiração. As taxas de sucesso variaram de 22% a 100% entre os modelos.
Manipulação de Identidade: Em ataques de identidade cruzada (10 figuras públicas, 90 combinações adversariais), os modelos falharam em identificar a identidade de origem em 84% a 96% dos casos. O sucesso direcionado (identificar o alvo escolhido pelo atacante) atingiu 54,4% para o Grok 4.2. Essas manipulações propagaram-se com sucesso para tarefas a jusante, como pesquisa reversa de imagens e geração de imagens.
Evasão de Filtros de Segurança:
- Evasão de NSFW: Perturbar imagens explícitas para corresponder à incorporação de brinquedos (bonecas/ursinhos) permitiu que elas contornassem detectores comerciais de NSFW e fossem aceitas por VLMs de geração de imagens (por exemplo, GPT 5.4 Image 2) com taxas de aceitação de 70–100%.
- Evasão Assimétrica de Políticas: Perturbar imagens de mulheres para corresponder a incorporações masculinas permitiu a contornagem de filtros de conteúdo específicos de gênero (por exemplo, solicitações de remoção de roupas) com 81% de sucesso.
- Proteções de Figuras Públicas: Perturbar imagens de figuras públicas para corresponder a rostos gerados por IA contornou mecanismos de recusa em 86% dos casos.
Fraude Comercial: Perturbar imagens de produtos de baixa qualidade para corresponder a marcas de alto padrão (por exemplo, um relógio barato para um Rolex) fez com que os VLMs invertissem suas recomendações de compra, favorecendo o produto do atacante.

Significado e Alegações
O artigo argumenta que a era dos exemplos adversariais serem meramente "curiosidades teóricas" acabou. Ao implantar VLMs como autoridades confiáveis, a indústria inadvertidamente armamentizou esses modelos para amplificar a desinformação e contornar protocolos de segurança.

Preocupação Prática de Segurança: Os autores afirmam que a robustez adversarial visual é agora uma questão crítica e prática de segurança. O fato de ataques simples e conhecidos funcionarem em modelos de última geração sugere que a ameaça é estritamente pior do que atualmente entendida.
Limitações das Defesas Atuais: Defesas baseadas em alinhamento são tornadas irrelevantes porque o modelo não está sendo "enganado" para quebrar regras; está sendo enganado para honestamente seguir regras para a entrada errada.
Chamada à Ação: O artigo conclui que as saídas de VLMs não devem ser apresentadas como autoritárias até que a robustez visual seja resolvida. Ele pede:
- Intervenções Técnicas: Verbalização explícita do raciocínio para ajudar os usuários a detectar discrepâncias.
- Respostas de Política: Limitar o alcance do conteúdo endossado por IA, marcar saídas potencialmente manipuladas e reconsiderar a autoridade concedida aos sistemas de IA.
- Mudança de Pesquisa: Uma transição do estudo de modelos independentes para a compreensão de ataques dentro de ecossistemas do mundo real onde a percepção e a autoridade se cruzam.

Os autores enfatizam que não fizeram nenhum esforço para minimizar a perceptibilidade das perturbações (além das restrições padrão $L_\infty$ ), sugerindo que ataques ainda mais furtivos e menos detectáveis são provavelmente viáveis.

O Truque Central: O "Filtro Mágico"

Por que isso é perigoso? (A Parte da "Lavagem")

O que os pesquisadores realmente fizeram?

A Grande Conclusão

Resumo Técnico: Lavagem de Autoridade da IA com Exemplos Adversariais

Mais como este