SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

Este artigo apresenta o SCAM, o maior e mais diversificado conjunto de dados de ataques tipográficos do mundo real, demonstrando que tais ataques comprometem significativamente o desempenho dos modelos fundacionais multimodais e fornecendo insights sobre como a arquitetura do modelo e o uso de backbones de linguagem maiores podem mitigar essa vulnerabilidade.

Justus Westerhoff, Erblina Purelku, Jakob Hackstein, Jonas Loos, Leo Pinetzki, Erik Rodner, Lorenz Hufe

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô superinteligente, um "olho e cérebro" artificial, capaz de olhar para uma foto e dizer exatamente o que está vendo. Se você mostrar uma foto de um relógio, ele diz: "Isso é um relógio!". Parece perfeito, certo?

Mas os autores deste artigo descobriram que esse robô tem uma fraqueza curiosa: ele é muito distraído por bilhetes de papel.

Aqui está a explicação simples do que eles descobriram, usando analogias do dia a dia:

1. O Problema: O "Golpe do Bilhete" (SCAM)

Os pesquisadores criaram um novo tipo de teste chamado SCAM (que significa "Ataques Sutis de Caracteres em Modelos Multimodais").

  • A Analogia: Pense no robô como um turista em uma cidade nova. Se ele vê uma placa de "Pare" (Stop), ele sabe que é um sinal de trânsito. Mas, se alguém colar um post-it (aquele papelzinho amarelo de escritório) ao lado da placa escrito "PIZZA", o turista confuso pode começar a achar que aquilo é uma pizzaria, ignorando o que a placa real diz.
  • O que aconteceu: Eles tiraram fotos de objetos reais (como um relógio, uma cadeira ou um carro) e colaram um post-it ao lado com uma palavra que não tem nada a ver com o objeto (ex: um post-it escrito "TÁXI" ao lado de um relógio).
  • O Resultado: Quando mostraram essas fotos para os robôs (os modelos de Inteligência Artificial), a maioria deles ficou completamente confusa. Em vez de dizer "é um relógio", eles disseram "é um táxi" só porque leram a palavra no papel. O robô deu mais valor ao texto do que à imagem real!

2. O Banco de Dados: A "Caixa de Brincadeiras"

Antes desse trabalho, os cientistas tinham poucos exemplos desse tipo de truque. Era como tentar aprender a dirigir com apenas 3 carros.

  • A Solução: Eles criaram o SCAM, que é como uma "caixa de brinquedos" gigante e diversificada. Eles tiraram 1.162 fotos reais, com objetos variados (de animais a ferramentas) e palavras escritas à mão por pessoas diferentes.
  • Por que é importante? Isso permite testar os robôs em cenários do mundo real, não apenas em fotos de computador perfeitas. Eles também criaram duas versões extras: uma sem o bilhete (para ver como o robô deveria se comportar) e uma versão digital (simulada) para ver se o computador consegue imitar o mundo real.

3. O Que Eles Descobriram?

Ao testar dezenas de modelos de IA (como o GPT-4, Claude, LLaVA, etc.), eles viram algumas coisas interessantes:

  • Robôs Pequenos vs. Grandes: Os robôs menores (com cérebros menos potentes) foram os que mais sofreram. Eles se deixaram enganar facilmente.
  • O Poder do "Cérebro" (LLM): Eles descobriram que, se você colocar um "cérebro" de linguagem muito grande e inteligente por trás da "câmera" do robô, ele fica mais esperto. É como ter um turista que não só vê a placa, mas também sabe ler o bilhete e pensar: "Espera aí, isso é um relógio, o bilhete deve ser uma piada". Quanto maior o cérebro de linguagem, menos o robô se confunde.
  • O "Olho" é o Fraco: A parte que vê a imagem (o encoder de visão) é a mais vulnerável. Se o "olho" do robô for fraco, ele não consegue ignorar a distração do bilhete.
  • O Mundo Real vs. Simulado: Uma descoberta legal foi que os truques feitos no computador (digitais) funcionam quase tão bem quanto os feitos à mão com papel real. Isso é ótimo para os cientistas, pois podem testar defesas mais rápido no computador sem precisar colar post-its em tudo.

4. Por que isso importa?

Imagine um carro autônomo (que dirige sozinho). Se alguém colar um post-it escrito "ESCOLA" ao lado de um sinal de "PARE" na estrada, e o carro for enganado, ele pode não parar quando deveria, ou parar onde não precisa. Isso é perigoso.

A mensagem principal do artigo é: Nossas IAs são muito boas em ver, mas ainda são muito fáceis de enganar com texto.

Resumo em uma frase

Os pesquisadores criaram um grande teste de "distração visual" para mostrar que, embora nossas IAs sejam inteligentes, elas ainda podem ser enganadas se alguém escrever uma palavra falsa perto de um objeto, e que a única maneira de corrigir isso é tornando o "cérebro" da IA muito mais esperto para entender o contexto, e não apenas a imagem.

Eles liberaram todo esse material (fotos e código) para que outros cientistas possam ajudar a criar robôs mais seguros e que não se deixem enganar por bilhetes amarelos!