NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

O artigo apresenta o modelo NAU-QMUL, que combina os encoders BERT e CLIP em uma arquitetura multi-modal multi-tarefa com aumento de dados por pseudo-rotulagem para detectar imagens geradas por IA e identificar os modelos responsáveis, alcançando a quinta colocação na competição CT2.

Xiaoyu Guo, Arkaitz Zubiaga

Publicado 2026-03-02
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que vivemos em um mundo onde é cada vez mais difícil distinguir uma pintura feita por um artista humano de uma obra criada por um robô superinteligente. O artigo que você apresentou, escrito por pesquisadores da China e do Reino Unido, é como um super-detetive digital criado para resolver esse mistério.

Aqui está a explicação do trabalho deles, traduzida para uma linguagem simples e cheia de analogias:

1. O Problema: O "Falso" que parece "Real"

Hoje em dia, existem máquinas incríveis (como o Midjourney e o DALL-E) que leem uma frase e criam uma foto perfeita. O problema é que essas fotos são tão boas que, às vezes, nem conseguimos dizer se foram feitas por um humano ou por uma IA. Isso é perigoso porque pode espalhar mentiras ou roubar direitos autorais.

O objetivo desse estudo foi criar um "olho" que não apenas diga: "Isso é falso!", mas que também aponte o dedo e diga: "Ah, essa foto foi feita pelo robô X!".

2. A Solução: O Casal de Detetives (Texto + Imagem)

Os pesquisadores criaram um sistema que funciona como uma dupla de detetives experientes, cada um com uma especialidade diferente, trabalhando juntos:

  • O Detetive das Palavras (BERT): Imagine um bibliotecário que leu todos os livros do mundo. Ele analisa o texto que descreve a imagem (o "prompt"). Ele sabe como as pessoas descrevem coisas reais versus como as IAs descrevem coisas.
  • O Detetive das Imagens (CLIP): Imagine um crítico de arte que já viu milhões de fotos. Ele analisa os pixels da imagem para ver se há "assinaturas" digitais que só as IAs deixam.

A Mágica da Fusão: Em vez de deixar esses dois detetives trabalharem separados, o sistema os faz conversar. Eles misturam o que o bibliotecário viu com o que o crítico de arte viu. É como se eles dissessem: "O texto diz que é um cavalo, mas a imagem tem uma textura estranha que só o robô Y faz. Vamos combinar essas pistas!"

3. O Treinamento: A "Apostas" Inteligente

Treinar um robô para detectar mentiras é difícil porque faltam exemplos suficientes. Para resolver isso, os autores usaram uma técnica chamada "Rótulo Pseudo".

Pense nisso como um jogo de "Adivinhe o Falso":

  1. O robô olha para fotos que ele não conhece (dados de teste).
  2. Se ele tiver muita certeza (acima de 80%) de que uma foto é falsa e sabe qual robô a fez, ele assume que está certo.
  3. Ele então "marca" essa foto como se fosse um exemplo real de treinamento e a adiciona à sua lista de estudos.

É como se um aluno estudasse sozinho em casa, marcando os exercícios que ele tem certeza absoluta de que acertou, e depois usasse essas respostas para estudar ainda mais. Isso deixa o robô muito mais esperto.

4. O Desafio Duplo (Duas Missões ao Mesmo Tempo)

O sistema foi treinado para fazer duas coisas ao mesmo tempo, como um atleta que corre e joga basquete:

  • Missão A: Dizer apenas "Sim" ou "Não" (É IA ou não é?).
  • Missão B: Se a resposta for "Sim", dizer exatamente qual IA fez (Foi o Stable Diffusion? Foi o DALL-E 3?).

O sistema é inteligente o suficiente para não gastar energia tentando adivinhar qual IA fez a foto se a primeira resposta for "Não, é humana".

5. O Resultado: O 5º Lugar no Campeonato

Esse trabalho foi testado em uma competição mundial chamada "CT2". Foi como uma Olimpíada de Detetives de IA.

  • O sistema ficou em 5º lugar nas duas categorias.
  • Na tarefa de apenas dizer "é falso ou não", ele acertou muito (83% de precisão).
  • Na tarefa mais difícil de dizer "qual robô fez", ele também teve um desempenho sólido, embora seja um desafio gigantesco (48% de precisão, o que é muito bom considerando a dificuldade).

6. O Que Pode Melhorar (As Limitações)

Os autores são honestos e dizem que o sistema não é perfeito.

  • O Risco do "Eco": Se o robô errar uma aposta no treinamento (dizer que uma foto humana é falsa com muita confiança), ele pode aprender o erro e repeti-lo. É como ouvir uma mentira repetida tantas vezes que você começa a acreditar que é verdade.
  • Viés: O sistema pode ficar muito bom em detectar fotos fáceis e esquecer as fotos difíceis ou ambíguas.

Conclusão

Em resumo, os pesquisadores criaram um sistema híbrido que une a inteligência de leitura de texto com a análise visual de imagens. Eles usaram um truque inteligente de auto-treinamento para ficar mais forte e conseguiram um desempenho excelente em uma competição global.

É um passo importante para o futuro, onde precisaremos de ferramentas assim para garantir que o que vemos na internet seja real, ou pelo menos, para saber exatamente quem (ou o que) criou aquela imagem.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →