BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha muito talentoso (o modelo de IA) que cria pratos incríveis baseados apenas no que você pede no cardápio (o texto ou "prompt"). Se você pedir "um cachorro no parque", ele serve um cachorro lindo.

Mas e se, sem você saber, alguém tivesse envenenado o tempero desse chef? E se, sempre que você pedisse algo com uma palavra secreta (o "gatilho"), o chef trocasse o cachorro por um gato, ou mudasse a cor da comida, ou colocasse um adesivo estranho na mesa?

Isso é o que chamamos de ataque de "backdoor" (porta dos fundos) em modelos de IA. O problema é que, na vida real, muitas vezes não podemos entrar na cozinha para checar os ingredientes (o modelo é uma "caixa preta" ou black-box). Nós só recebemos o prato pronto.

Aqui entra o BlackMirror, o novo sistema de segurança descrito no artigo. Vamos explicar como ele funciona usando analogias simples:

O Problema: O Detetive Antigo (UFID)

Antes do BlackMirror, existia um detetive chamado UFID. A lógica dele era simples:

"Se eu pedir a mesma coisa duas vezes, o prato deve ser idêntico."
Se o chef faz um prato que parece muito igual ao outro, o detetive acha que é um truque de backdoor.

Onde ele falha?
Imagine um ataque onde o chef só troca a orelha do cachorro por uma orelha de gato, mas o resto do prato fica perfeito. O detetive antigo olha o prato inteiro, vê que é quase igual ao original e pensa: "Tudo bem, é seguro!". Ele não percebe a pequena troca. Ele é como alguém que olha a foto do prato de longe e não vê o detalhe.

A Solução: O BlackMirror (O Espelho Mágico)

O BlackMirror é mais inteligente. Ele não olha apenas se o prato é "parecido". Ele faz duas coisas principais, como se fosse um inspector de qualidade super detalhista:

1. O Espelho de Alinhamento (MirrorMatch)

Em vez de olhar o prato inteiro de longe, o BlackMirror pega o pedido e o prato e os coloca lado a lado, detalhe por detalhe.

O Pedido: "Quero um cachorro, um guarda-chuva e uma estrada."
O Prato: O BlackMirror pergunta à IA: "O que você vê aqui?"
- A IA diz: "Vejo um gato, um guarda-chuva, uma estrada e uma árvore."
A Detecção: O BlackMirror compara: "Ei! Você pediu um cachorro, mas veio um gato! E você pediu apenas uma estrada, mas veio uma árvore extra!"
Ele identifica exatamente onde a mágica (ou o veneno) aconteceu.

2. O Espelho de Verificação (MirrorVerify)

Aqui está o pulo do gato. Às vezes, o chef pode errar por acidente ou ter um "vício" (viés) e colocar uma árvore onde não deveria, mesmo sem veneno. Como saber se é um erro ou um ataque?

O BlackMirror faz um teste de estabilidade:

Ele muda um pouco o pedido, removendo coisas que estão corretas (ex: "Agora, quero apenas o guarda-chuva e a estrada, sem mencionar o cachorro").
Ele pede o prato de novo, várias vezes.
Se for um erro comum: O gato desaparece. A árvore some. O prato volta ao normal.
Se for um Backdoor: O gato continua aparecendo em todos os pratos, mesmo que você não peça mais o cachorro! O veneno é tão forte que ele insiste em aparecer.

Se o "gato" (ou qualquer coisa estranha) aparecer consistentemente em todos os testes, o BlackMirror grita: "ALERTA! É um Backdoor!".

Por que isso é genial?

Não precisa de acesso à cozinha: Funciona mesmo que você não saiba como o modelo foi treinado (caixa preta).
Não precisa de treinamento: Você não precisa ensinar o BlackMirror a caçar; ele já sabe como funciona a lógica de "pedir vs. receber".
Funciona com truques sutis: Ele pega desde trocas de objetos (cachorro por gato) até mudanças de estilo (foto colorida para preto e branco) ou adesivos estranhos, coisas que os antigos detectores ignoravam.

Resumo da Ópera

O BlackMirror é como um inspetor de qualidade que não se deixa enganar por aparências. Ele não pergunta "o prato parece igual ao outro?". Ele pergunta: "O que eu pedi bate exatamente com o que recebi? E se eu mudar um pouco o pedido, essa coisa estranha continua aparecendo?"

Se a resposta for "sim, a coisa estranha insiste em aparecer", ele sabe que há um sabotador escondido no modelo. É uma ferramenta poderosa para garantir que as IAs que usamos para criar imagens não estejam escondendo surpresas maliciosas.

Each language version is independently generated for its own context, not a direct translation.

Título: BlackMirror: Detecção de Backdoors em Caixas-Pretas para Modelos Texto-para-Imagem via Desvio de Instrução-Resposta

1. O Problema

Os modelos generativos de texto para imagem (T2I), como o Stable Diffusion, têm sido amplamente adotados, mas enfrentam ameaças críticas de segurança, especificamente ataques de backdoor. Nesses ataques, um adversário injeta comportamentos ocultos durante o treinamento, fazendo com que o modelo gere imagens indesejadas ou manipuladas quando um "gatilho" específico (trigger) está presente no prompt.

O desafio central abordado neste trabalho é a detecção desses backdoors em cenários de caixa-preta (black-box). Em aplicações reais (como plataformas MaaS - Model-as-a-Service), os usuários e defensores não têm acesso aos pesos do modelo, à arquitetura ou aos dados de treinamento.

Limitação das abordagens existentes: Métodos anteriores, como o UFID, baseiam-se na suposição de que imagens geradas por backdoors exibem alta similaridade visual global sob perturbações de prompt. No entanto, ataques modernos (como ObjRepAtt, PatchAtt e StyleAtt) manipulam apenas padrões visuais parciais, mantendo o restante da imagem diversificado e benigno. Isso faz com que a similaridade global falhe, tornando essas imagens indistinguíveis das benignas no espaço de embeddings.

2. Metodologia: BlackMirror

O BlackMirror é um framework de detecção geral, sem necessidade de treinamento (training-free) e plug-and-play, que opera sob a premissa de que os backdoors causam desvios semânticos estáveis entre a instrução (prompt) e a resposta (imagem gerada). O sistema consiste em dois componentes principais:

A. MirrorMatch (Correspondência Espelho)
Esta etapa foca na detecção de desvios em nível de padrão visual (fine-grained).

Extração de Padrões: Utiliza um Modelo de Linguagem (LLM) para extrair objetos e conceitos do prompt de entrada ( $O_{ins}$ ) e um Modelo Visão-Linguagem (VLM) com mecanismo de votação majoritária para extrair objetos da imagem gerada ( $O_{res}$ ).
Identificação de Desvios: Compara os dois conjuntos para identificar:
- Objetos Novos ( $O_{new}$ ): Presentes na imagem, mas não no prompt (ex: um gato aparecendo onde foi pedido um cachorro).
- Objetos Perdidos ( $O_{lost}$ ): Solicitados no prompt, mas ausentes na imagem.
- Desvios de Estilo/Patch: Verificações específicas para estilos artísticos ou inserção de patches visuais não solicitados.
Filtragem: Objetos que aparecem em ambos são considerados "seguros". Os desvios são marcados como suspeitos.

B. MirrorVerify (Verificação Espelho)
Esta etapa distingue desvios reais de backdoor de viés natural do modelo ou ruído, baseando-se na estabilidade cruzada.

Mascaramento de Padrão: O sistema gera variações do prompt original removendo os objetos "seguros" (que estão alinhados corretamente), mantendo o gatilho potencial.
Geração e Verificação: O modelo gera múltiplas imagens com essas variações de prompt. O VLM é consultado repetidamente para verificar se o objeto ou padrão suspeito (identificado no MirrorMatch) persiste consistentemente nessas novas gerações.
Decisão:
- Se o desvio for causado por um backdoor, ele tende a ser estável (persiste em todas as gerações, independentemente da variação do prompt).
- Se o desvio for causado por viés do modelo, ele tende a ser instável (desaparece ou muda com pequenas variações).
- Um escore de estabilidade é calculado. Se exceder um limiar ( $\tau$ ), a amostra é classificada como comprometida.

3. Contribuições Principais

Novo Paradigma de Detecção: Propõe a primeira detecção geral de backdoors em caixa-preta para T2I baseada em desvio de instrução-resposta em nível de padrão, superando a dependência de similaridade global de imagem.
Arquitetura Modular e Sem Treinamento: Introduz dois componentes plug-and-play (MirrorMatch e MirrorVerify) que não requerem acesso ao modelo interno, sendo aplicáveis a qualquer modelo T2I disponível via API.
Generalização Robusta: O método é capaz de detectar múltiplos tipos de ataques, incluindo:
- Substituição de Objetos (ObjRepAtt).
- Inserção de Patches (PatchAtt).
- Alteração de Estilo (StyleAtt).
- Geração Fixa (FixImgAtt).
Interpretabilidade: Ao contrário de métodos que apenas dão um "sim/não", o BlackMirror identifica qual objeto ou estilo foi manipulado, fornecendo explicações interpretáveis sobre o ataque.

4. Resultados Experimentais

Os experimentos foram conduzidos em uma ampla gama de ataques (BadT2I, EvilEdit, PaaS, RickTPA, VillanDiffusion) usando o Stable Diffusion v1.5.

Desempenho Superior: O BlackMirror superou significativamente o estado da arte em caixa-preta (UFID) e métodos de caixa-branca (como T2IShield e NaviT2I) em muitos cenários.
- ObjRepAtt: Melhorou o F1-score de ~66% (UFID) para 86.96% no ataque BadT2I.
- PatchAtt e StyleAtt: O UFID falhou drasticamente nestes ataques (F1 < 70%), enquanto o BlackMirror alcançou >90% de F1.
- FixImgAtt: Mantém desempenho competitivo, embora o UFID seja ligeiramente melhor em ataques de imagem fixa pura, o BlackMirror oferece maior robustez geral sem ajuste fino de limiares.
Taxa de Falsos Positivos (FPR): O método conseguiu manter uma FPR média baixa (~15%), comparado a taxas muito mais altas em métodos concorrentes quando enfrentam ataques sutis.
Eficiência: Embora envolva múltiplas gerações para verificação, o custo computacional é marginalmente maior (apenas ~6% de aumento de tempo) em comparação ao UFID, pois evita comparações quadráticas de similaridade de imagem, substituindo-as por consultas diretas ao VLM.

5. Significância e Impacto

O BlackMirror representa um avanço crucial na segurança de IA generativa.

Solução para Cenários Reais: Como a maioria dos serviços de IA é oferecida em caixa-preta, a capacidade de detectar backdoors sem acesso ao modelo é vital para a adoção segura de T2I em indústrias críticas.
Resiliência a Ataques Avançados: O trabalho demonstra que a similaridade visual global é uma métrica frágil contra ataques modernos e sutis. A análise de consistência semântica entre prompt e imagem é uma abordagem mais robusta.
Escalabilidade: Por ser um framework independente do modelo e sem treinamento, ele pode ser implantado imediatamente como um módulo de segurança em plataformas de serviço de IA, protegendo usuários contra manipulações ocultas sem necessidade de re-treinamento ou acesso aos dados proprietários do modelo.

Em resumo, o BlackMirror redefine o estado da arte na detecção de backdoors em modelos generativos, focando na estabilidade semântica dos desvios em vez da similaridade visual bruta, oferecendo uma defesa eficaz, interpretável e aplicável a cenários do mundo real.

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

O Problema: O Detetive Antigo (UFID)

A Solução: O BlackMirror (O Espelho Mágico)

1. O Espelho de Alinhamento (MirrorMatch)

2. O Espelho de Verificação (MirrorVerify)

Por que isso é genial?

Resumo da Ópera

Título: BlackMirror: Detecção de Backdoors em Caixas-Pretas para Modelos Texto-para-Imagem via Desvio de Instrução-Resposta

1. O Problema

2. Metodologia: BlackMirror

3. Contribuições Principais

4. Resultados Experimentais

5. Significância e Impacto

Mais como este

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning