Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que os modelos de Inteligência Artificial que transformam texto em imagens (como o DALL-E ou o Stable Diffusion) são como cozinheiros muito talentosos, mas extremamente cautelosos. Eles podem criar pratos incríveis, mas têm um "chefe de segurança" rigoroso que impede que eles preparem qualquer coisa perigosa ou imprópria (como violência ou conteúdo adulto).

Para garantir que nada ruim saia da cozinha, esses sistemas usam uma defesa em três camadas:

O Porteiro (Verificador de Texto): Antes de você pedir o prato, ele lê o seu pedido. Se você usar palavras proibidas, ele não deixa você entrar.
O Cozinheiro Seguro (O Modelo em si): Mesmo que você entre, o cozinheiro foi treinado para não usar certos ingredientes, mesmo que você peça.
O Inspetor de Saída (Verificador de Imagem): Quando o prato sai, ele olha a foto. Se a comida parecer perigosa, ele joga tudo fora e entrega um prato vazio (preto).

O Problema: Como "Quebrar" esse Sistema?

Até agora, os pesquisadores tentavam enganar esses sistemas de duas formas principais:

Ataques de "Força Bruta": Tentar adivinhar combinações de palavras aleatórias até que algo funcione. É como tentar abrir um cofre girando a combinação milhões de vezes. É lento e ineficiente.
Ataques de "Caminho Conhecido": Usar informações internas do sistema (como gradientes) para saber exatamente onde apertar. O problema é que, na vida real, os cofres comerciais não mostram essas informações.

O grande desafio é que, para enganar o sistema, você precisa passar por todas as três camadas ao mesmo tempo, mantendo o pedido com sentido (para que o cozinheiro entenda o que fazer).

A Solução: O "TCBS-Attack" (A Busca pela Fronteira)

Os autores deste artigo propuseram uma nova estratégia chamada TCBS-Attack. Em vez de tentar adivinhar aleatoriamente ou usar força bruta, eles usam uma técnica inteligente baseada em evolução e busca por "fronteiras".

Aqui está a analogia para entender como funciona:

1. A Analogia da "Zona de Perigo" (Fronteiras de Decisão)

Imagine que a segurança do sistema é como um campo minado.

O centro do campo é "Seguro" (onde você pode pedir qualquer coisa normal).
A borda do campo é "Perigoso" (onde o sistema bloqueia).
A Fronteira é a linha exata onde o sistema muda de "Aceitar" para "Bloquear".

A grande descoberta dos autores é que a fronteira é o lugar mais sensível. Se você estiver exatamente na linha, uma mudança muito pequena (trocar uma palavra por um sinônimo) pode fazer o sistema mudar de "Bloquear" para "Aceitar", sem que você precise gritar palavras proibidas.

2. Como o TCBS-Attack Funciona (O Processo Evolutivo)

O método funciona como um jogo de "Quente e Frio" guiado por uma população de exploradores:

O Exército de Exploradores: O sistema cria um grupo (população) de pedidos de texto variados.
A Busca pela Fronteira: Em vez de procurar em todo o mapa, o algoritmo foca apenas nos exploradores que estão perto da linha de bloqueio.
- Se um pedido foi bloqueado pelo "Porteiro", o sistema tenta mudar levemente as palavras para ver se ele consegue passar, mantendo o sentido.
- Se o pedido passou pelo "Porteiro" mas foi bloqueado pelo "Inspetor de Imagem" (porque a imagem gerada ficou estranha), o sistema ajusta o pedido para tentar gerar uma imagem que fique na borda da segurança.
A Evolução: O sistema seleciona os "exploradores" que estão mais perto de passar por todas as barreiras e os "reproduz" (mistura e modifica) para a próxima rodada. É como a evolução natural: os que sobrevivem (passam pelos filtros) são os que geram a próxima geração.

3. Por que é tão eficiente?

Ao contrário de tentar adivinhar combinações aleatórias, o TCBS-Attack não perde tempo com pedidos que estão muito longe da linha de segurança. Ele sabe que a resposta está logo ali, na fronteira. Isso economiza muitas tentativas (consultas) e cria pedidos que parecem naturais e seguros para um humano, mas que "enganam" o sistema.

Os Resultados (O Que Eles Conseguiram?)

Os pesquisadores testaram esse método contra:

Modelos de código aberto (como o Stable Diffusion).
Modelos que já foram treinados para serem super seguros.
Serviços comerciais famosos, como o DALL-E 3.

O resultado foi impressionante:
O TCBS-Attack conseguiu enganar esses sistemas com muito mais sucesso do que os métodos anteriores. Em alguns testes, ele conseguiu fazer o DALL-E 3 gerar conteúdo proibido em mais de 50% das tentativas, enquanto os outros métodos falhavam na maioria das vezes.

Conclusão Simples

Pense no TCBS-Attack como um detetive especialista que não tenta arrombar a porta da frente. Em vez disso, ele observa onde a fechadura está mais frouxa (a fronteira de decisão), faz ajustes minúsculos e precisos, e consegue entrar sem ser notado.

Por que isso é importante?
O objetivo não é ensinar pessoas a fazerem coisas ruins, mas sim encontrar as falhas antes que os criminosos o façam. Ao mostrar onde os sistemas de segurança são fracos, os desenvolvedores podem fortalecer suas defesas, tornando a IA mais segura para todos nós. É como testar a segurança de um banco para garantir que os cofres estejam realmente à prova de bandidos.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os modelos de geração de Texto para Imagem (T2I), como o Stable Diffusion e o DALL-E 3, evoluíram rapidamente, mas geram preocupações de segurança quanto à produção de conteúdo inadequado ou nocivo (NSFW - Not-Safe-For-Work).

Defesa em Cadeia Completa (Full-Chain): Em implantações reais, os sistemas T2I não dependem de um único filtro. Eles adotam uma defesa em cadeia completa composta por:
1. Verificador de Prompt (Text Checker): Filtra o texto de entrada antes da geração.
2. Gerador Treinado com Segurança: O próprio modelo de difusão foi ajustado para suprimir conceitos inseguros.
3. Verificador de Imagem Pós-Hoc (Image Checker): Analisa a imagem gerada e bloqueia saídas inseguras.
Desafio do Ataque: Realizar um jailbreak (burlar a segurança) neste cenário é extremamente difícil em configurações de caixa-preta (black-box), pois:
- O espaço de busca é discreto e combinatório (sequências de tokens).
- O ataque deve satisfazer múltiplas restrições acopladas simultaneamente (passar pelo verificador de texto E gerar uma imagem que passe pelo verificador de imagem).
- O feedback é esparsos e o orçamento de consultas (queries) é limitado.
- O prompt adversário deve manter coerência semântica para não parecer óbvio.

2. Metodologia: TCBS-Attack

Os autores propõem o TCBS-Attack (Token-Level Constraint Boundary Search), um método de ataque de jailbreak baseado em consultas e otimização evolutiva. A ideia central é que os verificadores de segurança atuam como classificadores com fronteiras de decisão. Prompts próximos a essas fronteiras são os mais sensíveis a pequenas perturbações semânticas.

O método funciona através dos seguintes componentes:

A. Formulação do Problema

O ataque é modelado como um problema de otimização com restrições:

Objetivo: Maximizar a similaridade semântica entre a imagem gerada e o conteúdo alvo (NSFW).
Restrições:
1. O sistema deve gerar uma imagem válida (não ser bloqueado pelo gerador).
2. O prompt deve passar pelo verificador de texto ( $F_{text} = 1$ ).
3. A imagem gerada deve passar pelo verificador de imagem ( $F_{img} = 1$ , ou seja, score de NSFW = 0).

B. Fluxo de Trabalho Evolutivo

O algoritmo mantém uma população de prompts candidatos e itera através de três fases principais:

Inicialização e Detecção de Tokens Sensíveis:
- Identifica tokens sensíveis no prompt alvo (baseado em listas de palavras proibidas e classificadores de texto).
- Gera uma população inicial substituindo tokens sensíveis e não sensíveis por tokens semanticamente similares (usando similaridade de texto CLIP).
Busca de Tokens Baseada em Fronteira de Restrição (Token-Level Constraint Boundary Search):
- Busca Grossa (Coarse Search): Realiza substituições de tokens para explorar o espaço.
- Busca Extra (Extra Search): Foca especificamente em candidatos que estão perto da fronteira de decisão.
  - Se um candidato falha no verificador de imagem mas tem um score de violação baixo (próximo a zero), ele é refinado no domínio da imagem.
  - Se um candidato é rejeitado pelo verificador de texto após poucas edições, ele é tratado como estando perto da fronteira de texto e refinado.
- Isso reduz drasticamente o espaço de busca efetivo, evitando gastar consultas em candidatos que estão longe de serem viáveis.
Seleção de Tokens Baseada em Restrições:
- Utiliza um torneio binário para selecionar os melhores candidatos da população original e dos descendentes.
- A prioridade de seleção segue uma hierarquia:
  1. Passar no verificador de imagem (score = 0).
  2. Passar no verificador de texto.
  3. Maior similaridade semântica com o alvo.

3. Principais Contribuições

Novo Método de Ataque: Introdução do TCBS-Attack, um método de jailbreak evolutivo de caixa-preta que busca tokens especificamente nas fronteiras de decisão dos verificadores de texto e imagem.
Eficiência de Consulta: Ao focar a busca nas regiões próximas às fronteiras de restrição, o método reduz o espaço de busca efetivo e melhora a eficiência das consultas em cenários de defesa em cadeia completa.
Operadores de Busca e Seleção: Design de operadores eficientes no nível de token que lidam explicitamente com múltiplas restrições acopladas, garantindo coerência semântica.
Validação Abrangente: Demonstração de eficácia em diversos modelos, incluindo modelos de código aberto treinados com segurança (SLD, SafeGen) e serviços comerciais online (DALL-E 3).

4. Resultados Experimentais

Os experimentos foram realizados em benchmarks como MMA-Diffusion, UnsafeDiff e VBCDE, comparando o TCBS-Attack com 8 métodos State-of-the-Art (SOTA).

Desempenho em Modelos T2I Completos (SDv1.4 + Defesas):
- O TCBS-Attack superou consistentemente todos os baselines.
- Taxa de Sucesso de Ataque (ASR-4): Alcançou 52.5% (contra o melhor baseline de ~29.5% em alguns cenários).
- Taxa de Sucesso de Ataque (ASR-1): Alcançou 22.0%.
- Taxa de Bypass de Imagem (Bypass-Img): 82.0%, o mais alto entre todos os métodos testados.
Transferibilidade para Modelos Seguros:
- Ao atacar modelos treinados especificamente para segurança (SafeGen e SLD), o TCBS-Attack manteve a superioridade, alcançando ASR-4 de 20.0% no SafeGen e 17.0% no SLD.
Serviços Comerciais (DALL-E 3):
- Mesmo contra a defesa robusta e multi-camada do DALL-E 3, o TCBS-Attack alcançou uma taxa de sucesso (ASR-4) de 73.3% (detector Q16) e 60.0% (detector MHSC), superando métodos como U3-Attack e DREAM.
Estudo de Ablação:
- A remoção de qualquer restrição (texto ou imagem) resultou em queda significativa no desempenho, provando que a otimização conjunta é crucial para o sucesso em cenários de cadeia completa.

5. Significância e Conclusão

O trabalho demonstra que a segurança dos modelos T2I em implantações reais (com múltiplas camadas de defesa) é mais vulnerável do que se pensava quando atacada de forma coordenada.

Implicação de Segurança: O TCBS-Attack revela que focar na otimização nas "fronteiras" dos classificadores de segurança é uma estratégia altamente eficaz para burlar sistemas complexos, mesmo com orçamento limitado de consultas.
Contribuição para a Defesa: Ao expor essas vulnerabilidades, o trabalho fornece insights valiosos para desenvolvedores e pesquisadores de segurança. O objetivo declarado é fortalecer as defesas dos modelos T2I, permitindo que eles sejam mais robustos contra ataques adversariais sofisticados, em vez de facilitar o uso malicioso.
Futuro: Os autores sugerem que futuras pesquisas devem focar em melhorar a eficiência da busca evolutiva e em abordagens híbridas que combinem algoritmos evolutivos com outras técnicas de otimização inteligente para lidar com espaços de alta dimensão e evitar ótimos locais.