PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um pintor de IA extremamente talentoso. Ele consegue criar quadros lindos e realistas a partir de qualquer frase que você diga. Se você pedir "um gato no telhado ao pôr do sol", ele faz um quadro incrível.

O problema é que esse pintor é um pouco "ingênuo" e não tem um filtro moral. Se você pedir algo perigoso, como "um homem nu em uma cena violenta", ele obedece cegamente e cria a imagem, o que pode ser ofensivo ou ilegal.

Até agora, as soluções para isso eram como tentar consertar o pintor de duas formas ruins:

Reeducar o pintor (Fine-tuning): Tentar ensinar o pintor a não gostar dessas coisas. O problema é que, ao fazer isso, ele às vezes esquece como pintar coisas bonitas e normais, ou o processo fica muito lento e caro.
Colocar um guarda na porta (Filtros externos): Ter um segundo robô que lê o seu pedido antes do pintor. Se o pedido for ruim, o guarda bloqueia. Se o pedido passar, o pintor trabalha. O problema é que isso deixa tudo mais lento e, às vezes, o guarda é muito rígido e bloqueia coisas inofensivas.

A Solução: O "PromptGuard" (O Guardião de Palavras)

Os autores deste artigo criaram uma solução inteligente chamada PromptGuard. Eles usaram uma ideia emprestada dos grandes assistentes de texto (como o ChatGPT), chamados de "System Prompts" (Prompts de Sistema).

A Analogia do "Sussurro Mágico":
Imagine que, em vez de reeducar o pintor ou colocar um guarda, você dá a ele um sussurro mágico que fica escondido no final de cada pedido que você faz.

Quando você pede algo perigoso (ex: "homem nu"), o sussurro mágico entra em ação. Ele não bloqueia o pedido, mas muda a intenção dele no cérebro do pintor. O pintor ainda ouve "homem", mas o sussurro diz: "pinte uma pessoa vestida, de forma segura".
Quando você pede algo normal (ex: "gato no telhado"), o sussurro mágico fica quieto e deixa o pintor trabalhar normalmente, sem estragar a imagem.

Esse "sussurro" é tecnicamente chamado de "Soft Prompt" (Prompt Suave). É uma sequência de palavras invisíveis que o computador entende, mas que você não vê.

Como eles fizeram isso? (A Receita)

Dividir para Conquistar: O papel perigoso tem várias faces: nudez, violência, política e coisas assustadoras. Em vez de tentar criar um único "sussurro" para tudo, eles criaram quatro "sussurros" especializados (um para cada tipo de perigo) e depois os juntaram em um só. É como ter quatro guardiões diferentes que formam uma equipe.
Treinamento Inteligente: Eles ensinaram o sistema mostrando pares de imagens: uma imagem "ruim" e uma versão "segura" da mesma imagem. O sistema aprendeu a transformar a "ruim" na "segura" usando apenas esse sussurro mágico, sem precisar mudar os pesos do pintor original.
Velocidade: Como não precisam de um segundo robô para checar nada e não precisam reeducar o pintor, o processo é 3,8 vezes mais rápido que os métodos antigos.

Por que isso é importante?

É Rápido: Não atrasa a geração da imagem.
É Preciso: Consegue bloquear quase tudo o que é perigoso (reduzindo imagens ruins para menos de 6% dos casos, enquanto outros métodos deixam passar muito mais).
Não estraga o bom: Se você pedir uma imagem bonita, ela continua bonita. O método antigo muitas vezes deixava as imagens borradas ou apagadas; o PromptGuard mantém a qualidade.
É Flexível: Se amanhã surgir um novo tipo de conteúdo perigoso (ex: automutilação), eles podem criar um novo "sussurro" específico para isso e apenas adicioná-lo ao pacote, sem ter que reprogramar todo o sistema do zero.

Resumo da Ópera:
O PromptGuard é como um filtro de realidade invisível que você cola na ponta da caneta do pintor de IA. Ele garante que, não importa o que você escreva, o resultado final será sempre seguro, ético e de alta qualidade, sem deixar o processo lento ou estragar a criatividade para pedidos normais. É uma maneira leve, rápida e eficiente de manter a internet mais segura.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: PromptGuard

1. O Problema

Os modelos de geração de imagem a partir de texto (Text-to-Image ou T2I), como o Stable Diffusion, demonstraram desempenho notável na criação de imagens realistas. No entanto, eles são vulneráveis ao mau uso para gerar conteúdo NSFW (Not-Safe-For-Work), incluindo material sexualmente explícito, violento, político extremista e perturbador.

As defesas atuais enfrentam dois desafios principais:

Alinhamento de Modelo: Métodos que ajustam ou re-treinam o modelo (fine-tuning) para remover capacidades indesejadas. Isso frequentemente degrada a qualidade das imagens benignas e exige alto custo computacional.
Moderação de Conteúdo Externa: Uso de modelos proxy para filtrar entradas ou saídas, ou reescrita de prompts. Essas abordagens adicionam sobrecarga computacional, podem introduzir atrasos e, muitas vezes, resultam em imagens bloqueadas ou borradas em vez de seguras.

Existe uma lacuna crítica para uma solução de moderação que seja eficiente, leve, robusta a ataques adversariais e que preserve a qualidade da geração de imagens benignas sem alterar a arquitetura do modelo base.

2. Metodologia

O PromptGuard propõe uma técnica inovadora inspirada no mecanismo de "System Prompt" (prompt de sistema) usado em Grandes Modelos de Linguagem (LLMs). Diferente dos LLMs, os modelos T2I não possuem uma interface direta para instruções de segurança. O PromptGuard contorna isso otimizando um soft prompt (prompt suave) que atua como um prompt de sistema implícito dentro do espaço de embeddings textuais do modelo.

Principais componentes da metodologia:

Otimização de Soft Prompt (P*):
- Em vez de usar tokens discretos, o método otimiza um vetor de embedding contínuo (uma "pseudo-palavra") no espaço de embeddings do codificador de texto do modelo T2I.
- Este vetor é anexado ao final de qualquer prompt de entrada do usuário durante a inferência.
- O objetivo é desviar a geração de regiões associadas a conteúdo inseguro no espaço latente, sem bloquear a geração benigna.
Estratégia "Divide and Conquer" (Dividir para Conquistar):
- Reconhecendo a diversidade do conteúdo NSFW, o sistema categoriza as ameaças em quatro tipos: Sexual, Violência, Política e Perturbador.
- Em vez de tentar criar um único prompt universal, o PromptGuard otimiza embeddings separados para cada categoria e os concatena para formar um prompt de segurança holístico.
Preparação de Dados e Treinamento:
- Dados Maliciosos: Prompts maliciosos são pareados com imagens originais e versões "seguras" geradas via SDEdit (modificando apenas as regiões inseguras da imagem).
- Dados Benignos: Prompts seguros de conjuntos de dados como COCO são usados para garantir que a qualidade não seja degradada.
- Função de Perda (Loss Function): Utiliza aprendizado contrastivo com duas funções de perda:
  - $L_b$ (Preservação Benigna): Garante que prompts seguros gerem imagens fiéis ao original.
  - $L_m$ (Moderação Maliciosa): Força o modelo a prever ruído alinhado com a versão segura da imagem e distante da versão insegura.
- Um hiperparâmetro $\lambda$ equilibra a supressão de conteúdo inseguro com a preservação da qualidade.
Inferência:
- Durante a inferência, os embeddings treinados são concatenados e anexados a todos os prompts de entrada. Isso atua como um guia de segurança contínuo, sem necessidade de modelos externos ou etapas de filtragem adicionais.

3. Contribuições Principais

Nova Técnica: Introdução do conceito de "System Prompt" para modelos T2I via otimização de soft prompts, permitindo moderação leve e sem alteração de parâmetros do modelo base.
Abordagem Modular e Escalável: A estratégia de dividir as categorias de risco permite adicionar novos tipos de conteúdo inseguro (ex: autolesão) simplesmente treinando um novo embedding e anexando-o, sem re-treinar o modelo inteiro.
Eficiência e Robustez: O método não requer modelos proxy nem modifica o processo de difusão, mantendo a velocidade de inferência original.
Validação Abrangente: Experimentos extensivos em cinco conjuntos de dados, cobrindo moderação natural, preservação de conteúdo benigno e robustez contra ataques adversariais.

4. Resultados Experimentais

O PromptGuard foi comparado com oito métodos state-of-the-art (incluindo alinhamento de modelo e moderação de conteúdo) em cinco conjuntos de dados de benchmark.

Eficácia na Remoção de NSFW:
- Alcançou a menor taxa de conteúdo inseguro (Unsafe Ratio) média de 5,84%, superando todos os baselines.
- Reduziu a taxa de imagens sexualmente explícitas de 71,17% (no modelo original) para 1,50%.
- Desempenho superior em todas as quatro categorias (Sexual, Violência, Política, Perturbador).
Preservação de Conteúdo Benigno:
- Mantém alta fidelidade em prompts seguros, obtendo o 2º melhor pontuação CLIP e 3º melhor pontuação LPIPS entre as abordagens de moderação.
- Diferente de métodos que borram ou bloqueiam imagens, o PromptGuard gera imagens realistas e seguras.
Eficiência:
- É 3,8 vezes mais rápido que métodos de moderação anteriores que utilizam modelos externos ou reescrita de prompts, pois não adiciona sobrecarga computacional significativa.
Robustez Adversarial:
- Sobreviveu a três configurações de ataque de "red-teaming" (SneakyPrompt-N, SneakyPrompt-P e MMA-Diffusion), mantendo uma taxa de conteúdo inseguro média de apenas 2,35%, superando todos os baselines.
Escalabilidade:
- Demonstrou capacidade de integrar novas categorias (ex: autolesão) sem degradar a moderação das categorias existentes.
- Os embeddings treinados no Stable Diffusion v1.4 transferiram-se com sucesso para o SD v1.5 e SDXL sem necessidade de re-treinamento.

5. Significado e Impacto

O PromptGuard representa um avanço significativo na segurança de IA generativa. Ao emular o mecanismo de prompts de sistema dos LLMs, ele oferece uma solução model-agnostic (no sentido de não exigir re-treinamento do núcleo do modelo) e computacionalmente eficiente.

Sua capacidade de gerar imagens seguras e realistas, em vez de simplesmente bloquear o conteúdo, resolve o dilema ético de censura excessiva versus segurança. Além disso, a natureza modular da solução facilita a adaptação rápida a novas ameaças emergentes, tornando-o uma ferramenta prática e robusta para a implementação de segurança em serviços comerciais de geração de imagem. O código foi aberto para fomentar pesquisas futuras em ética de IA.

PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

A Solução: O "PromptGuard" (O Guardião de Palavras)

Como eles fizeram isso? (A Receita)

Por que isso é importante?

Resumo Técnico: PromptGuard

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks