PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

O PromptGuard é uma técnica inovadora de moderação de conteúdo que utiliza prompts suaves otimizados no espaço de incorporação textual de modelos texto-para-imagem para bloquear eficazmente a geração de conteúdo impróprio (NSFW) sem comprometer a qualidade das imagens seguras ou a eficiência da inferência.

Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Xiaofeng Wang, Bo Li

Publicado 2026-02-19
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um pintor de IA extremamente talentoso. Ele consegue criar quadros lindos e realistas a partir de qualquer frase que você diga. Se você pedir "um gato no telhado ao pôr do sol", ele faz um quadro incrível.

O problema é que esse pintor é um pouco "ingênuo" e não tem um filtro moral. Se você pedir algo perigoso, como "um homem nu em uma cena violenta", ele obedece cegamente e cria a imagem, o que pode ser ofensivo ou ilegal.

Até agora, as soluções para isso eram como tentar consertar o pintor de duas formas ruins:

  1. Reeducar o pintor (Fine-tuning): Tentar ensinar o pintor a não gostar dessas coisas. O problema é que, ao fazer isso, ele às vezes esquece como pintar coisas bonitas e normais, ou o processo fica muito lento e caro.
  2. Colocar um guarda na porta (Filtros externos): Ter um segundo robô que lê o seu pedido antes do pintor. Se o pedido for ruim, o guarda bloqueia. Se o pedido passar, o pintor trabalha. O problema é que isso deixa tudo mais lento e, às vezes, o guarda é muito rígido e bloqueia coisas inofensivas.

A Solução: O "PromptGuard" (O Guardião de Palavras)

Os autores deste artigo criaram uma solução inteligente chamada PromptGuard. Eles usaram uma ideia emprestada dos grandes assistentes de texto (como o ChatGPT), chamados de "System Prompts" (Prompts de Sistema).

A Analogia do "Sussurro Mágico":
Imagine que, em vez de reeducar o pintor ou colocar um guarda, você dá a ele um sussurro mágico que fica escondido no final de cada pedido que você faz.

  • Quando você pede algo perigoso (ex: "homem nu"), o sussurro mágico entra em ação. Ele não bloqueia o pedido, mas muda a intenção dele no cérebro do pintor. O pintor ainda ouve "homem", mas o sussurro diz: "pinte uma pessoa vestida, de forma segura".
  • Quando você pede algo normal (ex: "gato no telhado"), o sussurro mágico fica quieto e deixa o pintor trabalhar normalmente, sem estragar a imagem.

Esse "sussurro" é tecnicamente chamado de "Soft Prompt" (Prompt Suave). É uma sequência de palavras invisíveis que o computador entende, mas que você não vê.

Como eles fizeram isso? (A Receita)

  1. Dividir para Conquistar: O papel perigoso tem várias faces: nudez, violência, política e coisas assustadoras. Em vez de tentar criar um único "sussurro" para tudo, eles criaram quatro "sussurros" especializados (um para cada tipo de perigo) e depois os juntaram em um só. É como ter quatro guardiões diferentes que formam uma equipe.
  2. Treinamento Inteligente: Eles ensinaram o sistema mostrando pares de imagens: uma imagem "ruim" e uma versão "segura" da mesma imagem. O sistema aprendeu a transformar a "ruim" na "segura" usando apenas esse sussurro mágico, sem precisar mudar os pesos do pintor original.
  3. Velocidade: Como não precisam de um segundo robô para checar nada e não precisam reeducar o pintor, o processo é 3,8 vezes mais rápido que os métodos antigos.

Por que isso é importante?

  • É Rápido: Não atrasa a geração da imagem.
  • É Preciso: Consegue bloquear quase tudo o que é perigoso (reduzindo imagens ruins para menos de 6% dos casos, enquanto outros métodos deixam passar muito mais).
  • Não estraga o bom: Se você pedir uma imagem bonita, ela continua bonita. O método antigo muitas vezes deixava as imagens borradas ou apagadas; o PromptGuard mantém a qualidade.
  • É Flexível: Se amanhã surgir um novo tipo de conteúdo perigoso (ex: automutilação), eles podem criar um novo "sussurro" específico para isso e apenas adicioná-lo ao pacote, sem ter que reprogramar todo o sistema do zero.

Resumo da Ópera:
O PromptGuard é como um filtro de realidade invisível que você cola na ponta da caneta do pintor de IA. Ele garante que, não importa o que você escreva, o resultado final será sempre seguro, ético e de alta qualidade, sem deixar o processo lento ou estragar a criatividade para pedidos normais. É uma maneira leve, rápida e eficiente de manter a internet mais segura.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →