Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha extremamente talentoso (o modelo de IA) que aprendeu a cozinhar milhões de pratos olhando para receitas e fotos de comida. Ele é incrível: faz desde bolos até pratos complexos.

Mas, imagine que uma pessoa específica, digamos o "Sr. João", pediu para o chef esquecer completamente como cozinhar o prato dele, porque o Sr. João quer que sua imagem não apareça mais em nenhum lugar. Ou talvez o chef tenha aprendido a fazer uma bandeira de um país de um jeito estranho e ofensivo, e agora precisam corrigir isso.

Aqui está o problema: Como você pede ao chef para esquecer algo específico sem fazer ele esquecer como cozinhar qualquer coisa?

O Problema: "O Esquecimento Impossível"

Até hoje, se você quisesse que o chef esquecesse algo, você teria que dar uma instrução muito clara, como: "Não faça mais pratos com tomate". Isso funciona bem se o problema for um ingrediente (um conceito).

Mas e se o problema for uma pessoa específica ou uma foto específica que não tem um "nome" ou "rótulo" fácil?

Você não pode dizer "não faça fotos do Sr. João" se o chef não sabe quem é o Sr. João pelo nome, apenas pela cara.
Você não pode dizer "não faça a bandeira do Japão errada" se o erro é sutil e depende de uma imagem específica, não de uma palavra.

Isso é o que os autores chamam de "instância não solicitável". É como tentar apagar uma mancha específica de uma parede pintada sem usar tinta para cobrir a mancha inteira ou estragar a parede toda.

A Solução: O "Duplo" Inteligente

Os autores deste paper criaram um método genial que funciona como um truque de mágica para o cérebro do chef. Em vez de dizer "esqueça isso", eles fazem o seguinte:

Criam um "Duplo" (Surrogate): Eles pegam a foto do "Sr. João" (o que querem apagar) e a editam levemente. Talvez mudem a cor do cabelo, o formato do óculos ou o fundo, mas mantêm a estrutura geral. Vamos chamar isso de "Sr. João 2.0".
O Truque da Confusão: Eles ensinam o chef: "Olhe para a foto do Sr. João original, mas quando você tentar recriá-la, imagine que é o Sr. João 2.0".
- Ao fazer isso repetidamente, o cérebro do chef começa a ficar confuso sobre quem é o "Sr. João original".
- Com o tempo, o chef "esquece" a imagem exata do original porque a associação foi quebrada. Ele aprendeu a associar aquela cara a algo diferente.
O Equilíbrio Perfeito (Cirurgia de Gradiente): O maior medo é que, ao tentar esquecer o Sr. João, o chef esqueça como fazer bolos também. Para evitar isso, eles usam uma técnica chamada "cirurgia de gradiente".
- Imagine que o cérebro do chef tem dois pensamentos: um que diz "Faça o bolo" (memória) e outro que diz "Esqueça o Sr. João" (esquecimento).
- Esses dois pensamentos brigam. A "cirurgia" é como um árbitro que segura a mão do pensamento que está brigando, garantindo que o bolo continue perfeito enquanto o Sr. João desaparece.

Por que isso é importante?

Privacidade Real: Se alguém quer que sua foto saia da internet gerada por IA, você não precisa saber o "prompt" (comando de texto) que a IA usou. Você só precisa mostrar a foto e dizer "isso aqui".
Correção de Erros Culturais: Às vezes, IAs mostram figuras históricas ou bandeiras de forma errada (ex: um general romano com traços errados). Como não dá para pedir "não faça o general romano errado" (porque a IA não sabe o que é "errado" sem a imagem), esse método permite corrigir a imagem específica sem quebrar a IA.
Não estraga o resto: Diferente de métodos antigos que podiam deixar a IA "boba" ou gerar imagens estranhas, esse método mantém a qualidade das outras imagens intactas.

Resumo da Ópera

Pense nisso como um apagador de quadro branco superpreciso.

Métodos antigos: Tentavam apagar uma mancha de tinta jogando um balde de água no quadro inteiro (destruindo tudo) ou tentando apagar apenas onde o marcador estava escrito (mas a mancha não tinha "escrita", era apenas uma imagem).
O método novo: Pega a mancha, cria uma versão levemente alterada dela, e ensina o quadro a confundir as duas. Assim, a mancha original desaparece, mas o resto do quadro (os desenhos bonitos) continua perfeito.

É uma solução prática para garantir que as IAs respeitem a privacidade das pessoas e a verdade cultural, sem precisar que saibamos exatamente "o que" pedir para elas esquecerem.

Each language version is independently generated for its own context, not a direct translation.

Título: Desaprendendo o Não-Promptável: Desaprendizagem de Instância sem Prompt em Modelos de Difusão

1. Problema e Motivação

O aprendizado de máquina (Machine Learning) tradicional foca no treinamento, mas a desaprendizagem de máquina (Machine Unlearning) tornou-se crucial para remover informações específicas de modelos treinados, seja por privacidade (ex: GDPR e o "direito ao esquecimento") ou por questões éticas.

Limitação das Abordagens Atuais: A maioria dos métodos existentes de desaprendizagem para Modelos de Difusão (DMs) é baseada em prompts. Eles exigem que o usuário forneça um prompt textual (ex: "remova a imagem de celebridade X") para identificar o que deve ser esquecido.
O Desafio do "Não-Promptável": Muitos outputs indesejados não podem ser especificados por texto. Exemplos incluem:
- O rosto de uma pessoa específica em um modelo não-condicional (sem prompts).
- Representações culturalmente ou factualmente incorretas geradas por prompts (ex: um modelo gerando o general romano "Scipio Africanus" como um africano de pele escura, ou a bandeira do Barbados incorreta).
- Instâncias individuais que não possuem um descritor textual único.
A Lacuna: Métodos baseados em prompts falham nesses casos porque não há um prompt "c" que isole a instância indesejada sem afetar dados válidos. Além disso, métodos prompt-free existentes frequentemente degradam a integridade do modelo (causando distorções ou perda de qualidade geral).

2. Metodologia Proposta

Os autores propõem um método de desaprendizagem de instância sem prompt (prompt-free) baseado em surrogatos (substitutos), projetado para modelos condicionais e não-condicionais. O método combina três técnicas principais:

A. Objetivo de Desaprendizagem Baseado em Surrogatos
Em vez de tentar "apagar" diretamente a instância indesejada ( $x_f$ ), o método cria uma imagem surrogato ( $x_s$ ) que mantém a estrutura geral, mas altera a identidade ou atributo indesejado (ex: mudar o rosto ou corrigir a bandeira).

Mecanismo: O modelo é treinado para mapear o ruído da imagem original ( $x_f$ ) para o ruído que geraria a imagem surrogato ( $x_s$ ).
Fórmula: Em vez de prever o ruído $\epsilon$ para reconstruir $x_f$ , o objetivo de "esquecimento" ( $L_f$ ) força o modelo a prever um $\epsilon'$ que levaria a $x_s$ :
$\epsilon' = \frac{x_f^t - \sqrt{\bar{\alpha}_t}x_s^0}{\sqrt{1 - \bar{\alpha}_t}}$
Isso perturba o mapeamento específico da instância indesejada sem destruir a distribuição geral.

B. Ponderação Consciente do Passo de Tempo (Timestep-aware Weighting)
Para equilibrar o conflito entre "esquecer" a instância alvo e "lembrar" (preservar) o resto do modelo:

O método utiliza um peso adaptativo $\lambda(t)$ que varia conforme o passo de tempo $t$ do processo de difusão.
Lógica: Passos iniciais ( $t$ baixo) afetam detalhes finos, enquanto passos tardios ( $t$ alto) definem a forma geral. O método enfatiza a perda de "lembrança" ( $L_r$ ) nos passos iniciais e a perda de "esquecimento" ( $L_f$ ) nos passos tardios, utilizando $\lambda(t) = 1 - \beta t$ .

C. Cirurgia de Gradientes (Gradient Surgery)
Como os objetivos de lembrar e esquecer geram gradientes conflitantes, o método emprega uma técnica de cirurgia de gradientes (inspirada em PCGrad):

Se os gradientes da perda de lembrar ( $\nabla L_r$ ) e da perda de esquecer ( $\nabla L_f$ ) tiverem produto escalar negativo (conflito), o gradiente de esquecimento é projetado ortogonalmente ao gradiente de lembrança.
Isso evita que a atualização para esquecer a instância alvo destrua a capacidade do modelo de gerar outras imagens corretamente.

3. Contribuições Principais

Definição de um Novo Problema: Identificação e formalização do desafio de desaprendizagem de instâncias "não-promptáveis" em modelos de difusão, tanto condicionais quanto não-condicionais.
Solução Técnica: Introdução de um método que utiliza edição de imagem para criar surrogatos, combinado com ponderação de passos de tempo e cirurgia de gradientes.
Validação Teórica: Demonstração teórica (via regressão ridge) de que a desaprendizagem baseada em surrogatos pode preservar melhor os parâmetros originais do modelo do que a "desaprendizagem exata" (remoção pura de dados), pois a mudança no espaço de parâmetros é mais suave.
Aplicabilidade Prática: O método funciona em modelos de grande escala como Stable Diffusion 3 (condicional) e DDPM (não-condicional), corrigindo erros culturais e de privacidade sem necessidade de prompts.

4. Resultados Experimentais

Os experimentos foram realizados em datasets como CelebA-HQ (rostos) e Stable Diffusion 3 (geração condicional).

Desaprendizagem de Instância Única e Múltipla:
- O método proposto superou baselines como NegGrad, EraseDiff e SISS.
- Métricas de Integridade: O modelo manteve alta similaridade estrutural (SSIM) e baixa distância perceptual (LPIPS) em relação ao modelo original, indicando que a qualidade geral não foi degradada.
- Métricas de Esquecimento: O método alcançou valores de SSCD (Self-Supervised Copy Detection) abaixo de 0.4, indicando que a instância alvo foi efetivamente esquecida, sem gerar artefatos visuais severos.
Correção de Representações Indesejadas:
- Em testes com o Stable Diffusion 3, o método corrigiu com sucesso representações incorretas de figuras históricas (ex: "Xerxes") e bandeiras nacionais, enquanto mantinha a capacidade de gerar outras imagens corretamente.
Análise de Surrogatos:
- A construção de surrogatos via edição (ex: TediGAN, SDEdit) foi superior a métodos simples como espelhar a imagem ou adicionar ruído gaussiano, que resultaram em perda de fidelidade ou falha no esquecimento.

5. Significado e Impacto

Privacidade e Ética: Oferece uma solução prática para provedores de serviços de IA generativa cumprirem regulamentações como o GDPR, permitindo a remoção de rostos específicos ou dados sensíveis que não podem ser bloqueados por filtros de prompt.
Correção de Viés Cultural: Permite corrigir erros factuais ou culturais em modelos de geração de imagem sem a necessidade de retreinar o modelo inteiro ou reorganizar o conjunto de dados de treinamento.
Viabilidade Operacional: O método é escalável e pode ser aplicado como um "hotfix" (correção rápida) para modelos já implantados, sem depender da disponibilidade do conjunto de dados original de treinamento.

Em resumo, o trabalho preenche uma lacuna crítica na área de IA generativa, permitindo que modelos de difusão "esqueçam" especificidades indesejáveis que não podem ser descritas por texto, mantendo ao mesmo tempo a alta qualidade e a utilidade do modelo.

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

O Problema: "O Esquecimento Impossível"

A Solução: O "Duplo" Inteligente

Por que isso é importante?

Resumo da Ópera

Título: Desaprendendo o Não-Promptável: Desaprendizagem de Instância sem Prompt em Modelos de Difusão

1. Problema e Motivação

2. Metodologia Proposta

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers