Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Este artigo propõe uma nova abordagem para o alinhamento de preferências em modelos de difusão que evita o re-treinamento do modelo base, utilizando um mecanismo de "guia contrastivo" em tempo de inferência que combina previsões de modelos especializados em dados positivos e negativos para gerar sinais de alinhamento mais nítidos e generalizáveis.

Zhou Jiang, Yandong Wen, Zhen Liu

Publicado 2026-02-24
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um artista muito talentoso, mas um pouco "selvagem". Vamos chamá-lo de Difusor. Ele aprendeu a pintar milhões de quadros olhando para a internet inteira. O resultado? Ele é incrível em criar imagens realistas, mas às vezes ele não entende exatamente o que você quer. Se você pedir "um gato feliz", ele pode pintar um gato triste, ou um gato que parece um cachorro, ou um gato que está voando em um foguete (porque ele viu isso na internet e achou legal).

O problema é: como ensinamos esse artista a obedecer melhor aos nossos desejos humanos sem estragar a sua genialidade?

Até agora, a solução comum era como dar uma "pílula de reeducação" pesada para o artista. Você mostrava milhares de exemplos do que é "bom" e do que é "ruim" e forçava o cérebro dele a mudar. O problema é que, ao fazer isso, o artista muitas vezes esquecia como pintar coisas bonitas e naturais, ou ficava tão obcecado com os exemplos que perdia a criatividade (o que os cientistas chamam de "sobreajuste" ou overfitting).

Este novo artigo apresenta uma ideia brilhante e mais simples. Em vez de reeducar o cérebro do artista, eles decidiram ajustar o volante enquanto o carro está em movimento.

Aqui está a explicação passo a passo, usando analogias do dia a dia:

1. O Problema: O "Treinamento" que Destrói a Memória

Os métodos antigos (chamados de DPO) tentavam ensinar o artista a diferenciar "bom" de "ruim" mudando permanentemente os pesos do cérebro dele.

  • A analogia: É como se você pegasse um chef de cozinha renomado e o obrigasse a comer apenas o prato que você gosta, proibindo-o de cozinhar qualquer outra coisa. Com o tempo, ele perde a habilidade de cozinhar pratos variados e fica estranho, coçando apenas o que você mandou, mas de forma mecânica e sem sabor.

2. A Solução: O "GPS de Preferência" (PGD)

Os autores propõem uma ideia diferente: não mude o cérebro do artista. Apenas dê a ele um guia externo durante a pintura.

Imagine que o artista (o modelo base) está desenhando. Ao mesmo tempo, você tem um especialista em gosto humano (um modelo pequeno e rápido) que observa o desenho em tempo real e diz: "Ei, isso aqui está muito longe do que as pessoas gostam, puxe um pouco para a esquerda".

  • Como funciona: Eles usam uma técnica chamada Classifier-Free Guidance (CFG). Pense nisso como uma mistura de duas vozes:

    1. A voz do artista original (que sabe pintar bem, mas é genérico).
    2. A voz do especialista em preferências (que sabe o que você quer).

    A mágica acontece quando você mistura essas vozes. Você diz ao artista: "Pinte o que você acha que é bom, mas puxe 30% mais na direção do que o especialista acha que é bom".

    O resultado: O artista mantém sua habilidade natural de pintar (não esquece nada), mas o resultado final é alinhado com o que os humanos preferem. É como ter um GPS no carro: o carro continua sendo o mesmo, mas o trajeto é ajustado para o destino desejado.

3. A Evolução: O "Sistema de Contraste" (cPGD)

Os autores perceberam que, às vezes, o "especialista" pode ficar confuso. Então, eles criaram uma versão ainda melhor chamada cPGD.

Em vez de ter apenas um especialista dizendo o que é "bom", eles treinam dois especialistas:

  1. O Especialista do "Sim": Treinado apenas com imagens que as pessoas amam.
  2. O Especialista do "Não": Treinado apenas com imagens que as pessoas odeiam.

Durante a pintura, o sistema faz uma conta simples:

Resultado Final = (O que o artista faria) + (O que o "Sim" quer) - (O que o "Não" quer)

  • A analogia: Imagine que você está escolhendo um filme.
    • O artista é o cinema.
    • O "Sim" é um amigo que diz: "Assista esse filme de ação, é incrível!"
    • O "Não" é outro amigo que diz: "Não assista esse filme de terror, é horrível!"
    • O sistema cPGD pega a sugestão do amigo de ação e subtrai a sugestão do amigo de terror. O resultado é uma recomendação muito mais precisa e equilibrada do que apenas ouvir um deles.

Por que isso é revolucionário?

  1. Não precisa reescrever o cérebro: Você não precisa treinar o modelo gigante do zero. Você apenas treina esses "guiares" pequenos e os usa na hora de gerar a imagem.
  2. É como um "Plug-and-Play": Você pode treinar esses guias em um modelo e usá-los em outro. É como ter um adaptador universal.
  3. Evita o esquecimento: Como o modelo base não é alterado drasticamente, ele não perde a capacidade de criar imagens bonitas e variadas.
  4. Controle total: Você pode ajustar o "volume" do guia. Quer que a imagem siga estritamente o que você pediu? Aumente o volume. Quer mais criatividade? Diminua o volume.

Resumo da Ópera

Em vez de tentar forçar o artista a mudar quem ele é (o que costuma dar errado), os autores criaram um sistema de navegação em tempo real. Eles usam dois pequenos "bússolas" (uma apontando para o que é bom, outra para o que é ruim) para guiar o artista gigante na direção certa, sem nunca precisar mexer na estrutura dele.

O resultado? Imagens que são ao mesmo tempo criativas, bonitas e exatamente o que você pediu, sem os efeitos colaterais estranhos dos métodos antigos. É como ter um assistente pessoal que sabe exatamente o que você quer, sem precisar reprogramar o seu cérebro.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →