Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um artista muito talentoso, mas um pouco "selvagem". Vamos chamá-lo de Difusor. Ele aprendeu a pintar milhões de quadros olhando para a internet inteira. O resultado? Ele é incrível em criar imagens realistas, mas às vezes ele não entende exatamente o que você quer. Se você pedir "um gato feliz", ele pode pintar um gato triste, ou um gato que parece um cachorro, ou um gato que está voando em um foguete (porque ele viu isso na internet e achou legal).

O problema é: como ensinamos esse artista a obedecer melhor aos nossos desejos humanos sem estragar a sua genialidade?

Até agora, a solução comum era como dar uma "pílula de reeducação" pesada para o artista. Você mostrava milhares de exemplos do que é "bom" e do que é "ruim" e forçava o cérebro dele a mudar. O problema é que, ao fazer isso, o artista muitas vezes esquecia como pintar coisas bonitas e naturais, ou ficava tão obcecado com os exemplos que perdia a criatividade (o que os cientistas chamam de "sobreajuste" ou overfitting).

Este novo artigo apresenta uma ideia brilhante e mais simples. Em vez de reeducar o cérebro do artista, eles decidiram ajustar o volante enquanto o carro está em movimento.

Aqui está a explicação passo a passo, usando analogias do dia a dia:

1. O Problema: O "Treinamento" que Destrói a Memória

Os métodos antigos (chamados de DPO) tentavam ensinar o artista a diferenciar "bom" de "ruim" mudando permanentemente os pesos do cérebro dele.

A analogia: É como se você pegasse um chef de cozinha renomado e o obrigasse a comer apenas o prato que você gosta, proibindo-o de cozinhar qualquer outra coisa. Com o tempo, ele perde a habilidade de cozinhar pratos variados e fica estranho, coçando apenas o que você mandou, mas de forma mecânica e sem sabor.

2. A Solução: O "GPS de Preferência" (PGD)

Os autores propõem uma ideia diferente: não mude o cérebro do artista. Apenas dê a ele um guia externo durante a pintura.

Imagine que o artista (o modelo base) está desenhando. Ao mesmo tempo, você tem um especialista em gosto humano (um modelo pequeno e rápido) que observa o desenho em tempo real e diz: "Ei, isso aqui está muito longe do que as pessoas gostam, puxe um pouco para a esquerda".

Como funciona: Eles usam uma técnica chamada Classifier-Free Guidance (CFG). Pense nisso como uma mistura de duas vozes:
1. A voz do artista original (que sabe pintar bem, mas é genérico).
2. A voz do especialista em preferências (que sabe o que você quer).
A mágica acontece quando você mistura essas vozes. Você diz ao artista: "Pinte o que você acha que é bom, mas puxe 30% mais na direção do que o especialista acha que é bom".

O resultado: O artista mantém sua habilidade natural de pintar (não esquece nada), mas o resultado final é alinhado com o que os humanos preferem. É como ter um GPS no carro: o carro continua sendo o mesmo, mas o trajeto é ajustado para o destino desejado.

3. A Evolução: O "Sistema de Contraste" (cPGD)

Os autores perceberam que, às vezes, o "especialista" pode ficar confuso. Então, eles criaram uma versão ainda melhor chamada cPGD.

Em vez de ter apenas um especialista dizendo o que é "bom", eles treinam dois especialistas:

O Especialista do "Sim": Treinado apenas com imagens que as pessoas amam.
O Especialista do "Não": Treinado apenas com imagens que as pessoas odeiam.

Durante a pintura, o sistema faz uma conta simples:

Resultado Final = (O que o artista faria) + (O que o "Sim" quer) - (O que o "Não" quer)

A analogia: Imagine que você está escolhendo um filme.
- O artista é o cinema.
- O "Sim" é um amigo que diz: "Assista esse filme de ação, é incrível!"
- O "Não" é outro amigo que diz: "Não assista esse filme de terror, é horrível!"
- O sistema cPGD pega a sugestão do amigo de ação e subtrai a sugestão do amigo de terror. O resultado é uma recomendação muito mais precisa e equilibrada do que apenas ouvir um deles.

Por que isso é revolucionário?

Não precisa reescrever o cérebro: Você não precisa treinar o modelo gigante do zero. Você apenas treina esses "guiares" pequenos e os usa na hora de gerar a imagem.
É como um "Plug-and-Play": Você pode treinar esses guias em um modelo e usá-los em outro. É como ter um adaptador universal.
Evita o esquecimento: Como o modelo base não é alterado drasticamente, ele não perde a capacidade de criar imagens bonitas e variadas.
Controle total: Você pode ajustar o "volume" do guia. Quer que a imagem siga estritamente o que você pediu? Aumente o volume. Quer mais criatividade? Diminua o volume.

Resumo da Ópera

Em vez de tentar forçar o artista a mudar quem ele é (o que costuma dar errado), os autores criaram um sistema de navegação em tempo real. Eles usam dois pequenos "bússolas" (uma apontando para o que é bom, outra para o que é ruim) para guiar o artista gigante na direção certa, sem nunca precisar mexer na estrutura dele.

O resultado? Imagens que são ao mesmo tempo criativas, bonitas e exatamente o que você pediu, sem os efeitos colaterais estranhos dos métodos antigos. É como ter um assistente pessoal que sabe exatamente o que você quer, sem precisar reprogramar o seu cérebro.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O alinhamento de modelos de difusão de texto para imagem (T2I) em grande escala com preferências humanas sutis continua sendo um desafio significativo. Embora os modelos pré-treinados em conjuntos de dados da internet gerem imagens de alta fidelidade, eles frequentemente desviam-se do que os humanos realmente preferem em termos de estética e seguimento de instruções.

As abordagens atuais, como a Otimização Direta de Preferência (DPO) adaptada para difusão (Diffusion-DPO), são simples e eficazes, mas apresentam limitações críticas:

Falta de Generalização: O finetuning em larga escala frequentemente leva a um "gap" de generalização, onde o modelo performa bem nos dados de treino, mas falha em prompts fora da distribuição (OOD).
Sobrecarga e Colapso de Modo: O DPO é propenso ao overfitting (sobreajuste) e pode exibir comportamentos de colapso de modo (onde a diversidade de amostras desaparece) ou esquecimento catastrófico.
Dependência de Dados de Pré-treinamento: Regularizar o modelo para evitar esses problemas geralmente requer acesso ao conjunto de dados de pré-treinamento original, o que é frequentemente inviável para modelos de grande escala.

2. Metodologia Proposta

Os autores propõem uma mudança de paradigma: em vez de tratar o alinhamento como um problema de otimização de perda (como no DPO), eles o reformulam como um problema de inferência guiada, inspirando-se na Orientação Livre de Classificador (CFG).

A ideia central é tratar um modelo de difusão finetuned (ajustado) não como um novo modelo final, mas como um sinal de controle externo que é aplicado durante a amostragem do modelo base.

A. Preference-Guided Diffusion (PGD)

O método PGD trata o modelo base pré-treinado como uma distribuição a priori (condição nula) e o modelo ajustado para preferências como uma condição de controle. A função de pontuação (score function) para a inferência é combinada linearmente:
$\nabla \log \pi_{PGD}(x) = \nabla \log \pi_{ref}(x) + w \cdot (\nabla \log \pi_{DPO}(x) - \nabla \log \pi_{ref}(x))$
Onde $w$ é um peso de orientação. Isso permite usar um modelo ajustado com poucas iterações (evitando overfitting) e amplificar a diferença entre o sinal de preferência e o prior apenas no momento da inferência.

B. Contrastive Preference-Guided Diffusion (cPGD)

Para melhorar ainda mais a generalização e evitar a necessidade de pares positivos-negativos durante o treino (o que é inerente ao DPO), os autores propõem o cPGD.

Separação de Módulos: Em vez de um único modelo ajustado com pares de preferência, treinam-se dois modelos independentemente:
1. Um modelo ajustado apenas em dados positivos ( $\theta_+$ ).
2. Um modelo ajustado apenas em dados negativos ( $\theta_-$ ).
Vetor de Orientação Contrastiva: Na inferência, o vetor de orientação é formado pela subtração das previsões dos dois modelos, escalado por um peso $w$ e adicionado ao modelo base:
$\nabla \log \pi_{cPGD}(x) = \nabla \log \pi_{ref}(x) + w \cdot (\nabla \log \pi(x; \theta_+) - \nabla \log \pi(x; \theta_-))$
Interpretação: Isso equivale a uma reponderação dinâmica dos gradientes da perda DPO, onde o modelo aprende a "repelir" amostras negativas e "atrair" positivas de forma mais estável, sem a instabilidade da otimização conjunta de pares.

3. Principais Contribuições

Reformulação do Alinhamento: Propõem tratar o alinhamento de modelos de difusão como um caso especial de inferência estilo CFG, mitigando problemas de generalização do DPO.
Novos Métodos (PGD e cPGD): Introduzem duas técnicas que não exigem o re-treinamento completo do modelo base para alinhamento, mas sim o uso de módulos plug-and-play durante a amostragem.
Treinamento Desacoplado: O cPGD desacopla o aprendizado de preferências em dois módulos (positivo e negativo), permitindo um treinamento mais robusto e evitando a complexidade de pares de preferência durante o treino.
Melhorias Pareto: Demonstram empiricamente que ambos os métodos alcançam melhorias Pareto (maior recompensa, menor FID e maior diversidade) em comparação com o Diffusion-DPO padrão.
Transferibilidade: Os módulos ajustados podem ser usados para alinhar outros modelos base que compartilham o mesmo espaço latente, funcionando como componentes "plug-and-play".

4. Resultados Experimentais

Os métodos foram avaliados nos modelos Stable Diffusion 1.5 (SD1.5) e Stable Diffusion XL (SDXL), utilizando os conjuntos de dados Pick-a-Pic v2 e HPDv3.

Desempenho Quantitativo: Tanto PGD quanto cPGD superaram consistentemente as baselines (DPO, NPO, MaPO, KTO) em várias métricas de recompensa humana (PickScore, HPSv2, HPSv3, ImageReward) e em taxas de vitória (win rates).
Generalização: Os métodos mostraram-se mais robustos em prompts de teste fora da distribuição (como o conjunto Parti-Prompts) e em subconjuntos de dados de alta qualidade.
Qualidade e Diversidade: Diferente do DPO, que frequentemente sacrifica a diversidade (aumentando o FID) para ganhar em recompensa, o PGD/cPGD mantiveram a fidelidade ao prior (baixo FID) e a diversidade das amostras.
Estudo Humano: Em uma avaliação com humanos, o PGD recebeu 45,5% das votos de preferência, superando significativamente o DPO (29,5%) e o Raw (18,9%).
Eficiência: O artigo também explora a possibilidade de "destilar" a orientação multi-modelo em um único checkpoint, recuperando a maior parte dos ganhos de desempenho com apenas um modelo, reduzindo o custo de inferência.

5. Significado e Impacto

Este trabalho é significativo porque oferece uma solução elegante para o problema de overfitting e falta de generalização no alinhamento de modelos de difusão. Ao mover a complexidade do alinhamento do treinamento (onde é difícil e instável) para a inferência (onde é controlável e flexível), os autores criam um framework mais robusto.

A abordagem cPGD é particularmente inovadora por transformar o problema de otimização de preferência em um problema de treinamento supervisionado simples (apenas positivos e apenas negativos), eliminando a necessidade de pares de preferência durante o treino e permitindo que modelos de preferência sejam reutilizados em diferentes arquiteturas de base. Isso abre caminho para sistemas de geração de imagem mais adaptáveis, seguros e alinhados com as preferências humanas sem a necessidade de re-treinamento massivo de modelos fundamentais.

Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

1. O Problema: O "Treinamento" que Destrói a Memória

2. A Solução: O "GPS de Preferência" (PGD)

3. A Evolução: O "Sistema de Contraste" (cPGD)

Por que isso é revolucionário?

Resumo da Ópera

1. O Problema

2. Metodologia Proposta

A. Preference-Guided Diffusion (PGD)

B. Contrastive Preference-Guided Diffusion (cPGD)

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation