Diffusion Alignment as Variational Expectation-Maximization

O artigo apresenta o DAV, um novo framework que formula o alinhamento de modelos de difusão como um processo variacional de Expectation-Maximization, alternando entre busca no momento de teste para gerar amostras diversas e alinhadas a recompensas e a refinamento do modelo, superando assim problemas como a superotimização de recompensas e o colapso de modos em tarefas contínuas e discretas.

Jaewoo Lee, Minsu Kim, Sanghyeok Choi, Inhyuck Song, Sujin Yun, Hyeongyu Kang, Woocheol Shin, Taeyoung Yun, Kiyoung Om, Jinkyoo Park

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um artista genial, mas um pouco "preguiçoso" e que segue apenas o que a internet diz ser bonito. Ele é ótimo em pintar paisagens, mas se você pedir uma pintura que seja "espetacular e única", ele pode acabar pintando a mesma coisa 100 vezes (perdendo a criatividade) ou pintando algo que parece bonito para o computador, mas feio para os humanos (o famoso "over-optimization" ou excesso de otimização).

Esse artista é o Modelo de Difusão (a tecnologia por trás de geradores de imagem como o DALL-E ou Stable Diffusion).

O artigo que você enviou apresenta uma nova maneira de treinar esse artista, chamada DAV (Alinhamento de Difusão como Expectativa-Maximização Variacional). Vamos explicar como funciona usando uma analogia simples: O Chef e o Crítico de Comida.

A Metáfora do Chef e do Crítico

Imagine que o Modelo de Difusão é um Chef que sabe cozinhar muito bem pratos básicos. Mas você quer que ele crie pratos que ganhem prêmios de "Melhor Sabor" (o objetivo final).

Os métodos antigos funcionavam assim:

  1. Reforço (RL): O Chef tentava adivinhar o prato, o Crítico dava uma nota, e o Chef tentava ajustar a receita para ganhar mais pontos. O problema? O Chef ficava obcecado em ganhar pontos. Ele começava a colocar muito sal ou muito açúcar só porque o Crítico gostava, estragando o sabor real e fazendo todos os pratos ficarem iguais (o "colapso de modo").
  2. Backpropagation Direta: O Crítico apontava exatamente onde estava o erro na receita. O problema? O Crítico às vezes era muito rígido ou confuso, e o Chef ficava nervoso, tentando seguir instruções quebradiças e criando pratos estranhos.

A Solução DAV: O Ciclo de "Prova" e "Aprendizado"

O método DAV muda a dinâmica. Em vez de apenas tentar adivinhar e corrigir, ele cria um ciclo de duas etapas que se repetem, como um Ciclo de Prova e Refinamento:

1. A Etapa E (Exploração) - "O Dia de Prova"

Nesta fase, o Chef não está cozinhando para o público ainda. Ele está no laboratório, testando muitas variações de um prato.

  • Em vez de cozinhar apenas uma vez, ele usa uma "lupa" (chamada de busca no tempo de teste) para criar dezenas de versões do prato.
  • Ele prova cada uma, vê qual tem o melhor sabor (maior recompensa) e, o mais importante, garante que ele não está fazendo apenas um tipo de prato perfeito, mas sim uma variedade de pratos deliciosos.
  • Ele seleciona os melhores e mais diversos pratos dessa sessão de testes.

2. A Etapa M (Maximização) - "O Dia de Aula"

Agora que o Chef tem uma coleção de pratos vencedores (os melhores da Etapa E), ele volta para a cozinha principal.

  • Ele não tenta adivinhar como fazer. Ele estuda os pratos vencedores que ele mesmo criou na Etapa E.
  • Ele ajusta sua receita base (os parâmetros do modelo) para aprender a fazer esses pratos deliciosos de novo, mas mantendo a capacidade de fazer coisas novas e variadas.
  • É como se ele dissesse: "Ok, aprendi que essa combinação de temperos funciona. Vou incorporar isso na minha técnica geral, mas sem esquecer como fazer outros pratos."

Por que isso é genial?

A mágica do DAV está no equilíbrio:

  • Evita a "Cegueira de Recompensa": Ao fazer a "Prova" (Etapa E) separada do "Aprendizado" (Etapa M), o sistema garante que o Chef explore muitas possibilidades antes de decidir o que aprender. Isso impede que ele fique obcecado por um único truque para ganhar pontos.
  • Funciona para Tudo: O artigo mostra que isso funciona tanto para Imagens (pinturas) quanto para DNA (criar sequências genéticas). É como se o método servisse tanto para um Chef de culinária quanto para um Cientista de laboratório.
  • Preserva a Diversidade: Enquanto outros métodos fazem o Chef pintar apenas "gatinhos perfeitos" (e todos iguais), o DAV garante que ele continue pintando gatinhos, cachorros, paisagens e coisas estranhas, mas todas com alta qualidade.

Resumo em uma frase

O DAV é como um sistema de treinamento onde o artista primeiro explora criativamente para encontrar as melhores ideias sem pressão, e depois estuda essas ideias para melhorar sua técnica geral, garantindo que ele fique excelente sem perder sua criatividade e originalidade.

É uma forma inteligente de ensinar a IA a ser "melhor" sem torná-la "chata" ou "quebrada".