Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models

O artigo apresenta o "Diffusion Blend", uma abordagem inovadora que permite o alinhamento de modelos de difusão com múltiplas preferências de usuários em tempo de inferência, combinando processos de difusão retroativos de modelos ajustados para atender a qualquer combinação linear de objetivos sem necessidade de novo ajuste fino.

Min Cheng, Fatemeh Doudi, Dileep Kalathil, Mohammad Ghavamzadeh, Panganamala R. Kumar

Publicado 2026-03-13
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha de elite (o modelo de difusão, como o Stable Diffusion) que sabe cozinhar qualquer prato do mundo apenas ouvindo uma descrição. Ele é incrível, mas às vezes o prato sai muito salgado, ou a apresentação não é bonita, ou o sabor não combina exatamente com o que você pediu.

Para consertar isso, os cientistas costumam treinar o chef de novo, ensinando-o a seguir uma regra específica (ex: "seja mais bonito" ou "seja mais fiel ao texto"). O problema é que, se você quiser um prato que seja meio bonito e meio fiel, você teria que treinar um novo chef do zero para cada combinação possível. Isso é caro, demorado e impossível de fazer em tempo real.

Aqui entra o "Diffusion Blend" (uma mistura de difusão), o método proposto neste paper.

A Grande Ideia: A Mistura Mágica

Em vez de treinar um novo chef para cada pedido, os autores criaram um sistema onde você pode misturar os "instintos" de vários chefs já treinados na hora de cozinhar.

Pense assim:

  1. O Chef Base: É o modelo original, que sabe cozinhar tudo, mas sem preferências específicas.
  2. Os Chefes Especialistas: Você treina separadamente três chefs:
    • O Chef A: Especialista em Beleza (estética).
    • O Chef B: Especialista em Fidelidade ao Texto (se o pedido foi "maçã azul", ele não faz uma maçã vermelha).
    • O Chef C: Especialista em Segurança (não faz coisas estranhas).

Como funciona o "Diffusion Blend"?

Quando você chega na cozinha e diz: "Quero uma imagem que seja 70% fiel ao texto e 30% bonita", o sistema não pede para treinar ninguém. Ele faz o seguinte:

  • O Algoritmo DB-MPA (A Mistura de Sabores): Ele pega o "movimento" que o Chef A faria para corrigir a imagem e o "movimento" que o Chef B faria. Em vez de escolher um ou outro, ele mistura esses movimentos na proporção que você pediu (70/30). O resultado é uma imagem que equilibra perfeitamente os dois desejos, como se fosse um novo chef criado instantaneamente na sua frente.

  • O Algoritmo DB-KLA (O Controle de Distância): Às vezes, você quer que o chef siga a regra, mas sem se afastar muito do que ele já sabe fazer (para não estragar a qualidade geral). Imagine que o "peso" da regra é como o volume de um rádio.

    • Se você aumenta o volume (λ), o chef ouve a regra mais alto e muda mais a imagem.
    • Se você diminui o volume, ele segue a regra, mas mantém mais a essência do prato original.
    • O DB-KLA permite que você gire esse botão de volume na hora, sem precisar reensinar o chef.
  • O DB-MPA-LS (A Versão Rápida): Misturar os movimentos de vários chefs ao mesmo tempo pode ser lento (como pedir para três cozinheiros trabalharem juntos na mesma panela). O DB-MPA-LS é uma versão inteligente e rápida: em vez de usar todos os chefs ao mesmo tempo, ele escolhe aleatoriamente qual chef seguir em cada pequeno passo da receita, mas de forma que, no final, o prato sai exatamente igual à mistura perfeita. É como se você tivesse um assistente que troca de chef a cada segundo, mas você nem percebe a diferença no sabor final.

Por que isso é revolucionário?

  1. Sem Treinamento Extra: Você não precisa esperar dias para treinar um novo modelo. Você define suas preferências no momento em que pede a imagem.
  2. Equilíbrio Perfeito: Antes, se você quisesse equilibrar "beleza" e "texto", tinha que adivinhar qual modelo usar. Agora, você define o equilíbrio exato (como um equalizador de som) e o sistema entrega.
  3. Economia: Em vez de ter milhares de modelos diferentes guardados no servidor (um para cada combinação possível), você guarda apenas os modelos base e os especialistas, e mistura eles quando necessário.

Em resumo

O Diffusion Blend é como ter um mixer de sabores para inteligência artificial. Em vez de ter que cozinhar um prato do zero para cada gosto diferente, você pega os ingredientes (os modelos treinados) e os mistura na hora, na proporção exata que o cliente quer, garantindo que o resultado seja perfeito, rápido e sem desperdício de energia.

Isso torna a IA muito mais flexível e útil para o dia a dia, permitindo que qualquer pessoa personalize a geração de imagens com o mesmo controle que um artista profissional teria.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →