Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

O artigo apresenta o Diff-ES, um framework de poda estrutural para modelos de difusão que utiliza busca evolutiva para otimizar automaticamente agendamentos de esparsidade por estágio e ativação dinâmica de pesos, alcançando aceleração de tempo real e alta qualidade de geração sem a sobrecarga de memória de métodos anteriores.

Zongfang Liu, Shengkun Tang, Zongliang Wu, Xin Yuan, Zhiqiang Shen

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um artista muito talentoso, mas extremamente lento, chamado Modelo de Difusão. Esse artista é capaz de criar quadros (imagens) incrivelmente realistas a partir de uma ideia (texto). O problema é que ele trabalha de uma forma muito peculiar: ele começa com uma tela cheia de "ruído" (como uma TV fora do ar) e, passo a passo, remove esse ruído até que a imagem apareça.

Para fazer um quadro perfeito, ele precisa dar muitos passos (às vezes 20, 50 ou mais). Cada passo exige muita energia do computador. É como se ele tivesse que polir a tela 50 vezes antes de entregar a obra. Isso torna o processo lento e caro para rodar em computadores comuns.

O Problema: "Cortar" o Artista

Alguns pesquisadores tentaram resolver isso cortando partes do artista (pruning) para torná-lo mais rápido. A ideia é: "Se ele usa 100% da sua capacidade em todos os 50 passos, e a gente corta 30% da capacidade dele, ele fica mais rápido, certo?"

O problema é que nem todos os passos são iguais.

  • Nos primeiros passos, o artista está definindo a estrutura geral (onde fica o céu, onde fica a montanha). Se você cortar muita capacidade aqui, o quadro fica torto.
  • Nos passos do meio, ele está adicionando detalhes (a cor da grama, a textura da pele).
  • Nos últimos passos, ele está apenas polindo e ajustando cores finas.

Métodos antigos (como o MosaicDiff) tentavam cortar o artista de forma "manual" e baseada em palpites. Eles diziam: "Vamos cortar 30% no começo, 30% no meio e 30% no fim". Mas isso é como tentar vestir o mesmo tamanho de roupa em pessoas de alturas diferentes: não serve bem para todos. Às vezes, o corte no meio estraga a imagem, e o corte no final seria desnecessário.

A Solução: O "Caçador de Evolução" (Diff-ES)

Os autores deste paper criaram o Diff-ES. Pense nele como um treinador de atletas muito inteligente que usa uma técnica chamada "Busca Evolutiva".

Em vez de adivinhar onde cortar, o Diff-ES faz o seguinte:

  1. Divide a jornada: Ele separa os passos do artista em "estágios" (como capítulos de um livro).
  2. Cria uma população de ideias: Ele gera dezenas de planos diferentes. Um plano diz: "Corte muito no começo, pouco no meio". Outro diz: "Corte pouco no começo, muito no final".
  3. Testa e Seleciona (A Evolução): Ele testa esses planos gerando algumas imagens.
    • Se um plano gera uma imagem feia (o urso de pelúcia tem 3 pernas), esse plano é eliminado.
    • Se um plano gera uma imagem bonita e rápida, ele é mantido.
  4. Mutação: Ele pega os melhores planos e os mistura, trocando um pouco de "corte" de um estágio para outro (como trocar ingredientes numa receita), sempre mantendo o total de cortes igual ao desejado.
  5. O Campeão: Depois de muitas rodadas, sobra o plano perfeito: o que corta exatamente onde é seguro cortar, sem estragar a imagem.

O Truque Mágico: O "Caminho Rápido" (Weight Routing)

Havia um problema: testar todos esses planos seria muito lento, porque teríamos que "reconstruir" o artista do zero para cada teste.

O Diff-ES inventou um truque genial chamado Roteamento de Pesos.
Imagine que o artista tem várias ferramentas (pesos) na sua caixa de ferramentas. Em vez de ter 10 artistas diferentes (cada um com sua própria caixa de ferramentas) ocupando espaço na sua mesa (memória do computador), você tem um único artista e uma caixa de ferramentas mágica.

  • Quando o artista precisa fazer o "Passo 1", você entrega a ferramenta A.
  • Quando ele vai para o "Passo 2", você troca rapidamente pela ferramenta B.
  • Você não precisa ter todas as ferramentas montadas ao mesmo tempo. Você apenas "troca" a ferramenta necessária no momento certo.

Isso permite que o computador teste milhares de planos de corte sem precisar de mais memória do que o necessário.

O Resultado

O Diff-ES descobriu que, para alguns modelos, o melhor é cortar mais no início e no fim, deixando o meio intacto. Para outros, é o contrário. Como ele descobre isso automaticamente, ele funciona muito melhor do que os métodos antigos que usavam regras fixas.

Resumo da Ópera:
O Diff-ES é como um chef de cozinha que usa inteligência artificial para descobrir a receita perfeita de corte. Em vez de seguir um livro de receitas antigo e rígido, ele testa milhares de variações, descobre exatamente quanto de cada ingrediente (capacidade do modelo) pode ser removido em cada etapa da cozinha (etapas de geração da imagem), e usa um truque de organização (roteamento) para não ocupar a cozinha inteira com panelas extras. O resultado? Imagens tão bonitas quanto as originais, mas geradas muito mais rápido e com menos esforço do computador.