Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

Este trabalho apresenta o primeiro estudo sistemático sobre quantização pós-treinamento para Modelos de Linguagem de Difusão (dLLMs), identificando a presença de outliers nas ativações como um desafio crítico e oferecendo insights práticos através de uma avaliação abrangente em múltiplas dimensões para viabilizar a implantação eficiente desses modelos em dispositivos de borda.

Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun

Publicado 2026-03-17
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio superinteligente (um modelo de linguagem) que consegue escrever poemas, resolver equações de matemática e criar códigos de computador. Recentemente, surgiu uma nova versão desse gênio chamada dLLM (Modelo de Linguagem de Difusão).

Diferente dos gênios antigos (que escrevem palavra por palavra, da esquerda para a direita), esse novo gênio funciona como um artista que restaura uma pintura. Ele começa com uma tela cheia de "ruído" (pontos aleatórios) e, passo a passo, remove o ruído até que a imagem (ou o texto) fique perfeita. É um processo mais controlado e flexível, mas tem um problema: é gigantesco e muito pesado.

Para colocar esse gênio no seu celular ou em um computador simples (como um "edge device"), precisamos torná-lo menor e mais rápido. É aqui que entra a Quantização.

O Problema: A "Caixa de Ferramentas" Pesada

Pense no modelo de linguagem como uma caixa de ferramentas cheia de chaves de fenda, martelos e parafusos.

  • O Modelo Original: Usa ferramentas feitas de ouro maciço (precisão de 32 bits). São incríveis, mas pesadas demais para carregar na mochila.
  • A Quantização: É a arte de trocar essas ferramentas de ouro por versões de alumínio (precisão de 4 ou 8 bits). Elas são mais leves e rápidas, mas se você trocar tudo de uma vez, elas podem quebrar ou não funcionar mais.

A Descoberta Principal: Os "Monstros" (Outliers)

Os pesquisadores descobriram algo curioso sobre esses novos gênios (dLLMs). Dentro da mente deles, existem valores de ativação (os "pensamentos" do modelo) que são como monstros gigantes.

  • A Analogia: Imagine que você está tentando medir a altura de uma sala. A maioria das pessoas tem 1,70m. Mas, de repente, aparece um gigante de 10 metros no canto.
  • Se você tentar usar uma régua pequena (baixa precisão) para medir a sala inteira, o gigante vai "estourar" a régua. O resto da sala (os valores normais) fica sem precisão porque toda a régua foi usada para tentar medir o gigante.
  • No mundo dos dLLMs, esses "gigantes" (chamados de outliers) aparecem com mais frequência e são mais difíceis de esconder do que nos modelos antigos. Eles atrapalham a tentativa de deixar o modelo super leve.

O Que Eles Testaram?

Os autores do estudo foram como mecânicos de F1 testando diferentes combinações de pneus e combustível para ver o que funciona melhor com esse novo motor. Eles testaram:

  1. Quão leve podemos deixar? (Bits: 4, 3 ou 8).
  2. Qual técnica de "troca de ferramentas" funciona? (Métodos como GPTQ, AWQ, DuQuant).
  3. Para quais tarefas o gênio ainda funciona? (Perguntas gerais, Matemática, Código).
  4. Qual versão do gênio é mais resistente? (A versão "Básica" ou a versão "Instruída" que já aprendeu a obedecer ordens).

Os Resultados (O Veredito dos Mecânicos)

Aqui está o que eles descobriram, traduzido para o dia a dia:

  • O "Ponto Doce" (4 bits): Para deixar o modelo leve sem perder muita inteligência, 4 bits é o ideal para o peso do modelo. É como trocar o ouro por uma liga de metal muito boa. Se tentarem ir para 3 bits, o gênio começa a esquecer coisas importantes, especialmente em matemática.
  • A Diferença entre "Pensar" e "Agir":
    • Se você só quantizar o "cérebro" (pesos), 4 bits funciona bem.
    • Se você quantizar o "cérebro" e os "pensamentos em tempo real" (pesos + ativações), 8 bits é o mínimo seguro. Tentar usar 4 bits para tudo faz o modelo colapsar completamente, como tentar dirigir um carro com pneus de papelão.
  • Quem venceu a corrida?
    • Para o "cérebro" (pesos): O método GPTQ foi o campeão, mais confiável que o AWQ.
    • Para o "cérebro + pensamentos" (pesos + ativações): Métodos que usam rotação (como o DuQuant) foram os melhores. Eles funcionam como um "truque de mágica" que reorganiza os dados para esconder os "gigantes" (outliers) antes de fazer a medição, permitindo que a régua pequena funcione.
  • Onde o gênio falha?
    • O modelo funciona bem em perguntas gerais (como "quem foi o primeiro presidente?").
    • Mas ele sofre muito em Matemática e Código. Essas tarefas exigem uma precisão cirúrgica. Um pequeno erro de arredondamento (causado pela quantização) faz com que a conta de matemática dê errado ou o código pare de funcionar. É como tentar fazer uma cirurgia com um bisturi de plástico: pode funcionar para cortar um pão, mas não para uma operação.
  • O "Aluno" vs. O "Professor":
    • A versão do modelo que já foi instruída (treinada para seguir ordens) é muito mais resistente à quantização do que a versão "bruta" (base). É como se o aluno que já estudasse muito conseguisse entender a lição mesmo com um livro de texto mais simples e rasgado, enquanto o iniciante se perde.

Conclusão Simples

Este estudo é o primeiro manual de instruções para quem quer colocar esses novos e poderosos modelos de linguagem (dLLMs) em dispositivos pequenos.

A mensagem final é: É possível! Mas você precisa ter cuidado.

  • Use 4 bits para o modelo em geral.
  • Use 8 bits se precisar que ele pense em tempo real.
  • Use métodos modernos como DuQuant para lidar com os "gigantes" na mente do modelo.
  • E cuidado: se você precisar que ele resolva equações complexas ou escreva códigos, talvez ainda seja cedo para deixá-lo muito leve, pois ele precisa de precisão.

Os autores liberaram o código deles para que todos possam continuar a melhorar essa "engenharia de precisão" e, no futuro, teremos gênios superinteligentes rodando tranquilamente no nosso celular, sem gastar a bateria inteira.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →