ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

O artigo apresenta o ReFusion, um modelo de difusão mascarado inovador que integra reorganização de sequências e decodificação autoregressiva paralela em nível de slots, superando significativamente os modelos anteriores em desempenho e velocidade enquanto reduz a complexidade de aprendizado e permite o uso eficiente de cache KV.

Jia-Nan Li, Jian Guan, Wei Wu, Chongxuan Li

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando escrever um livro, mas tem dois métodos diferentes para fazê-lo.

O Método Antigo (Autoregressivo): É como escrever um livro página por página, da esquerda para a direita. Você escreve a página 1, espera terminar, depois escreve a página 2, e assim por diante. É muito organizado e faz sentido, mas é lento. Se você quiser escrever um livro inteiro, leva muito tempo porque não pode pular para a página 10 antes de terminar a 9.

O Método de Difusão (O "Caos" Atual): Imagine que você tem um livro todo em branco e, em vez de escrever, você joga tinta colorida aleatoriamente nas páginas. Depois, você tenta "limpar" a tinta, adivinhando o que deveria estar escrito em várias páginas ao mesmo tempo. A vantagem é que você pode trabalhar em várias páginas ao mesmo tempo (paralelismo), o que é rápido. O problema é que, como você está tentando adivinhar tudo de uma vez, as páginas podem ficar sem sentido (a página 5 pode falar sobre um gato, mas a página 6 fala sobre um foguete, e elas não combinam). Além disso, para "limpar" a tinta, você precisa reler todo o livro do início a cada tentativa, o que gasta muita energia e tempo.

A Solução: O "ReFusion"

Os autores deste artigo criaram o ReFusion, que é como um "super-escritor" que combina o melhor dos dois mundos. Eles usaram uma ideia genial chamada Reorganização de Sequência.

Aqui está a analogia simples de como funciona:

1. A Ideia dos "Blocos" (Slots)

Em vez de tentar escrever palavra por palavra (muito lento) ou tentar adivinhar o livro inteiro de uma vez (muito caótico), o ReFusion divide o livro em blocos de páginas (chamados de "slots").

  • Imagine que o livro é dividido em capítulos de 4 páginas cada.

2. O Processo de "Escolha e Preenchimento"

O ReFusion funciona em duas etapas rápidas:

  • Etapa 1: O Olho de Águia (Seleção Difusiva)
    O modelo olha para o livro todo e pergunta: "Quais capítulos eu consigo adivinhar com muita certeza agora?".
    Ele escolhe alguns capítulos inteiros que parecem fáceis de completar. É como se ele dissesse: "Ok, o capítulo 3 e o capítulo 7 são ótimos, vou escrever eles agora!".

  • Etapa 2: O Escritor Rápido (Preenchimento Autoregressivo)
    Uma vez que ele escolheu o capítulo, ele o escreve palavra por palavra, mas muito rápido, porque já sabe o contexto. Ele preenche as 4 páginas daquele capítulo de forma organizada.

3. O Truque Mágico: "Mover para a Frente"

Aqui está a parte mais inteligente. Assim que ele termina de escrever um capítulo (bloco), ele move esse capítulo para o início da pilha de trabalho, antes dos capítulos que ainda estão em branco.

  • Por que isso é importante?
    Imagine que você está lendo um livro e precisa lembrar do que aconteceu no início para entender o final. Se você tiver que reler o livro inteiro toda vez que escreve uma nova página, é lento.
    Mas, se você sempre mantiver o que já escreveu no início da mesa, você só precisa olhar para o começo para continuar. O ReFusion faz isso: ele reorganiza o livro para que tudo o que já foi escrito fique sempre no começo, permitindo que ele use uma "memória rápida" (chamada de KV Cache) que economiza uma quantidade enorme de tempo e energia.

O Resultado Final

O ReFusion é como um escritor que:

  1. Não perde tempo: Ele escreve vários capítulos ao mesmo tempo (paralelismo), então é muito rápido.
  2. Não perde a cabeça: Como ele escreve cada capítulo palavra por palavra antes de ir para o próximo, a história faz sentido e não fica confusa.
  3. É eficiente: Ele nunca precisa reler o livro inteiro, porque mantém tudo organizado na mesa.

Em resumo:
Enquanto os modelos antigos são lentos (escrevem devagar, mas fazem sentido) e os modelos de difusão antigos são rápidos mas confusos (escrevem rápido, mas fazem bagunça), o ReFusion é rápido e faz sentido. Ele consegue escrever textos complexos (como código de computador ou soluções de matemática) muito mais rápido do que os melhores modelos atuais, sem perder a qualidade. É como ter um assistente que escreve um livro inteiro em minutos, com a mesma qualidade de quem leva dias para fazer.