Diffusion LLMs can think EoS-by-EoS

O artigo demonstra que os Modelos de Linguagem de Difusão (Diffusion LLMs) utilizam tokens de fim de sequência (EoS) como um "rascunho" oculto para realizar cálculos intermediários, melhorando significativamente seu desempenho em tarefas de raciocínio complexo quando o comprimento da geração é expandido com esses tokens.

Sarah Breckner, Sebastian Schuster

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem dois tipos de "cérebros" artificiais tentando resolver um quebra-cabeça complexo.

O primeiro tipo é o Modelo Autoregressivo (como a maioria dos IAs que conhecemos hoje, tipo o ChatGPT). Pense nele como um escritor muito metódico. Para resolver um problema, ele precisa escrever cada passo do raciocínio em voz alta, como se estivesse falando consigo mesmo: "Ok, primeiro somo 2 e 2, depois multiplico por 5...". Se ele não tiver espaço suficiente na folha de papel (memória) para escrever todos esses passos, ele erra.

O segundo tipo é o Modelo de Difusão (o foco deste artigo). Pense nele como um pintor que começa com uma tela cheia de borrões. Ele não escreve passo a passo. Ele vê a imagem inteira de uma vez, tenta adivinhar o que está escondido, apaga o que está errado e pinta de novo, repetidamente, até a imagem ficar clara.

A Grande Descoberta: "Pensar com o Fim"

Os pesquisadores deste artigo descobriram algo curioso e meio mágico sobre esses "pintores" (os Modelos de Difusão).

Quando você pede a eles para resolver um problema de matemática ou lógica, eles funcionam melhor se você der a eles mais espaço do que o necessário.

Imagine que a resposta correta é apenas a frase "A resposta é 42".

  • Se você disser ao modelo: "Escreva apenas 'A resposta é 42'", ele pode errar.
  • Se você disser: "Escreva 'A resposta é 42' e depois preencha o resto da página com espaços em branco ou símbolos de fim de texto", o modelo acerta muito mais.

Mas por que? O modelo não está usando o espaço extra para escrever mais explicações. Ele está usando esses espaços vazios (chamados de tokens "EoS" ou "Fim de Sequência") como um rascunho invisível.

A Analogia do "Rascunho Fantasma"

Pense em um detetive resolvendo um crime:

  1. O Detetive Autoregressivo precisa escrever todo o processo no caderno: "O suspeito estava no bar, depois foi para casa...". Se o caderno for pequeno, ele não consegue anotar tudo e se perde.
  2. O Detetive de Difusão olha para a cena do crime. Ele tem uma folha de papel onde a resposta final já está escrita no topo. Mas, na parte de baixo da folha, ele tem uma área em branco.
    • O artigo descobriu que, enquanto o modelo "pinta" a resposta, ele está pensando secretamente nessa área em branco.
    • Ele usa esses espaços vazios como um quadro-negro invisível. Lá dentro, ele faz os cálculos, testa hipóteses e organiza as ideias, sem que ninguém veja.
    • Quando ele termina, ele só mostra o resultado final, mas o trabalho pesado foi feito nos "espaços vazios".

O que os pesquisadores fizeram?

Eles testaram essa teoria de três maneiras criativas:

  1. O Teste do Espaço Extra: Eles deram aos modelos problemas de matemática, rastreamento de objetos (como "onde está a chave?") e Sudoku. Eles viram que, quanto mais "espaço vazio" (tokens de fim de sequência) eles davam para o modelo preencher, melhor ele resolvia os problemas difíceis. Era como se o modelo precisasse de mais "ar" para pensar.

  2. O Teste do "Troca de Cérebro": Eles pegaram a "mente" (os pensamentos internos) de um modelo tentando resolver um problema e a injetaram na "mente" de outro modelo tentando resolver um problema diferente.

    • Exemplo: Eles pegaram os pensamentos de um modelo que estava calculando "12 + 5" e os colocaram na cabeça de um modelo que estava tentando calcular "12 - 5".
    • Resultado: O segundo modelo começou a dar a resposta errada (a do primeiro problema). Isso provou que, naqueles espaços vazios, o modelo estava realmente guardando os cálculos secretos.
  3. Comparação com o "Falar em Voz Alta": Eles compararam o modelo que pensa em silêncio (usando o rascunho invisível) com modelos que precisam escrever tudo (Chain-of-Thought).

    • Para problemas simples, o modelo que pensa em silêncio (usando os espaços vazios) foi muito mais rápido e eficiente.
    • Para problemas muito complexos, os modelos que escrevem tudo ainda levavam vantagem, mas exigiam muito mais "papel" (memória).

Conclusão Simples

A grande lição deste artigo é que os Modelos de Difusão têm um superpoder: eles podem pensar em silêncio.

Eles não precisam escrever "Vamos pensar..." para raciocinar. Eles usam os espaços que parecem inúteis (o fim da frase) como um laboratório secreto onde a mágica acontece. Se você der a eles mais "espaço" no final da resposta, eles usam esse espaço para fazer cálculos complexos, melhorando drasticamente sua inteligência em tarefas difíceis.

É como se o modelo dissesse: "Não se preocupe com o que está no final da página. Eu estou usando aquele espaço para fazer a matemática difícil, e só vou te mostrar o resultado."