Free Lunch for Pass@kk? Low Cost Diverse Sampling for Diffusion Language Models

Os autores propõem uma intervenção de baixo custo e sem necessidade de re-treinamento para modelos de linguagem difusivos, que modifica sequencialmente amostras intermediárias para repelir redundâncias no espaço de características, resultando em maior diversidade e melhor desempenho Pass@kk em tarefas complexas como geração de código e resolução de problemas matemáticos.

Sean Lamont, Christian Walder, Paul Montague, Amir Dezfouli, Michael Norrish

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está pedindo a um gênio (o modelo de IA) para resolver um problema difícil, como um enigma matemático complexo ou escrever um código de computador.

Se você pedir apenas uma solução, o gênio pode dar a resposta certa. Mas, e se ele estiver um pouco confuso e der uma resposta errada? O que acontece se você pedir 16 soluções diferentes de uma vez, esperando que pelo menos uma delas seja a correta?

Aqui está o problema: modelos de IA tradicionais (chamados de "autoregressivos") tendem a ser muito preguiçosos ou repetitivos. Se você pedir 16 respostas, eles muitas vezes dão 16 versões quase idênticas da mesma resposta errada. É como pedir a 16 pessoas que desenhem um gato, e todas elas, por medo de errar, desenham o mesmo gato torto. Isso é chamado de "colapso de modo". Você gastou tempo e energia, mas não ganhou nenhuma nova perspectiva.

A Solução: O "ODD" (Diversidade Ortogonal)

Os autores deste artigo criaram uma técnica chamada ODD (Diversidade Ortogonal Difusa). Pense nela como um diretor de teatro muito esperto que trabalha enquanto o gênio está pensando, e não depois.

Aqui está como funciona, usando uma analogia simples:

1. O Cenário: A Sala de Reunião

Imagine que você tem 16 pessoas na sala (os 16 exemplos que a IA vai gerar).

  • O jeito antigo: As 16 pessoas pensam sozinhas. Se a primeira pessoa diz "Vamos tentar resolver isso com uma maçã", as outras 15, por inércia, também pensam em maçãs. Ninguém explora outras frutas.
  • O jeito ODD: O diretor (o algoritmo) observa a primeira pessoa. Ela diz "Maçã". O diretor então pega a segunda pessoa e diz: "Ei, você não pode pensar em maçã! Pense em algo que seja diferente da maçã, mas ainda assim uma fruta."
    • A segunda pessoa pensa em "Banana".
    • O diretor pega a terceira pessoa e diz: "Nem maçã, nem banana! Pense em algo que não seja nem uma nem a outra."
    • Ela pensa em "Uva".

O algoritmo força cada nova tentativa a "empurrar" a resposta para um caminho que ninguém explorou antes. Ele cria um "espaço de ideias" onde cada nova tentativa ocupa um lugar único, sem repetir o que já foi dito.

2. A Magia: "Sem Treinamento, Sem Custo Extra"

O que torna isso incrível é que eles não precisaram reeducar o gênio (o modelo de IA). Eles apenas mudaram a forma como o gênio escreve a resposta enquanto ele está escrevendo.

  • Analogia: É como se o gênio estivesse escrevendo uma carta. O método ODD é um amigo que lê o que foi escrito até agora e sussurra no ouvido do gênio: "Ei, você já disse isso três vezes. Tente dizer de outro jeito!".
  • Isso é feito de graça (ou quase), sem precisar de computadores superpotentes extras. É uma "refeição grátis" (Free Lunch) para a inteligência da máquina.

3. O Resultado: Mais Acertos com Menos Esforço

Quando testaram isso em problemas de matemática (GSM8K) e programação (HumanEval):

  • Antes: Pedir 16 tentativas muitas vezes dava 16 erros iguais.
  • Depois (com ODD): Pedir 16 tentativas dava 16 caminhos diferentes. Mesmo que 15 estivessem erradas, a chance de a 16ª estar certa aumentou drasticamente porque ela estava explorando um caminho que ninguém mais tinha tentado.

Por que isso é importante?

Em tarefas difíceis, a resposta certa é como uma agulha em um palheiro.

  • O método antigo era como procurar a agulha com 16 pessoas todas olhando para o mesmo montinho de palha.
  • O método ODD espalha as 16 pessoas por 16 montinhos diferentes de palha.

Mesmo que a qualidade de uma única tentativa (Pass@1) caia um pouquinho (porque o gênio está sendo forçado a tentar coisas mais arriscadas), a chance de encontrar a resposta certa em algum lugar do grupo (Pass@16) explode.

Resumo em uma frase

O ODD é como um maestro que garante que, quando você pede 16 músicas diferentes para uma orquestra de IA, cada músico toque uma nota única, evitando que todos toquem a mesma nota errada ao mesmo tempo, tudo isso sem precisar contratar mais músicos ou treinar a orquestra do zero.