Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu para um assistente de IA (como um chef de cozinha muito inteligente) preparar um prato complexo, mas com uma regra estrita: o prato tem que ser servido em uma caixa de lanche específica, com compartimentos exatos para cada ingrediente. Se o chef colocar o molho no lugar errado ou esquecer de fechar a tampa, a caixa não fecha e o pedido é rejeitado.

O problema é que, quando tentamos forçar o chef a seguir essa caixa rigidamente enquanto ele pensa, ele fica nervoso, esquece a receita e acaba servindo um prato estragado, mesmo que a caixa esteja perfeita.

Este artigo apresenta uma nova técnica chamada DCCD (Decodificação Constrained Condicionada por Rascunho) que resolve esse problema de forma brilhante e simples. Vamos entender como funciona usando uma analogia do dia a dia.

O Problema: O Chef Nervoso (Decodificação Constrained Tradicional)

Atualmente, quando usamos IAs para gerar respostas estruturadas (como códigos JSON, cálculos matemáticos ou chamadas de API), usamos uma técnica chamada "Decodificação Constrained".

A Analogia: Imagine que o chef está tentando cozinhar, mas um fiscal da saúde está colado no seu ombro, gritando a cada segundo: "Não pode usar esse tempero!", "Aqui só pode ir sal!", "Feche a tampa agora!".
O Resultado: O chef, sob tanta pressão para seguir as regras da caixa, perde o foco na receita. Ele pode acabar colocando o sal no lugar errado ou esquecendo o ingrediente principal, apenas para garantir que a caixa feche. O resultado é um prato que parece estar na caixa certa (está estruturado), mas tem um gosto horrível (está errado semanticamente).

A Solução: O Rascunho e a Montagem (DCCD)

Os autores propõem uma mudança de estratégia: separar o pensamento da formatação.

Eles criam um processo de dois passos, como se fosse uma equipe de dois chefs:

Passo 1: O Chef Criativo (O Rascunho)
- Primeiro, deixamos o chef cozinhar livremente, sem nenhuma caixa, sem nenhum fiscal. Ele pensa na receita, calcula os ingredientes, escreve a solução completa e detalhada.
- Na prática: A IA gera um "rascunho" livre, onde ela pode errar a formatação, mas precisa acertar a lógica e o raciocínio. É o momento de "pensar fora da caixa".
Passo 2: O Montador Preciso (A Restrição)
- Agora, pegamos esse rascunho perfeito e damos para um segundo especialista (ou o mesmo modelo, mas em modo diferente). A tarefa dele é simples: "Olhe para este rascunho e coloque tudo dentro da caixa de lanche, seguindo as regras exatas".
- Na prática: A IA usa o rascunho como um guia. Como ela já sabe o que quer dizer (graças ao passo 1), é muito mais fácil para ela preencher os espaços vazios da caixa (as chaves {}, as aspas ", os colchetes []) sem perder o foco.

Por que isso é mágico?

A grande descoberta do artigo é que, ao dar o "plano" primeiro, a IA fica muito mais confiante.

Sem o rascunho: A IA tenta adivinhar o que vai escrever enquanto tenta adivinhar se deve colocar uma vírgula ou um parêntese. É como tentar dirigir um carro olhando apenas para o chão.
Com o rascunho: A IA já sabe que a resposta é "14". Quando chega a hora de escrever a caixa {"answer": "14"}, ela só precisa focar em colocar o "14" dentro das aspas. A probabilidade de ela errar cai drasticamente.

Os Resultados na Prática

Os autores testaram isso em vários desafios difíceis, como matemática (GSM8K) e lógica. Os resultados foram impressionantes:

Precisão: Em modelos pequenos (que são mais baratos e rápidos), a técnica aumentou a precisão de respostas corretas em até 24 pontos percentuais. É como transformar um aluno que tirava 15 em um que tira 39 em uma prova difícil.
Eficiência: Modelos pequenos usando essa técnica de "duas etapas" conseguem superar modelos gigantes que usam a técnica antiga. É como se um carro popular, com um piloto experiente, ganhasse de um caminhão com um piloto nervoso.
Confiança: A IA fica mais "confiante" (matematicamente falando) ao gerar a resposta final, porque o caminho já foi traçado.

Resumo em uma frase

Em vez de forçar a IA a pensar e formatar ao mesmo tempo (o que a confunde), a nova técnica pede para ela pensar primeiro (gerar um rascunho livre) e formatar depois (colocar o pensamento na caixa), garantindo que a resposta seja tanto inteligente quanto perfeitamente estruturada.

É a diferença entre tentar escrever um poema em uma folha de papel quadriculado sem poder sair das linhas (difícil e torto) e primeiro escrever o poema à mão livre e, só depois, copiá-lo com cuidado para o papel quadriculado (perfeito e organizado).

Each language version is independently generated for its own context, not a direct translation.

Título: Decodificação Restrita Condicionada a Rascunho para Geração Estruturada em LLMs

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) são cada vez mais utilizados para gerar saídas executáveis, como objetos JSON, chamadas de API e código. Nesses cenários, a validade sintática é inegociável; um único erro de sintaxe (ex: uma chave faltando em JSON) torna a saída inútil.

A abordagem padrão para garantir validade é a Decodificação Restrita (Constrained Decoding - CD), que mascara tokens inválidos a cada passo e renormaliza a distribuição de probabilidade. No entanto, o artigo identifica um problema fundamental:

Distorção Semântica: A decodificação restrita não é um filtro passivo. Quando o modelo atribui baixa probabilidade a continuações válidas (devido à necessidade de tokens de formatação específicos como chaves, aspas ou vírgulas), a renormalização força uma perturbação grande na distribuição.
Imposto de Projeção (Projection Tax): Essa perturbação acumulada ao longo dos passos de geração cria um viés de trajetória. O modelo é empurrado para prefixos que são "fáceis" de manter válidos sintaticamente, mas que podem levar a soluções semanticamente incorretas.
Resultado: Em tarefas de raciocínio intensivo, a CD frequentemente sacrifica a precisão da resposta para garantir a estrutura, resultando em saídas perfeitamente formatadas, mas logicamente erradas.

2. Metodologia: Draft-Conditioned Constrained Decoding (DCCD)

Os autores propõem o DCCD, um procedimento de inferência em duas etapas, sem necessidade de treinamento, que desacopla o planejamento semântico da imposição estrutural.

O Conceito Chave:
A distorção causada pela CD depende da "massa viável" ( $\alpha$ ), que é a probabilidade total que o modelo atribui aos tokens válidos no contexto atual. Se a massa viável for baixa, a distorção (custo KL) é alta. A ideia central é que a massa viável é dependente do contexto. Ao fornecer um contexto auxiliar (um "rascunho" ou plano semântico) antes de aplicar as restrições, pode-se aumentar drasticamente a probabilidade dos tokens válidos, reduzindo a distorção.

O Algoritmo (Duas Etapas):

Geração de Rascunho (Draft Generation):
- Um modelo (o "modelo de rascunho") gera uma resposta não restrita (livre) baseada no prompt de entrada.
- Este rascunho captura o plano semântico, o raciocínio intermediário e a solução correta, sem se preocupar com a estrutura final (ex: JSON).
Decodificação Restrita Condicionada ao Rascunho:
- Um segundo modelo (o "modelo projetor", que pode ser o mesmo ou menor) gera a saída final estruturada.
- Crucialmente: A decodificação restrita é aplicada condicionada ao rascunho gerado na etapa 1. O rascunho é anexado ao contexto de entrada.
- Como o modelo já "sabe" a solução semântica (graças ao rascunho), a probabilidade de gerar os tokens de formatação obrigatórios (como {, :, }) aumenta, elevando a massa viável ( $\alpha$ ) e reduzindo o imposto de projeção.
- A restrição dura (máscara de tokens) é aplicada apenas nesta etapa para garantir a validade sintática exata.

Otimização (Best-of-K):
O método permite gerar $K$ rascunhos diferentes. A decodificação restrita é aplicada a cada um, e a saída final é selecionada com base na massa viável acumulada (log-probabilidade) ou por votação, permitindo escalabilidade no tempo de teste.

3. Contribuições Principais

Análise Teórica (Visão KL): Os autores formalizam a decodificação restrita como uma projeção de Kullback-Leibler (KL) reversa repetida. Eles demonstram que a degradação de qualidade é governada pela baixa massa viável e introduzem o conceito de "imposto de projeção" cumulativo.
Algoritmo DCCD: Apresentam um método de inferência leve e sem treinamento que resolve o trade-off entre validade e precisão, aumentando a massa viável antes da imposição de restrições.
Eficiência de Parâmetros: Demonstram que a separação de tarefas permite que pares de modelos menores (um para raciocínio, outro para formatação) superem modelos únicos muito maiores que usam decodificação restrita padrão.

4. Resultados Experimentais

Os experimentos foram realizados em benchmarks de raciocínio estruturado (GSM8K, MATH500, GSM-Symbolic, FOLIO) com modelos variando de 1B a 14B parâmetros.

Melhoria de Precisão Estrita: O DCCD superou consistentemente a Decodificação Restrita padrão (CD) e métodos baseados em prompt.
- Exemplo no GSM8K: Um modelo de 1B parâmetros saltou de 15,2% para 39,0% de precisão estrita (correta e válida).
- Exemplo no GSM8K (1.5B): Saltou de 49,4% para 73,9%.
Eficiência de Parâmetros: Combinações de modelos menores via DCCD (ex: 1.5B + 1.5B) alcançaram uma precisão por bilhão de parâmetros superior a modelos únicos de 8B ou 14B usando CD.
Escalabilidade no Tempo de Teste: Ao aumentar o número de amostras de rascunho ( $K$ ), o DCCD mostrou ganhos significativos, superando a CD em benchmarks de raciocínio matemático e lógico.
Confiança do Modelo: O DCCD gerou respostas com maior confiança probabilística (média de 0,527 vs 0,393 na CD), indicando que o modelo está mais seguro sobre suas previsões quando o planejamento semântico é separado da formatação.

5. Significado e Impacto

Este trabalho oferece uma solução prática para um dos maiores gargalos na implantação de LLMs em sistemas autônomos e pipelines de software: a confiabilidade da saída estruturada.

Desacoplamento Semântico-Estrutural: A principal lição é que forçar o modelo a raciocinar dentro das restrições sintáticas é prejudicial. Separar o "pensar" (planejamento livre) do "escrever" (formatação restrita) preserva a inteligência do modelo enquanto garante a robustez da saída.
Viabilidade para Modelos Menores: O método permite que modelos menores e mais baratos sejam utilizados em tarefas complexas de geração estruturada, democratizando o acesso a sistemas robustos de agentes de IA.
Aplicabilidade Geral: A técnica é agnóstica ao tipo de restrição (JSON, gramáticas, chamadas de ferramenta) e não requer re-treinamento, sendo imediatamente aplicável a modelos existentes.

Em resumo, o DCCD transforma a geração estruturada de um processo de "tentativa e erro com restrições" para um fluxo de trabalho de "planejamento seguido de execução garantida", resultando em sistemas de IA mais precisos, confiáveis e eficientes.

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

O Problema: O Chef Nervoso (Decodificação Constrained Tradicional)

A Solução: O Rascunho e a Montagem (DCCD)

Por que isso é mágico?

Os Resultados na Prática

Resumo em uma frase

Título: Decodificação Restrita Condicionada a Rascunho para Geração Estruturada em LLMs

1. O Problema

2. Metodologia: Draft-Conditioned Constrained Decoding (DCCD)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Rethinking and Red-Teaming Protective Perturbation in Personalized Diffusion Models

A Survey of Mamba

A Guide to Bayesian Networks Software Packages for Structure and Parameter Learning -- 2025 Edition

AI Literacy for Legal AI Systems: A practical approach

Parallel BiLSTM-Transformer networks for forecasting chaotic dynamics