Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está aprendendo a resolver um problema de matemática muito difícil. Você tenta, erra, e o professor (ou um sistema de verificação) apenas diz: "Errado" ou "Certo".

O problema é que, quando o professor diz "Errado", ele não explica onde você errou. Foi na conta de multiplicação? Foi no raciocínio inicial? Foi na última linha? Sem esse detalhe, você tem que tentar de novo, adivinhar onde estava o erro e tentar de novo, e de novo. Isso gasta muito tempo e energia.

Aqui entra o SD-ZERO (Self-Distillation Zero), uma nova técnica inteligente que os pesquisadores da Universidade de Princeton e outras instituições criaram. Vamos explicar como funciona usando uma analogia simples: O "Eu" que Revisa o "Eu".

A Ideia Central: O Aluno e o Professor são a Mesma Pessoa

Normalmente, para aprender com erros, você precisa de um professor externo (um modelo mais inteligente) que leia sua resposta errada e reescreva a versão correta para você copiar. Isso é caro e difícil de conseguir.

O SD-ZERO faz algo diferente: ele ensina o modelo de Inteligência Artificial a ser dois personagens ao mesmo tempo:

O Gerador (O Aluno): Tenta resolver o problema pela primeira vez.
O Revisor (O Professor Interno): Lê a resposta do "Aluno", vê que está errada (ou certa) e tenta revisar a resposta para corrigi-la.

Como Funciona o Processo (Em Duas Fases)

O método funciona como um treinamento de duas etapas, como se fosse um atleta treinando para uma maratona:

Fase 1: O Treino de "Revisão" (SRT)

Nesta fase, o modelo gera uma resposta. Se estiver errada, o sistema diz: "Espera, isso está errado. Tente de novo!". Se estiver certa, diz: "Isso está certo, mas pode ser dito de forma mais elegante".
O modelo então pratica reescrever a própria resposta.

A Mágica: Ao fazer isso, o modelo aprende a identificar exatamente onde estava o erro. É como se o aluno, ao corrigir a prova, aprendesse a marcar com um caneta vermelha: "Aqui eu errei a conta, aqui eu pulei um passo".
Resultado: O modelo fica muito bom em corrigir seus próprios erros, mas as respostas ficam longas e cheias de frases como "Espere, isso está errado, vamos recomeçar...".

Fase 2: A "Auto-Distilação" (O Segredo)

Aqui está a parte genial. O modelo agora usa o que aprendeu na Fase 1 para melhorar a Fase 1.
O "Professor Interno" (que agora é muito bom em revisar) olha para a resposta do "Aluno" e diz: "Olha, você errou aqui e aqui, e a resposta correta deve ser assim...".
O "Aluno" então aprende a imitar a resposta revisada do Professor, mas sem precisar escrever todo o processo de "Espere, vamos revisar...".

O Resultado Final: O modelo aprende a pular a etapa de "pensar em voz alta" sobre o erro e vai direto para a resposta correta e concisa. Ele internalizou o processo de revisão.

Por que isso é revolucionário?

Transforma "Pouca Informação" em "Muita Informação":
Imagine que o professor só te dá um "X" vermelho na prova. O SD-ZERO pega esse "X" e transforma em um mapa detalhado mostrando onde você pisou errado, palavra por palavra. Ele converte um sinal simples (Certo/Errado) em um guia de aprendizado rico.
Não precisa de um Professor Externo:
A maioria dos métodos precisa de um "gênio" (um modelo maior ou humano) para ensinar o modelo menor. O SD-ZERO ensina o modelo a ser o próprio gênio. Ele cria seu próprio material de estudo a partir de seus próprios erros.
Economia de Energia:
Antes, para aprender, o modelo precisava gerar 10 ou 20 respostas diferentes para achar uma boa. Com o SD-ZERO, ele aprende mais rápido, gera respostas mais curtas e precisa de menos tentativas para acertar. É como trocar de andar de um labirinto tentando todas as portas erradas para ter um mapa que mostra o caminho certo.

A Analogia do "Espelho Mágico"

Pense no SD-ZERO como um espelho mágico para a mente da IA:

Quando a IA olha no espelho e vê uma resposta errada, o espelho não apenas diz "Feio". Ele mostra a versão corrigida e explica: "Se você mudar esta palavra aqui e aquela ali, fica perfeito".
Com o tempo, a IA não precisa mais olhar no espelho para saber o que mudar. Ela já internalizou a imagem correta e sai falando direto a versão perfeita.

Resumo em uma frase

O SD-ZERO é um método que ensina uma Inteligência Artificial a aprender com seus próprios erros, transformando um simples "acerto ou erro" em um guia detalhado de como pensar melhor, sem precisar de professores externos ou de respostas perfeitas prontas.

É como se a IA dissesse: "Eu errei, mas eu sei exatamente como consertar meu erro, e agora vou aprender a não errar mais de jeito nenhum."

Each language version is independently generated for its own context, not a direct translation.

Título: Self-Distillation Zero (SD-ZERO): A Auto-Revisão Transforma Recompensas Binárias em Supervisão Densa

1. O Problema

As atuais métodos de pós-treinamento (post-training) para modelos de linguagem em ambientes verificáveis (como matemática e programação) enfrentam um dilema fundamental entre eficiência de amostragem e qualidade da supervisão:

Aprendizado por Reforço (RLVR): Métodos como GRPO utilizam recompensas binárias (correto/errado). Embora sejam amplamente aplicáveis e não requeiram soluções de ouro (gold solutions), a supervisão é esparsa. O modelo precisa descobrir o raciocínio correto comparando muitas amostras, o que torna o treinamento custoso e ineficiente.
Distilação (Distillation): Métodos que fornecem supervisão densa ao nível de tokens (feedback token a token) são mais eficientes, mas geralmente exigem um "professor" externo mais forte ou demonstrações de alta qualidade. Coletar essas demonstrações é caro ou impossível em muitos cenários.
Limitação Atual: Métodos recentes de auto-distilação (como OPSD, SDFT) removem a necessidade de um professor externo, mas ainda dependem de demonstrações de alta qualidade geradas pelo próprio modelo (filtrando múltiplas tentativas) ou de professores externos.

A Questão Central: É possível que um modelo condicione suas próprias tentativas iniciais (mesmo que incorretas) e suas recompensas binárias esparsas para gerar uma supervisão densa e aprimorada para si mesmo, sem professores externos?

2. Metodologia: SD-ZERO

O SD-ZERO propõe uma abordagem de duas fases que utiliza um único modelo desempenhando dois papéis: Gerador (Student) e Revisor (Teacher). O objetivo é transformar a recompensa binária do resultado final em um sinal de aprendizado denso ao nível de tokens.

Fase 1: Treinamento de Auto-Revisão (SRT - Self-Revision Training)

Objetivo: Ensinar o modelo a revisar suas próprias respostas com base na recompensa binária.
Processo:
1. O modelo gera uma resposta inicial ( $y_{init}$ ) para uma questão $x$ .
2. Um verificador binário determina se a resposta está correta ( $r=1$ ) ou incorreta ( $r=0$ ).
3. Um prompt de controle é inserido:
  - Se $r=1$ : "Vou reescrever a solução acima." (Reformulação).
  - Se $r=0$ : "Espere, esta resposta não está correta, vou começar de novo." (Revisão/Correção).
4. O modelo gera uma resposta revisada ( $y_{revised}$ ).
5. Apenas os traços onde a revisão resulta em uma resposta correta são mantidos.
Função de Perda ( $L_{SRT}$ ): Combina duas tarefas:
- Loss de Revisão: Treina o modelo a gerar $y_{revised}$ condicionado a $x$ , $y_{init}$ e o prompt de recompensa.
- Loss de Geração: Treina o modelo a gerar a resposta correta diretamente de $x$ (preservando a capacidade de geração original).
Resultado: Obtém-se o modelo SRT, que possui forte capacidade de auto-revisão, mas tende a gerar respostas longas e explícitas (ex: "Espere, isso está errado...").

Fase 2: Auto-Distilação (Self-Distillation)

Objetivo: Internalizar o comportamento de revisão no gerador, tornando-o mais eficiente em tokens e direto.
Processo:
- O Gerador (Student) gera uma resposta on-policy ( $y \sim \pi_\theta$ ).
- O Revisor (Teacher) é o modelo SRT congelado (ou atualizado periodicamente). Ele gera uma distribuição de tokens condicionada à resposta do aluno e à recompensa binária ( $\pi_{SRT}(\cdot | x, y, Pr)$ ).
- O Gerador é treinado para minimizar a divergência KL entre sua distribuição e a do Revisor.
Mecanismo Chave: O Revisor converte a recompensa binária esparsa em um sinal denso. Se a resposta do aluno está errada, o Revisor foca a supervisão nos tokens específicos que contêm o erro, guiando o aluno a corrigi-los.

3. Contribuições Principais

Transformação de Recompensa Binária em Supervisão Densa: O SD-ZERO demonstra que é possível extrair sinais de aprendizado densos ao nível de tokens a partir de recompensas binárias simples, sem necessidade de anotações passo a passo ou professores externos.
Auto-Localização Token-Level: O reviser consegue identificar e focar nos tokens específicos que contêm o erro (auto-localização), convertendo um sinal escalar em um sinal direcionado de correção.
Evolução Iterativa: O método permite que o modelo melhore continuamente. Como o treinamento de distilação também melhora a capacidade de revisão do modelo, o próprio modelo atualizado pode servir como um professor mais forte em rodadas subsequentes (sincronização do professor).
Eficiência de Amostragem: O método é significativamente mais eficiente em termos de amostras de treinamento do que o RLVR, exigindo apenas uma resposta por questão na fase de distilação, ao contrário de métodos que exigem múltiplas amostras para filtragem.

4. Resultados Experimentais

Os experimentos foram conduzidos em modelos Qwen3-4B-Instruct e Olmo-3-7B-Instruct em benchmarks de raciocínio matemático (AIME, HMMT, MATH) e de código (Codeforces, LiveCodeBench).

Desempenho Superior: O SD-ZERO superou consistentemente todas as linhas de base (SFT, RFT, GRPO, SDFT) sob o mesmo orçamento de amostras de treinamento.
- Ganhos de >10% em relação aos modelos base.
- Exemplo: No Qwen3-4B, o SD-ZERO alcançou 60.3% de precisão média (vs. 49.8% do base), superando o GRPO (53.1%) e o RFT (54.3%).
Eficiência de Tokens:
- O modelo SRT (Fase 1) gera respostas longas com revisões explícitas.
- O SD-ZERO (Fase 2) internaliza esse raciocínio, reduzindo o comprimento da resposta em aproximadamente 2x em comparação ao SRT, mantendo ou melhorando a precisão.
Ablações:
- A Fase 1 (SRT) é essencial; aplicar a distilação diretamente no modelo base sem pré-treinamento de revisão resulta em ganhos marginais.
- A combinação das funções de perda de geração e revisão no SRT é complementar e necessária.
- O método supera o SDFT quando este é limitado a apenas a resposta final (sem soluções de ouro), demonstrando sua robustez com supervisão esparsa.

5. Significado e Impacto

O SD-ZERO representa um avanço significativo na pós-treinagem de LLMs para tarefas de raciocínio:

Democratização do Treinamento: Elimina a dependência de demonstrações de alta qualidade ou professores externos caros, permitindo que modelos menores ou em domínios sem dados anotados melhorem seu raciocínio usando apenas verificadores de resposta final.
Eficiência Computacional: Ao transformar recompensas binárias em supervisão densa, reduz drasticamente o custo de geração de dados de treinamento comparado ao RL tradicional.
Novo Paradigma de Auto-Refinamento: Estabelece que a capacidade de um modelo de criticar e corrigir seus próprios erros (mesmo que inicialmente falhos) pode ser "destilada" de volta para a geração direta, criando modelos mais rápidos, concisos e precisos.

Em resumo, o SD-ZERO resolve o problema da supervisão esparsa no RL e a dependência de dados externos na distilação, criando um ciclo virtuoso de auto-improvação onde o modelo aprende a "pensar" e "corrigir" seus próprios erros de forma eficiente.