Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

O artigo apresenta o Self-Distilled Reasoner, um framework de Auto-Distilação em Política (OPSD) onde um único modelo de linguagem atua simultaneamente como professor e aluno ao condicionar-se em diferentes contextos (com ou sem traços de raciocínio privilegiados), alcançando maior eficiência e desempenho em tarefas de raciocínio matemático em comparação com métodos de distilação off-policy e aprendizado por reforço.

Siyan Zhao, Zhihui Xie, Mengchen Liu, Jing Huang, Guan Pang, Feiyu Chen, Aditya Grover

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está aprendendo a tocar piano. Existem três formas principais de aprender:

  1. O Método do Professor (Distilação Tradicional): Você tem um professor virtuoso que toca para você. Você tenta imitar o que ele toca. O problema? O professor toca músicas que ele escolheria, mas você, quando pratica sozinho, pode cometer erros e tocar notas que o professor nunca tocaria. Isso cria uma desconexão entre o que você pratica e o que você ouve.
  2. O Método da Tentativa e Erro (Aprendizado por Reforço - RL): Você não tem professor. Você apenas tenta tocar. Se acertar a música inteira, ganha um "ponto". Se errar, não ganha nada. O problema é que você precisa tentar tocar a música inteira dezenas de vezes para aprender, e se todas as suas tentativas forem ruins, você não recebe nenhum feedback útil para melhorar. É caro e demorado.
  3. O Método OPSD (O que este paper propõe): Você é o seu próprio professor e aluno ao mesmo tempo, mas com um truque especial.

O Truque: O "Aluno" e o "Professor" na Mesma Cabeça

A ideia central do OPSD (Auto-Distilação em Política) é genialmente simples: um modelo de inteligência artificial (LLM) ensina a si mesmo.

Pense assim:

  • Imagine que você tem um Aluno que só vê a pergunta: "Qual é a derivada de f(x) = 3x²?"
  • Agora, imagine que, no mesmo cérebro, existe um Professor que vê a pergunta E a resposta correta com todo o passo a passo: "Qual é a derivada? Ah, é 6x. Veja como fiz: apliquei a regra..."

O processo funciona assim:

  1. O Aluno tenta responder sozinho, gerando sua própria resposta (o "rascunho").
  2. O Professor (que é o mesmo modelo, mas com acesso à resposta correta) olha para o rascunho do Aluno e diz: "Olhe aqui, você escolheu esta palavra. A resposta certa levaria por este caminho. Veja como eu explicaria isso..."
  3. O Aluno aprende com essa explicação detalhada, palavra por palavra, e ajusta sua forma de pensar para a próxima vez.

Por que isso é tão bom? (As Vantagens)

1. Economia de Energia (Eficiência de Tokens)
No método antigo de "Tentativa e Erro" (como o GRPO mencionado no paper), o computador precisa gerar 8 respostas diferentes para cada pergunta para ter chance de acertar e aprender. É como se você tentasse resolver um quebra-cabeça 8 vezes, jogando as peças no chão, só para ver qual combinação funciona.
Com o OPSD, o computador gera apenas 1 resposta, mas recebe um feedback super detalhado e rico sobre cada palavra dessa única resposta. É como se, ao tentar resolver o quebra-cabeça uma vez, um mestre olhasse sua peça e dissesse: "Não coloque aqui, coloque ali, e veja como ela se encaixa".
Resultado: O paper diz que o OPSD é 8 a 12 vezes mais eficiente em termos de energia e tempo do que os métodos atuais.

2. Feedback Detalhado (Não apenas "Certo" ou "Errado")
Métodos antigos só dizem: "Sua resposta final está errada". É como um professor que só dá nota zero no final da prova sem dizer onde você errou.
O OPSD diz: "Na palavra 3, você deveria ter pensado assim; na palavra 5, você deveria ter seguido este caminho". Isso é um feedback denso. O aluno aprende como pensar, não apenas o que pensar.

3. Sem Professor Externo
Você não precisa de um modelo gigante e caro para ensinar um modelo menor. O modelo usa seu próprio conhecimento (quando tem acesso à resposta correta) para ensinar sua versão "sem acesso" à resposta. É como se você lesse a solução de um problema de matemática, entendesse o raciocínio e, em seguida, tentasse resolver outro problema similar sozinho, aplicando o que aprendeu.

O Desafio: Tamanho Importa

O paper descobriu uma coisa importante: para esse método funcionar, o "cérebro" do modelo precisa ser grande o suficiente.

  • Se o modelo for muito pequeno (como um "aluno" de 1 ano), ele não consegue entender a explicação do "professor" (mesmo que seja ele mesmo) e pode até piorar.
  • Se o modelo for de tamanho médio ou grande (como um "aluno" universitário), ele consegue racionalizar a resposta correta e ensinar a si mesmo muito bem.

Resumo em uma Metáfora Final

Imagine que você está aprendendo a cozinhar um prato difícil.

  • Método Antigo: Você tenta cozinhar 8 vezes, queima a comida 7 vezes, e na 8ª vez acerta. Você gasta muito gás e ingredientes.
  • Método OPSD: Você tenta cozinhar uma vez. Enquanto você cozinha, uma versão "sábia" de você (que já sabe a receita perfeita) observa seus movimentos e sussurra no seu ouvido: "Não coloque o sal agora, espere o molho ferver. Cortou a cebola muito grande, tente menor."
    Você aprende com essa única tentativa, mas com um nível de detalhe que faria você cozinhar perfeitamente na próxima vez.

Conclusão: O OPSD é uma maneira inteligente de fazer a inteligência artificial aprender mais rápido, gastando menos energia e sem precisar de um "guru" externo, usando apenas a própria capacidade de raciocínio do modelo para se aprimorar.