Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está aprendendo a tocar piano. Existem três formas principais de aprender:

O Método do Professor (Distilação Tradicional): Você tem um professor virtuoso que toca para você. Você tenta imitar o que ele toca. O problema? O professor toca músicas que ele escolheria, mas você, quando pratica sozinho, pode cometer erros e tocar notas que o professor nunca tocaria. Isso cria uma desconexão entre o que você pratica e o que você ouve.
O Método da Tentativa e Erro (Aprendizado por Reforço - RL): Você não tem professor. Você apenas tenta tocar. Se acertar a música inteira, ganha um "ponto". Se errar, não ganha nada. O problema é que você precisa tentar tocar a música inteira dezenas de vezes para aprender, e se todas as suas tentativas forem ruins, você não recebe nenhum feedback útil para melhorar. É caro e demorado.
O Método OPSD (O que este paper propõe): Você é o seu próprio professor e aluno ao mesmo tempo, mas com um truque especial.

O Truque: O "Aluno" e o "Professor" na Mesma Cabeça

A ideia central do OPSD (Auto-Distilação em Política) é genialmente simples: um modelo de inteligência artificial (LLM) ensina a si mesmo.

Pense assim:

Imagine que você tem um Aluno que só vê a pergunta: "Qual é a derivada de f(x) = 3x²?"
Agora, imagine que, no mesmo cérebro, existe um Professor que vê a pergunta E a resposta correta com todo o passo a passo: "Qual é a derivada? Ah, é 6x. Veja como fiz: apliquei a regra..."

O processo funciona assim:

O Aluno tenta responder sozinho, gerando sua própria resposta (o "rascunho").
O Professor (que é o mesmo modelo, mas com acesso à resposta correta) olha para o rascunho do Aluno e diz: "Olhe aqui, você escolheu esta palavra. A resposta certa levaria por este caminho. Veja como eu explicaria isso..."
O Aluno aprende com essa explicação detalhada, palavra por palavra, e ajusta sua forma de pensar para a próxima vez.

Por que isso é tão bom? (As Vantagens)

1. Economia de Energia (Eficiência de Tokens)
No método antigo de "Tentativa e Erro" (como o GRPO mencionado no paper), o computador precisa gerar 8 respostas diferentes para cada pergunta para ter chance de acertar e aprender. É como se você tentasse resolver um quebra-cabeça 8 vezes, jogando as peças no chão, só para ver qual combinação funciona.
Com o OPSD, o computador gera apenas 1 resposta, mas recebe um feedback super detalhado e rico sobre cada palavra dessa única resposta. É como se, ao tentar resolver o quebra-cabeça uma vez, um mestre olhasse sua peça e dissesse: "Não coloque aqui, coloque ali, e veja como ela se encaixa".
Resultado: O paper diz que o OPSD é 8 a 12 vezes mais eficiente em termos de energia e tempo do que os métodos atuais.

2. Feedback Detalhado (Não apenas "Certo" ou "Errado")
Métodos antigos só dizem: "Sua resposta final está errada". É como um professor que só dá nota zero no final da prova sem dizer onde você errou.
O OPSD diz: "Na palavra 3, você deveria ter pensado assim; na palavra 5, você deveria ter seguido este caminho". Isso é um feedback denso. O aluno aprende como pensar, não apenas o que pensar.

3. Sem Professor Externo
Você não precisa de um modelo gigante e caro para ensinar um modelo menor. O modelo usa seu próprio conhecimento (quando tem acesso à resposta correta) para ensinar sua versão "sem acesso" à resposta. É como se você lesse a solução de um problema de matemática, entendesse o raciocínio e, em seguida, tentasse resolver outro problema similar sozinho, aplicando o que aprendeu.

O Desafio: Tamanho Importa

O paper descobriu uma coisa importante: para esse método funcionar, o "cérebro" do modelo precisa ser grande o suficiente.

Se o modelo for muito pequeno (como um "aluno" de 1 ano), ele não consegue entender a explicação do "professor" (mesmo que seja ele mesmo) e pode até piorar.
Se o modelo for de tamanho médio ou grande (como um "aluno" universitário), ele consegue racionalizar a resposta correta e ensinar a si mesmo muito bem.

Resumo em uma Metáfora Final

Imagine que você está aprendendo a cozinhar um prato difícil.

Método Antigo: Você tenta cozinhar 8 vezes, queima a comida 7 vezes, e na 8ª vez acerta. Você gasta muito gás e ingredientes.
Método OPSD: Você tenta cozinhar uma vez. Enquanto você cozinha, uma versão "sábia" de você (que já sabe a receita perfeita) observa seus movimentos e sussurra no seu ouvido: "Não coloque o sal agora, espere o molho ferver. Cortou a cebola muito grande, tente menor."
Você aprende com essa única tentativa, mas com um nível de detalhe que faria você cozinhar perfeitamente na próxima vez.

Conclusão: O OPSD é uma maneira inteligente de fazer a inteligência artificial aprender mais rápido, gastando menos energia e sem precisar de um "guru" externo, usando apenas a própria capacidade de raciocínio do modelo para se aprimorar.

Each language version is independently generated for its own context, not a direct translation.

Título: On-Policy Self-Distillation for Large Language Models (OPSD)

Autores: Siyan Zhao, Zhihui Xie, Mengchen Liu, Jing Huang, Guan Pang, Feiyu Chen, Aditya Grover.

1. O Problema

O treinamento de Grandes Modelos de Linguagem (LLMs) para tarefas de raciocínio (como matemática e codificação) enfrenta desafios significativos com as abordagens atuais:

Aprendizado por Reforço com Recompensas Verificáveis (RLVR/GRPO): Embora eficaz, métodos como o GRPO são computacionalmente caros. Eles exigem a amostragem de múltiplas respostas (rollouts) por prompt para estimar vantagens, gerando alta variância. Além disso, o sinal de recompensa é esparso (binário: certo/errado no final da sequência), fornecendo feedback apenas ao nível da sequência e não ao nível do token, o que dificulta a correção de erros intermediários.
Distilação de Conhecimento On-Policy Tradicional: Abordagens que combinam treinamento on-policy (o aluno gera seus próprios dados) com supervisão densa de um professor são eficientes em amostragem, mas exigem um modelo professor externo (geralmente maior e separado), o que aumenta custos e complexidade.
Fine-Tuning Supervisionado (SFT): Sofre com viés de exposição (exposure bias) e generalização fraca, pois treina apenas em trajetórias fixas de especialistas, sem corrigir erros durante a geração.

O artigo questiona: Um modelo capaz de raciocínio pode atuar como seu próprio professor, utilizando a solução correta (ground-truth) como informação privilegiada para ensinar a si mesmo?

2. Metodologia: On-Policy Self-Distillation (OPSD)

O OPSD propõe um framework onde um único modelo atua simultaneamente como professor e aluno, condicionando-se a contextos diferentes durante o treinamento.

Mecanismo Central:

Duas Políticas a partir do Mesmo Modelo:
- Política do Aluno ( $p_S$ ): Condiciona-se apenas ao problema ( $x$ ). Ela gera uma trajetória de resposta $\hat{y}$ (on-policy).
- Política do Professor ( $p_T$ ): Condiciona-se ao problema ( $x$ ) e à solução privilegiada/ground-truth ( $y^\star$ ), que pode incluir a resposta final ou o raciocínio passo a passo (Chain-of-Thought).
- Ambos compartilham os mesmos parâmetros $\theta$ , mas o professor recebe a informação privilegiada no contexto de entrada (prompt).
Processo de Treinamento:
- O aluno gera uma resposta $\hat{y} \sim p_S(\cdot | x)$ .
- Para cada token $n$ na sequência gerada pelo aluno, calcula-se a distribuição de probabilidade do próximo token tanto para o aluno quanto para o professor (que vê a solução correta e o prefixo gerado pelo aluno).
- O objetivo de aprendizado é minimizar a divergência entre a distribuição do professor e a do aluno em cada passo do token.
Função de Perda:
A perda é definida como a divergência esperada sobre as trajetórias do aluno:
$L_{OPSD}(\theta) = \mathbb{E}_{(x, y^\star) \sim S} \left[ \mathbb{E}_{\hat{y} \sim p_S(\cdot|x)} \left[ \sum_{n=1}^{|\hat{y}|} D\left( p_T(\cdot | x, y^\star, \hat{y}_{<n}) \parallel p_S(\cdot | x, \hat{y}_{<n}) \right) \right] \right]$
Onde $D$ pode ser Divergência KL, JSD (Jensen-Shannon Divergence), etc.
- Gradientes: Os gradientes fluem apenas através da política do aluno. O professor atua como um alvo fixo (condicionado à solução correta) para guiar o aluno.
Abordagens de Objetivo:
- Distilação de Logits de Vocabulário Completo: Calcula a divergência sobre todo o vocabulário em cada passo (feedback denso e rico).
- Gradiente de Política com Token Amostrado: Usa o log-probabilidade do token amostrado pelo aluno como um sinal de recompensa densa (semelhante a RL, mas com feedback token-a-token).

3. Principais Contribuições

Novo Framework de Auto-Distilação: Introduz o OPSD, eliminando a necessidade de um modelo professor externo, utilizando a própria capacidade de raciocínio do modelo e a solução correta como "informação privilegiada".
Supervisão Densa e On-Policy: Combina a eficiência de amostragem do treinamento on-policy com o feedback granular (token-level) da distilação, superando a esparsidade do RLVR.
Eficiência de Tokens: Demonstra que o OPSD atinge desempenho comparável ou superior ao GRPO com 8x a 12x menos tokens gerados durante o treinamento.
Análise de Escala: Identifica que a auto-distilação requer capacidade modelar suficiente; modelos muito pequenos (ex: 1.7B) podem não conseguir "racionalizar" a solução corretamente, enquanto modelos maiores (4B, 8B) beneficiam-se significativamente.

4. Resultados Experimentais

Os experimentos foram realizados em benchmarks de raciocínio matemático de nível competitivo (AIME 2024/2025, HMMT 2025, Amo-Bench) usando modelos da família Qwen3 (1.7B, 4B, 8B).

Desempenho:
- O OPSD superou consistentemente o Fine-Tuning Supervisionado (SFT).
- Nos modelos de 4B e 8B, o OPSD igualou ou superou o desempenho do GRPO.
- No modelo de 1.7B, o desempenho foi inferior ao GRPO, sugerindo que a auto-distilação exige um limiar mínimo de capacidade cognitiva para funcionar bem.
Eficiência:
- O OPSD alcançou o mesmo nível de acurácia que o GRPO gerando significativamente menos tokens (1024 tokens vs. 16k tokens no GRPO).
- Redução drástica no custo computacional e tempo de treinamento devido à eliminação da necessidade de múltiplos rollouts por prompt (1 rollout no OPSD vs. 8 no GRPO).
Ablação:
- Comprimento de Geração: Aumentar o comprimento da geração do aluno (de 1k para 4k tokens) melhorou o desempenho, indicando que mais passos de raciocínio fornecem mais sinais de aprendizado.
- Objetivo de Divergência: A distilação de vocabulário completo (Full-vocabulary logit distillation) superou a abordagem baseada apenas em tokens amostrados, confirmando que o feedback sobre toda a distribuição de probabilidade é mais rico.

5. Significado e Impacto

O OPSD representa um avanço significativo na pós-treinamento de LLMs para raciocínio:

Redução de Custos: Ao eliminar a necessidade de modelos professores grandes e reduzir a amostragem excessiva, torna o treinamento de modelos de raciocínio muito mais acessível e escalável.
Mudança de Paradigma: Valida a intuição de que modelos de linguagem podem "aprender a aprender" racionalizando soluções corretas, atuando como seus próprios tutores. Isso se alinha com a observação de que a avaliação (verificar uma resposta) é frequentemente mais fácil do que a geração.
Aplicabilidade: Oferece uma alternativa robusta ao RLVR (como GRPO) para tarefas onde a verificação de respostas é possível, mantendo a densidade de feedback necessária para corrigir erros de raciocínio intermediários.

Em resumo, o OPSD demonstra que, com a configuração correta de contexto e objetivos de perda, um único modelo pode otimizar seu próprio raciocínio de forma eficiente, superando as limitações de métodos que dependem de recompensas esparsas ou de professores externos.

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

O Truque: O "Aluno" e o "Professor" na Mesma Cabeça

Por que isso é tão bom? (As Vantagens)

O Desafio: Tamanho Importa

Resumo em uma Metáfora Final

Título: On-Policy Self-Distillation for Large Language Models (OPSD)

1. O Problema

2. Metodologia: On-Policy Self-Distillation (OPSD)

Mecanismo Central:

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers