Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um aluno brilhante (o modelo de IA menor) e um professor mestre (o modelo de IA maior ou especializado). O objetivo é fazer o aluno aprender tudo o que o professor sabe.

Até agora, existiam duas formas principais de fazer isso:

Cópia Cega (Distilação Off-Policy): O aluno apenas lê os cadernos do professor e tenta copiar o que está escrito. Ele não pratica, apenas imita.
Aula ao Vivo (Distilação On-Policy - OPD): O aluno tenta resolver os problemas sozinho. Enquanto ele pensa, o professor observa e diz: "Ei, nessa palavra específica, você deveria ter pensado assim". O aluno aprende com seus próprios erros e acertos, corrigido pelo professor em tempo real. Isso já funcionava muito bem.

Mas os pesquisadores deste artigo (Wenkai Yang e equipe) perguntaram: "E se pudéssemos fazer o aluno aprender ainda mais do que o professor sabe?"

Eles criaram uma nova técnica chamada ExOPD (uma versão "generalizada" da aula ao vivo). Aqui está a explicação simples usando analogias:

1. O Segredo: "Extrapolação de Recompensa" (O Acelerador)

Na aula normal (OPD), o professor dá um "prêmio" (recompensa) pelo aluno acertar. O aluno aprende a fazer o que o professor faz.

Os autores descobriram que, se você aumentar o valor desse prêmio (chamado de "fator de escala de recompensa" ou lambda), algo mágico acontece.

A Analogia do Treinador de Corrida: Imagine que o professor é um corredor que corre 10 km/h. O aluno, ao tentar imitá-lo, corre a 10 km/h.
Na técnica ExOPD, o treinador diz: "Não apenas corra como eu, mas corra 1,25 vezes mais rápido do que eu!".
Surpreendentemente, o aluno não apenas alcança os 10 km/h, mas, ao tentar atingir essa meta "impossível", ele descobre técnicas novas e acaba correndo a 11 km/h, superando o próprio professor!

Isso é o que chamam de Extrapolação: o aluno usa a lógica do professor para ir além dos limites originais do professor.

2. Misturando Especialistas (O "Smoothie" de Saberes)

Imagine que você tem três professores:

O Prof. Matemática (muito bom em cálculo).
O Prof. Código (muito bom em programação).
O Prof. Base (o aluno original, que é mediano em tudo).

Se você tentar misturar o conhecimento do Prof. Matemática e do Prof. Código no aluno, o resultado costuma ser um aluno que sabe um pouco de cada, mas não é excelente em nada (como tentar misturar água e óleo).

Com a ExOPD, os pesquisadores conseguiram criar um "Smoothie de Superpoderes". Eles pegaram o aluno, ensinaram com o Prof. Matemática e depois com o Prof. Código, usando o "acelerador de recompensa". O resultado foi um único aluno que ficou melhor do que o Prof. Matemática E melhor do que o Prof. Código em suas próprias áreas. Ele não apenas aprendeu, ele fundiu as habilidades de forma superior.

3. Ajuste Fino (Correção de Recompensa)

Existe um detalhe técnico importante. Quando o professor é muito maior que o aluno (como um gigante ensinando uma criança), a "voz" do professor pode parecer barulhenta ou confusa para a criança.

O Problema: A criança ouve o gigante e pensa: "Ele fala assim porque é gigante, não porque é a única forma correta".
A Solução (Correção de Recompensa): Os autores sugerem que, para ensinar a criança, o professor deve se lembrar de como ele era antes de treinar (antes de se tornar o gigante).
Ao usar essa "versão antiga" do professor como referência, a criança entende melhor o que é realmente importante, filtrando o "ruído" de ser um gigante. Isso faz o aluno aprender ainda mais rápido e com mais precisão.

Resumo dos Resultados

Os pesquisadores testaram isso em tarefas difíceis de Matemática e Programação:

Matemática: O aluno com ExOPD acertou mais questões de olimpíadas do que o próprio professor especialista.
Programação: O aluno escreveu códigos melhores do que o professor original.
Eficiência: Isso é feito sem precisar treinar o professor do zero, apenas ajustando como o aluno aprende com o que já sabe.

Conclusão Simples

Este trabalho mostra que, ao mudar levemente a "fórmula de motivação" usada para treinar IAs, podemos fazer com que elas não apenas imitem mestres, mas superem seus mestres. É como se descobríssemos que, ao pedir a um aluno para tentar ser um pouco melhor do que o professor, ele acaba descobrindo um caminho novo que nem o professor conhecia.

É um avanço importante para criar IAs mais inteligentes, menores e mais eficientes, capazes de aprender de várias fontes e se tornar especialistas unificados.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

A Destilação On-Policy (OPD) tem emergido como um paradigma eficaz para o pós-treinamento de Grandes Modelos de Linguagem (LLMs), onde o modelo estudante gera suas próprias trajetórias e aprende a partir da distribuição de logits do professor nessas trajetórias. Embora a OPD supere frequentemente a destilação off-policy e o Aprendizado por Reforço (RL) padrão, sua compreensão mecanística é limitada.

O artigo identifica duas limitações principais na OPD padrão:

Peso Fixo: A OPD é essencialmente um caso especial de RL com restrição de Kullback-Leibler (KL), onde a função de recompensa e a regularização KL têm pesos fixos e iguais (1:1).
Limitação de Capacidade: A OPD padrão tende a fazer o estudante imitar o professor, limitando o desempenho do estudante ao teto de capacidade do professor, especialmente em cenários de destilação de múltiplos especialistas ou de "forte para fraco" (grande para pequeno).

O objetivo do trabalho é generalizar a OPD para permitir o controle sobre o peso da recompensa e explorar se é possível superar o desempenho do professor através de uma formulação mais flexível.

2. Metodologia: G-OPD e ExOPD

Os autores propõem o framework Generalized On-Policy Distillation (G-OPD), que estende o objetivo padrão da OPD introduzindo dois componentes-chave:

A. Formulação Teórica

A OPD padrão é reescrita como um problema de RL denso com restrição KL. A nova função objetivo (G-OPD) é definida como:
$J_{G-OPD}(\theta) = \max_{\theta} \mathbb{E}_{x \sim D, y \sim \pi_{\theta}} \left[ \lambda \log \frac{\pi^*(y|x)}{\pi_{ref}(y|x)} - D_{KL}(\pi_{\theta} \parallel \pi_{ref}) \right]$

Onde:

$\pi^*$ : Política do professor.
$\pi_{\theta}$ : Política do estudante.
$\pi_{ref}$ : Modelo de referência (pode ser flexível).
$\lambda$ (Fator de Escalonamento de Recompensa): Controla o peso relativo da recompensa em relação à regularização KL.

B. Insights Principais da Metodologia

Extrapolação de Recompensa (ExOPD):
- Quando $\lambda = 1$ , recupera-se a OPD padrão.
- Quando $0 < \lambda < 1$ , ocorre interpolação de recompensa (comportamento entre o modelo base e o professor).
- Quando $\lambda > 1$ , ocorre extrapolação de recompensa. O objetivo é forçar o estudante a aprender além da distribuição do professor, ajustando um termo extra de deslocamento. Os autores denominam essa variante ExOPD.
- Hipótese: A extrapolação permite que o estudante supere o limite de capacidade do professor, especialmente ao fundir conhecimentos de múltiplos especialistas.
Correção de Recompensa em Destilação Forte-para-Fraca:
- No cenário onde um professor grande é destilado para um estudante pequeno, a escolha do modelo de referência ( $\pi_{ref}$ ) é crítica.
- O uso padrão do modelo base do estudante como referência pode introduzir ruído devido à lacuna de conhecimento intrínseca.
- A proposta é usar o modelo base do professor (pré-RL) como referência. Isso alinha a recompensa implícita ( $\log \frac{\pi^*}{\pi_{ref}}$ ) com o processo de RL real que gerou o professor, resultando em um sinal de recompensa mais preciso.

3. Contribuições Chave

Conexão Teórica: Estabelecem formalmente que a OPD é um caso especial de RL denso com restrição KL, onde a recompensa e a regularização KL são sempre ponderadas igualmente.
Framework G-OPD: Introduzem uma formulação generalizada com um fator de escala de recompensa ( $\lambda$ ) e um modelo de referência flexível.
Descoberta da Extrapolação (ExOPD): Demonstram empiricamente que definir $\lambda > 1$ permite que o estudante supere o desempenho do professor, um fenômeno não observado em métodos anteriores.
Técnica de Correção de Recompensa: Identificam que, na destilação forte-para-fraca, usar o modelo base do professor como referência melhora a qualidade do sinal de recompensa, superando ainda mais a OPD padrão.

4. Resultados Experimentais

Os experimentos foram conduzidos em tarefas de Raciocínio Matemático (benchmarks AIME, HMMT) e Geração de Código (HumanEval+, MBPP+, LiveCodeBench).

A. Destilação de Mesmo Tamanho (Múltiplos Professores)

Cenário: Um estudante (Qwen3-4B) é treinado para fundir conhecimentos de dois professores especialistas (um em matemática, outro em código), ambos derivados do mesmo modelo base via RL.
Resultado: O ExOPD ( $\lambda = 1.25$ ) foi o único método capaz de produzir um estudante unificado que superou consistentemente todos os professores especialistas em todos os benchmarks.
Comparação: Superou a OPD padrão, SFT (Fine-tuning supervisionado) e métodos de extrapolação de pesos (ExPO). O ExOPD conseguiu melhorar o desempenho em ~2 pontos percentuais em média sobre o melhor professor.

B. Destilação Forte-para-Fraca (Grande para Pequeno)

Cenário: Destilar um professor grande (Qwen3-30B) para estudantes menores (Qwen3-1.7B e Qwen3-4B).
Resultado: O ExOPD superou significativamente a OPD padrão e a SFT.
Correção de Recompensa: Ao aplicar a correção de recompensa (usando o modelo base do professor como referência), o desempenho foi ainda maior. Por exemplo, no estudante de 1.7B, a precisão média subiu de 23.1% (OPD) para 25.4% (ExOPD) e para 27.5% (ExOPD com correção).

C. Análise de Dinâmica de Treinamento

O ExOPD tende a gerar respostas mais longas e com maior entropia, o que pode ser atribuído ao viés de comprimento na recompensa implícita, mas resulta em maior precisão.
O uso de $\lambda > 1.5$ pode levar a instabilidade e degradação de desempenho (overfitting na recompensa implícita).

5. Significado e Conclusão

Este trabalho oferece uma nova perspectiva teórica e prática sobre a destilação de conhecimento em LLMs:

Quebra do Teto do Professor: Demonstra que é possível, através da extrapolação de recompensa, criar modelos estudantes que superam seus professores, desafiando a intuição de que a destilação é apenas uma compressão de conhecimento.
Fusão de Especialistas: Oferece uma solução robusta para o problema de "catastrophic forgetting" ao fundir múltiplos especialistas de domínio em um único modelo base, superando a limitação de métodos anteriores que não conseguiam superar o desempenho individual de cada especialista.
Otimização de Recursos: Embora a correção de recompensa exija acesso ao modelo base do professor (custo computacional adicional), a variante ExOPD padrão (sem correção) já oferece ganhos significativos e é aplicável em cenários onde apenas o professor final é acessível.

Em suma, o G-OPD e a variante ExOPD representam um avanço no estado da arte para pós-treinamento de LLMs, transformando a destilação on-policy de uma técnica de imitação para uma ferramenta de aprendizado além da capacidade do professor.