Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da matemática (o "Professor", um modelo de IA gigante de 32 bilhões de parâmetros) e quer ensinar um estudante (um modelo menor, de 1,5 ou 7 bilhões de parâmetros) a pensar como ele.

O problema é que, se você apenas mandar o estudante copiar cada palavra do professor, ele pode ficar confuso, estressado e até começar a pensar pior do que antes. É como tentar ensinar um criança a andar de bicicleta segurando a mão dela com força excessiva: ela não aprende a equilibrar sozinha e pode cair mais rápido.

Este artigo apresenta uma nova técnica chamada REOPOLD (uma espécie de "Distilação Relaxada"). Em vez de forçar o aluno a ser um clone perfeito, o REOPOLD age como um mestre sábio e paciente que sabe exatamente quando ajudar e quando deixar o aluno pensar sozinho.

Aqui está como funciona, usando analogias do dia a dia:

1. O Problema: A "Cópia Cega" (Distilação On-Policy Comum)

Antes do REOPOLD, os métodos tentavam fazer o aluno imitar o professor em tudo.

O que acontecia: Se o professor dizia "A" e o aluno pensava "B", o sistema gritava "ERRADO!" com tanta força que o aluno ficava traumatizado.
A analogia: Imagine um professor de música que, se o aluno errar uma nota, o pune tão severamente que o aluno para de tocar qualquer nota, com medo de errar de novo. O aluno fica "congelado" e perde a criatividade (o que os cientistas chamam de colapso de entropia).

2. A Solução: O Método REOPOLD

O REOPOLD muda a regra do jogo. Ele não exige perfeição imediata. Ele usa três truques principais:

A. O "Filtro de Ruído" (Reward Clipping)

Às vezes, o professor dá uma resposta que o aluno não consegue entender de jeito nenhum. Na velha técnica, isso gerava um "grito" de erro gigante que quebrava o aprendizado.

A analogia: Imagine que o professor diz algo muito complexo. O REOPOLD age como um tradutor que diz: "Ei, essa parte está muito difícil e confusa agora. Vamos ignorar esse grito de erro e focar no que você consegue entender." Ele corta os erros extremos para não assustar o aluno, permitindo que ele continue aprendendo sem se desmoralizar.

B. O "Foco no Difícil" (Amostragem Dinâmica)

O aluno acerta muitas coisas fáceis (como "2+2=4"). O professor e o aluno concordam que é fácil. Não há nada para aprender aqui.

A analogia: O REOPOLD é como um treinador de esportes que ignora quando o atleta acerta o passe fácil. Ele só vai até o campo e grita instruções quando o atleta está prestes a errar um lance difícil (alta incerteza). Ele foca a energia apenas nos momentos onde o aluno está "pensando" e precisa de ajuda, ignorando o que já é óbvio. Isso economiza tempo e energia.

C. O "Plano de Treino em Duas Fases" (Treino Multi-Estágio)

O método divide o aprendizado em duas etapas claras:

Fase de Exploração (O "Brincar"): No começo, o aluno é encorajado a tentar muitas soluções diferentes, mesmo que algumas pareçam erradas. É como deixar a criança brincar de montar blocos sem medo de cair. O objetivo é explorar o mundo das possibilidades.
Fase de Refinamento (O "Polimento"): Depois que o aluno já tentou várias coisas, o professor entra para afinar os detalhes, corrigindo os erros críticos e transformando o "brincar" em "raciocínio sólido".

3. Os Resultados: O Milagre da Eficiência

O que o REOPOLD conseguiu?

Economia de Tempo: O aluno aprende com 6 a 12 vezes menos dados do que os métodos antigos. É como se ele precisasse de apenas 1 mês de estudo para aprender o que antes levava um ano.
Velocidade: Um modelo pequeno (7B) treinado com REOPOLD consegue resolver problemas visuais tão bem quanto o gigante (32B), mas 3 vezes mais rápido. É como ter um carro pequeno e ágil que faz o mesmo trajeto de um caminhão gigante, mas chega antes.
Estabilidade: O aluno não "quebra" durante o treino. Ele cresce de forma constante, sem os altos e baixos que faziam os métodos antigos falharem.

Resumo Final

O REOPOLD é a prova de que, para ensinar inteligência (seja humana ou artificial), você não precisa ser um tirano exigindo perfeição. Você precisa ser um mentor inteligente:

Ignorar os gritos de erro desnecessários.
Focar apenas nos momentos de dúvida real.
Deixar o aluno explorar antes de corrigir.

Com isso, modelos pequenos e rápidos conseguem pensar tão bem quanto os gigantes, mas de forma muito mais eficiente.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O artigo aborda a dificuldade de transferir capacidades de raciocínio avançado de Grandes Modelos de Linguagem (LLMs) para Modelos de Linguagem Pequenos (SLMs).

Limitações do RL Direto: Modelos pequenos (SLMs) frequentemente falham ao tentar otimização direta via Aprendizado por Reforço (RL) devido à sua capacidade representacional limitada, tornando-os instáveis e ineficientes com recompensas esparsas.
Instabilidade na Destilação On-Policy: A destilação on-patícia (onde o aluno aprende de suas próprias trajetórias sob a orientação de um professor) é uma alternativa promissora, mas sofre de instabilidade severa. O método padrão (baseado em RKL - Reverse Kullback-Leibler) tende a causar:
- Transferência Negativa: O desempenho do aluno pode degradar em relação ao modelo base inicial.
- Colapso de Entropia: O modelo converge prematuramente para um conjunto estreito de respostas, perdendo a capacidade de explorar caminhos de raciocínio diversos.
- Ineficiência de Amostragem: A presença de recompensas negativas "pesadas" (outliers) e recompensas próximas de zero dilui o sinal de aprendizado, exigindo muitos dados para convergir.

2. Metodologia: REOPOLD

Os autores propõem o REOPOLD (Relaxed On-Policy Distillation), um framework que trata a destilação como um problema de otimização de política, interpretando a razão de verossimilhança entre professor e aluno como uma recompensa de token. O método introduz três mecanismos principais para estabilizar e acelerar o treinamento:

A. Equivalência Teórica e Stop-Gradient

O trabalho estabelece que a destilação on-patícia é teoricamente equivalente à otimização de política (RL). Ao aplicar um operador stop-gradient na razão de verossimilhança (tratando-a como uma recompensa fixa externa), o método atua como um control variate, reduzindo a variância dos gradientes e estabilizando o treinamento, similar ao que é feito em algoritmos de RL modernos.

B. Recorte de Recompensa Baseado em Mistura (Mixture-Based Reward Clipping)

Para lidar com a instabilidade causada por recompensas negativas extremas (quando o professor atribui probabilidade quase zero a um token gerado pelo aluno), o REOPOLD aplica um limite inferior teórico derivado de uma mistura convexa das distribuições do professor e do aluno.

Em vez de permitir que o logaritmo da razão de verossimilhança vá a $-\infty$ , ele é "recortado" (clipped) em um valor finito ( $\log \frac{\lambda}{1-\lambda}$ ).
Isso previne atualizações destrutivas de parâmetros que desviam o aluno drasticamente de sua distribuição original.

C. Amostragem Dinâmica Nível de Token Guiada por Entropia

O método identifica que a maioria dos tokens (baixa entropia) gera sinais de aprendizado insignificantes (razão de verossimilhança próxima de zero), enquanto tokens de alta entropia representam pontos de decisão críticos onde o aluno e o professor divergem.

O REOPOLD utiliza uma máscara dinâmica para filtrar tokens de baixa entropia, focando o cálculo do gradiente apenas nos tokens de alta incerteza.
Isso aumenta a eficiência da amostragem ao eliminar ruído e diluição de gradiente.

D. Estratégia de Treinamento Multi-Estágio (Exploração para Refinamento)

O treinamento é dividido em duas fases controladas por uma máscara de tokens:

Fase de Exploração: Inicialmente, o modelo é incentivado a explorar diversas soluções plausíveis (semelhante a Supervised Fine-Tuning - SFT). Recompensas negativas excessivas são filtradas para evitar o colapso de entropia precoce.
Fase de Refinamento: Posteriormente, o modelo foca em refinar os caminhos de raciocínio corretos (semelhante a RL). O filtro de entropia é ativado para amplificar os sinais de correção nos pontos de decisão críticos.

3. Principais Contribuições

Diagnóstico de Instabilidade: Demonstra que a destilação on-patícia sofre das mesmas instabilidades de otimização do RL (recompensas de cauda pesada e diluição de sinal) e propõe soluções baseadas em insights modernos de RL.
Framework Unificado: O REOPOLD integra recorte de recompensa, amostragem dinâmica e treinamento multi-fase em um único objetivo de otimização.
Eficiência de Amostragem e Escalabilidade: O método permite que modelos pequenos (ex: 1.5B, 3B, 7B) atinjam desempenho próximo ou superior a professores muito maiores (ex: 32B) com menos dados e tempo de inferência.

4. Resultados Experimentais

Os resultados foram validados em tarefas de raciocínio matemático, visual e uso de ferramentas agênticas:

Eficiência de Amostragem (Matemática):
- No benchmark AIME-25, o REOPOLD alcançou o mesmo desempenho que o método ProRL em 600 passos, enquanto o ProRL precisou de 2000 passos (ganho de 6.7x em eficiência de amostra).
- Superou modelos como DeepScaleR-1.5B e DeepMath-1.5B com 12x mais eficiência de amostra.
- Em modelos de 7B, o REOPOLD manteve o treinamento estável, enquanto a destilação RKL padrão falhou e degradou o desempenho.
Escalabilidade em Tempo de Inferência (Raciocínio Visual):
- Em tarefas visuais (Geometry3K, MathVerse), o REOPOLD permitiu que um modelo aluno de 7B alcançasse a precisão de um professor de 32B.
- Isso resultou em um aceleração de inferência de ~3.3x em comparação ao professor, mantendo a mesma qualidade de resposta (Pass@K).
- O modelo demonstrou superior escalabilidade de tempo de teste (test-time scaling), melhorando a precisão ao aumentar o orçamento de amostras (K) de forma mais eficiente que o RKL padrão.
Robustez: O método mostrou-se robusto à seleção do professor (funcionando bem com professores de 7B e 32B) e superior em tarefas de raciocínio agêntico com uso de ferramentas visuais.

5. Significado e Impacto

O trabalho é significativo porque redefine a destilação de conhecimento para modelos de raciocínio, movendo-se de uma imitação rígida e instável para uma abordagem relaxada e otimizada.

Viabilidade de SLMs: Torna viável a criação de modelos pequenos e rápidos que possuem capacidades de raciocínio complexas, essenciais para aplicações em dispositivos de borda ou com restrições de latência.
Ponte entre RL e Destilação: Unifica teoricamente a destilação on-patícia com a otimização de política, permitindo a aplicação de técnicas avançadas de RL (como recorte de recompensa e controle de entropia) para estabilizar o treinamento de modelos menores.
Eficiência Computacional: Oferece uma alternativa computacionalmente mais barata e eficiente do que o treinamento direto por RL ou a dependência exclusiva de modelos massivos para tarefas de raciocínio.

Em resumo, o REOPOLD demonstra que "relaxar" as restrições de imitação estrita, combinado com estratégias de filtragem inteligente de sinais de aprendizado, é a chave para escalar as capacidades de raciocínio em modelos de linguagem compactos.