On-Policy Self-Distillation for Reasoning Compression

O artigo apresenta o OPSDC, um método de auto-distilação on-policy que ensina modelos de raciocínio a serem mais concisos ao minimizar a divergência KL reversa em relação às suas próprias saídas condicionadas a instruções de concisão, resultando em reduções significativas de tokens sem perda de precisão e até com ganhos de acurácia ao eliminar ruídos prejudiciais.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da matemática que resolve problemas incríveis, mas ele tem um defeito: ele é extremamente falador.

Quando você pede a ele para resolver algo simples, como "quanto é 2+2?", ele não diz apenas "4". Em vez disso, ele escreve um livro inteiro: "Hmm, vamos pensar... será que você quis dizer binário? Deixa eu verificar se não há pegadinhas... ah, espera, talvez eu devesse considerar a história dos números...". Ele gera milhares de palavras de "pensamento em voz alta" antes de finalmente chegar à resposta.

O problema é que, quanto mais ele fala, mais chances ele tem de se confundir, cometer um erro bobo ou se perder no caminho. É como tentar achar a saída de um labirinto enquanto você está gritando todas as possibilidades erradas para si mesmo; o barulho acaba te fazendo tropeçar.

Aqui entra o método OPSDC (o tema do artigo), que é como uma "terapia de silêncio" para esses modelos de inteligência artificial.

A Ideia Principal: O Espelho do "Seja Breve"

O OPSDC não precisa de um professor humano para corrigir o modelo, nem de respostas certas para comparar. Ele usa o próprio modelo como seu próprio mestre. Funciona assim:

  1. O Aluno (O Modelo Normal): O modelo tenta resolver um problema como sempre faz, falando muito e gerando um texto enorme.
  2. O Professor (O Mesmo Modelo, mas com um "Óculos de Brevidade"): O mesmo modelo recebe a mesma pergunta, mas com uma instrução especial: "Resolva isso de forma concisa e direta, sem enrolação". Como o modelo é inteligente, ele obedece e gera uma resposta curta e eficiente.
  3. A Lição: O modelo "Aluno" é então treinado para imitar o "Professor". O objetivo é fazer com que o Aluno aprenda a pensar de forma curta sem precisar que alguém lhe peça para ser curto.

É como se você tivesse um amigo que sempre fala demais. Você pede para ele escrever um e-mail curto. Ele escreve. Depois, você pega esse e-mail curto e diz: "Olha, é assim que você deveria ter escrito desde o início". Com o tempo, o amigo aprende a ser breve naturalmente.

Por que isso é mágico? (A Analogia do Ruído)

O artigo descobre algo surpreendente: muitas das palavras que o modelo gera não são apenas redundantes; elas são prejudiciais.

Imagine que cada palavra extra que o modelo diz é um passo em direção a um buraco.

  • Se o modelo precisa dar 10 passos para resolver um problema, e ele dá 100 passos (falando demais), ele tem 90 chances extras de tropeçar em uma pedra (cometer um erro de raciocínio).
  • Ao cortar o excesso, o modelo não apenas fica mais rápido, mas fica mais inteligente. Ele remove o "ruído" que o confundia.

A Analogia da Limpeza:
Pense no raciocínio do modelo como uma sala bagunçada. O modelo original está tentando encontrar um tesouro (a resposta certa) no meio de pilhas de jornais velhos, caixas de sapatos e móveis quebrados (os pensamentos desnecessários).

  • O OPSDC é como uma faxineira mágica que remove todo o lixo.
  • Resultado: O tesouro fica visível imediatamente, e a pessoa que procura não se machuca mais com os pregos espalhados no chão.

Os Resultados: Menos é Mais

O artigo testou isso em modelos de matemática muito avançados (como o Qwen3). Os resultados foram impressionantes:

  • Mais Preciso: Em testes de matemática difícil, a precisão do modelo aumentou drasticamente (de 70% para 86% em alguns casos).
  • Mais Rápido: O modelo reduziu o tamanho das respostas em cerca de 57%. Ele pensou menos, mas acertou mais.
  • Adaptação Inteligente: O método é inteligente. Se o problema é fácil (como 2+2), ele corta quase tudo. Se o problema é muito difícil (como um campeonato de matemática), ele sabe que precisa de um pouco mais de "pensamento" e não corta o essencial. Ele ajusta o tamanho da resposta automaticamente.

Resumo em uma Frase

O OPSDC ensina a inteligência artificial a pensar menos, mas melhor, removendo o excesso de palavras que a confundia, transformando um gênio tagarela e propenso a erros em um especialista silencioso e preciso.

É a prova de que, às vezes, para ser mais inteligente, você só precisa parar de falar tanto.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →