Learn Hard Problems During RL with Reference Guided Fine-tuning

O artigo apresenta o ReGFT, um método que utiliza soluções de referência humanas para sintetizar trajetórias de raciocínio viáveis em problemas difíceis, superando a esparsidade de recompensas e acelerando o treinamento por reforço (RL) para raciocínio matemático em modelos de linguagem.

Yangzhen Wu, Shanda Li, Zixin Wen, Xin Zhou, Ameet Talwalkar, Yiming Yang, Wenhao Huang, Tianle Cai

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um aluno muito inteligente, mas inexperiente, a resolver problemas de matemática extremamente difíceis, como os de uma Olimpíada.

Aqui está a história do que os autores deste artigo descobriram, explicada de forma simples:

O Problema: O Aluno "Travado" na Montanha

Normalmente, para ensinar uma Inteligência Artificial (IA) a raciocinar melhor, usamos uma técnica chamada Aprendizado por Reforço (RL). É como um jogo de "tenta e erra":

  1. A IA tenta resolver um problema.
  2. Se acertar, ganha um "ponto" (recompensa).
  3. Se errar, não ganha nada e tenta de novo.

O problema: Em questões muito difíceis, a IA começa do zero e não consegue acertar nenhuma vez. Ela fica dando voltas em círculos, sem nunca receber um "ponto". Sem pontos, ela não sabe o que está fazendo de certo e o aprendizado para. É como tentar ensinar alguém a nadar jogando-o no fundo do oceano profundo sem que ele nunca toque no chão ou veja a superfície.

A Solução Antiga (e falha): Copiar o Livro de Respostas

Existe uma solução óbvia: mostrar a resposta certa (feita por humanos) para a IA.

  • O erro: Se você apenas pedir para a IA copiar a resposta do livro, ela não aprende a pensar. Ela apenas memoriza o texto. Quando o problema muda um pouquinho, ela trava de novo. É como decorar a fórmula de um jogo de xadrez sem entender as regras; na primeira partida real, você perde.

A Nova Ideia: O "Guia de Montanha" (ReGFT)

Os autores criaram um método chamado ReGFT (Ajuste Fino Guiado por Referência). Pense nele como um guia de montanha que ajuda o alpinista (a IA) a chegar ao topo.

Aqui está como funciona, passo a passo:

  1. A Dica Parcial: Em vez de mostrar a resposta completa, o guia mostra apenas os primeiros 80% do caminho (a estrutura da solução), mas esconde o final.
  2. O Aluno Pensa: A IA recebe essa dica e é obrigada a pensar por si mesma para completar o resto do caminho e chegar à resposta final.
    • Analogia: É como se o professor dissesse: "Aqui está o esboço do mapa, agora você me diz qual é o caminho final".
  3. O Resultado: Como a IA usou a dica, ela consegue chegar à resposta certa. Mas, mais importante: ela chegou lá usando o próprio raciocínio dela, não apenas copiando.
  4. A Prática: Agora, a IA pratica muito com esses problemas que ela conseguiu resolver com a ajuda da dica. Ela ganha confiança e aprende o "jeito" de pensar para esses problemas difíceis.

O Grande Salto: A IA Sozinha

Depois que a IA treinou com esse "guia" (ReGFT), ela volta para o aprendizado por reforço (o jogo de tentar e errar).

  • Antes: Ela não acertava nada e ficava frustrada.
  • Depois: Como ela já aprendeu o padrão de pensamento com o guia, agora ela consegue acertar muitos problemas sozinha, recebendo seus "pontos" e melhorando rapidamente.

Por que isso é incrível?

O artigo mostra que esse método funciona muito bem em três testes difíceis de matemática (AIME e Beyond-AIME).

  • Mais rápido: A IA aprende mais rápido.
  • Melhor resultado final: Ela chega a um nível de inteligência mais alto do que se tivesse tentado aprender sozinho ou apenas copiado as respostas.
  • Mais robusto: Mesmo quando a IA precisa tentar muitas vezes para achar a resposta (como em um teste onde você pode tentar 64 vezes), ela continua sendo a melhor.

Resumo em uma frase

O ReGFT é como dar um "empurrãozinho" inteligente na IA antes de deixá-la correr sozinha: em vez de apenas mostrar a resposta final, a IA usa uma parte da resposta como um degrau para construir seu próprio raciocínio, transformando problemas impossíveis em desafios que ela consegue vencer.