Learn Hard Problems During RL with Reference Guided Fine-tuning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um aluno muito inteligente, mas inexperiente, a resolver problemas de matemática extremamente difíceis, como os de uma Olimpíada.

Aqui está a história do que os autores deste artigo descobriram, explicada de forma simples:

O Problema: O Aluno "Travado" na Montanha

Normalmente, para ensinar uma Inteligência Artificial (IA) a raciocinar melhor, usamos uma técnica chamada Aprendizado por Reforço (RL). É como um jogo de "tenta e erra":

A IA tenta resolver um problema.
Se acertar, ganha um "ponto" (recompensa).
Se errar, não ganha nada e tenta de novo.

O problema: Em questões muito difíceis, a IA começa do zero e não consegue acertar nenhuma vez. Ela fica dando voltas em círculos, sem nunca receber um "ponto". Sem pontos, ela não sabe o que está fazendo de certo e o aprendizado para. É como tentar ensinar alguém a nadar jogando-o no fundo do oceano profundo sem que ele nunca toque no chão ou veja a superfície.

A Solução Antiga (e falha): Copiar o Livro de Respostas

Existe uma solução óbvia: mostrar a resposta certa (feita por humanos) para a IA.

O erro: Se você apenas pedir para a IA copiar a resposta do livro, ela não aprende a pensar. Ela apenas memoriza o texto. Quando o problema muda um pouquinho, ela trava de novo. É como decorar a fórmula de um jogo de xadrez sem entender as regras; na primeira partida real, você perde.

A Nova Ideia: O "Guia de Montanha" (ReGFT)

Os autores criaram um método chamado ReGFT (Ajuste Fino Guiado por Referência). Pense nele como um guia de montanha que ajuda o alpinista (a IA) a chegar ao topo.

Aqui está como funciona, passo a passo:

A Dica Parcial: Em vez de mostrar a resposta completa, o guia mostra apenas os primeiros 80% do caminho (a estrutura da solução), mas esconde o final.
O Aluno Pensa: A IA recebe essa dica e é obrigada a pensar por si mesma para completar o resto do caminho e chegar à resposta final.
- Analogia: É como se o professor dissesse: "Aqui está o esboço do mapa, agora você me diz qual é o caminho final".
O Resultado: Como a IA usou a dica, ela consegue chegar à resposta certa. Mas, mais importante: ela chegou lá usando o próprio raciocínio dela, não apenas copiando.
A Prática: Agora, a IA pratica muito com esses problemas que ela conseguiu resolver com a ajuda da dica. Ela ganha confiança e aprende o "jeito" de pensar para esses problemas difíceis.

O Grande Salto: A IA Sozinha

Depois que a IA treinou com esse "guia" (ReGFT), ela volta para o aprendizado por reforço (o jogo de tentar e errar).

Antes: Ela não acertava nada e ficava frustrada.
Depois: Como ela já aprendeu o padrão de pensamento com o guia, agora ela consegue acertar muitos problemas sozinha, recebendo seus "pontos" e melhorando rapidamente.

Por que isso é incrível?

O artigo mostra que esse método funciona muito bem em três testes difíceis de matemática (AIME e Beyond-AIME).

Mais rápido: A IA aprende mais rápido.
Melhor resultado final: Ela chega a um nível de inteligência mais alto do que se tivesse tentado aprender sozinho ou apenas copiado as respostas.
Mais robusto: Mesmo quando a IA precisa tentar muitas vezes para achar a resposta (como em um teste onde você pode tentar 64 vezes), ela continua sendo a melhor.

Resumo em uma frase

O ReGFT é como dar um "empurrãozinho" inteligente na IA antes de deixá-la correr sozinha: em vez de apenas mostrar a resposta final, a IA usa uma parte da resposta como um degrau para construir seu próprio raciocínio, transformando problemas impossíveis em desafios que ela consegue vencer.

Each language version is independently generated for its own context, not a direct translation.

Título: Learn Hard Problems During RL with Reference Guided Fine-tuning (ReGFT)

Autores: Yangzhen Wu, Shanda Li, Zixin Wen, Xin Zhou, Ameet Talwalkar, Yiming Yang, Wenhao Huang, Tianle Cai.
Afilições: ByteDance Seed, UC Berkeley, Carnegie Mellon University.

1. O Problema: Esparsidade de Recompensa no RL para Raciocínio Matemático

O artigo aborda uma limitação fundamental no uso de Aprendizado por Reforço (RL) para melhorar o raciocínio matemático em Grandes Modelos de Linguagem (LLMs), especificamente no contexto de RL com Recompensas Verificáveis (RLVR).

Esparsidade de Recompensa: Em problemas complexos (como olimpíadas de matemática), o modelo base frequentemente falha em gerar qualquer trajetória de raciocínio correta ao amostrar múltiplas respostas. Sem trajetórias corretas, o verificador automático não atribui recompensas positivas.
Paralisia do Treinamento: Na ausência de sinais de gradiente positivos (recompensas), o treinamento por RL estagna. O modelo não consegue aprender a melhorar em problemas que estão além de sua capacidade atual, pois não há exemplos de sucesso para reforçar.
Limitação do Ajuste Fino Direto (SFT): Embora existam soluções de referência escritas por humanos (ex: em datasets como AoPS), fazer fine-tuning direto nessas soluções não é eficaz. O modelo tende a não conseguir imitar provas humanas que estão fora de sua própria distribuição de raciocínio, resultando em baixa generalização.
Limitação do ReFT (Reasoning with Reinforced Fine-Tuning): Métodos anteriores como ReFT dependem de que o modelo já seja capaz de gerar, por si só, algumas trajetórias corretas para então fazer o fine-tuning. Isso não resolve o problema de problemas "impossíveis" onde o modelo base falha completamente.

2. Metodologia: ReGFT (Reference-Guided Fine-Tuning)

Os autores propõem o ReGFT, um método simples e eficaz para sintetizar trajetórias de treinamento positivas para problemas difíceis antes de iniciar o RL, utilizando soluções de referência como guia, mas sem copiar diretamente.

O Processo ReGFT:

Seleção de Problemas Difíceis: Identificam-se problemas onde o modelo base tem baixa taxa de acerto (ex: < 25% de precisão em 16 amostras).
Amostragem Guiada por Referência:
- Em vez de fornecer a solução completa, o modelo recebe apenas uma parte da solução de referência (ex: os primeiros 80% do raciocínio) como um "hint" (dica).
- O modelo é instruído a gerar sua própria trajetória de raciocínio a partir desse ponto, completando a solução.
- Objetivo: Garantir que a trajetória resultante permaneça dentro do espaço de raciocínio do modelo (evitando a "quebra" de distribuição) enquanto ainda se beneficia da estrutura lógica fornecida pela referência humana.
Ajuste Fino Misto: O modelo é ajustado finamente em uma mistura de:
- Trajetórias corretas geradas autonomamente pelo modelo (como no ReFT).
- Trajetórias corretas geradas sob a orientação das referências parciais (ReGFT).
Inicialização para RL: O checkpoint resultante do ReGFT serve como uma inicialização muito mais forte para o RL subsequente. Como o modelo agora consegue resolver mais problemas difíceis durante a fase de amostragem, o RL recebe sinais de recompensa mais densos e informativos.

Algoritmo de RL Utilizado: O estudo utiliza o DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), uma variante robusta do GRPO, para demonstrar que os benefícios do ReGFT são ortogonais a avanços nos algoritmos de RL.

3. Principais Contribuições

Solução para a Esparsidade de Recompensa: O ReGFT transforma problemas que seriam "cegos" para o RL (sem recompensas) em problemas treináveis, ao sintetizar trajetórias corretas guiadas por humanos que o modelo consegue internalizar.
Distinção entre Imitação e Raciocínio Guiado: O trabalho demonstra que o ajuste fino direto em soluções humanas é insuficiente. O segredo é forçar o modelo a raciocinar com base nas dicas, mantendo a consistência com sua própria distribuição de geração.
Inicialização Superior para RL: O ReGFT não apenas acelera o treinamento, mas eleva o "teto" de desempenho final, permitindo que o RL explore e aprenda em regimes de dificuldade anteriormente inacessíveis.
Escalabilidade no Tempo de Inferência: O método melhora a métrica pass@k (probabilidade de encontrar a solução correta com k tentativas) de forma mais estável e sustentada à medida que o orçamento de computação aumenta, comparado a métodos que apenas reforçam trajetórias existentes.

4. Resultados Experimentais

Os experimentos foram conduzidos no modelo Qwen3-4B utilizando o dataset OmniMath (4.428 problemas de nível olímpico) e avaliados em benchmarks AIME'24, AIME'25 e Beyond-AIME.

Desempenho no RL (Figuras 2 e 3):
- Modelos inicializados com ReGFT superaram consistentemente os checkpoints "Raw" (brutos) e os inicializados com ReFT em todos os benchmarks.
- Convergência Mais Rápida: O ReGFT acelerou o ganho de desempenho nas fases inicial e média do treinamento.
- Maior Precisão Final: O ReGFT atingiu um patamar de precisão superior, indicando que o RL conseguiu aprender em problemas mais difíceis.
Comparação com SFT Direto (Figura 4):
- O ajuste fino direto em soluções humanas (SFT) falhou em produzir um bom ponto de partida para o RL, confirmando a necessidade de trajetórias derivadas do próprio modelo.
Escalabilidade Pass@k (Figura 5):
- O modelo ReGFT + DAPO mostrou o melhor desempenho de escalabilidade. À medida que o número de amostras ( $k$ ) aumentava, a vantagem do ReGFT se mantinha ou crescia, sugerindo uma cobertura mais ampla do espaço de soluções, ao contrário do ReFT, cujos ganhos saturavam rapidamente.
Expansão da Capacidade (Tabela 1 e 4.3.1):
- O ReGFT permitiu que o modelo resolvesse 5,85% a mais de problemas no conjunto de treinamento que eram insolúveis sob amostragem padrão, demonstrando a capacidade de "desbloquear" novos problemas.

5. Significado e Conclusão

O artigo estabelece que a capacidade do modelo base é o gargalo principal para o sucesso do RL em tarefas de raciocínio complexo. O ReGFT oferece uma solução prática e eficaz para superar esse gargalo:

Ponte entre SFT e RL: O método preenche a lacuna entre o ajuste fino supervisionado (que lida bem com dados, mas não com problemas difíceis) e o RL (que precisa de dados de sucesso para aprender).
Eficiência Computacional: Ao garantir que o RL comece com um modelo capaz de gerar recompensas positivas em problemas difíceis, o ReGFT reduz o desperdício de recursos computacionais em trajetórias que nunca receberão feedback.
Generalização: Ao forçar o modelo a gerar seu próprio raciocínio guiado por referências, o método preserva a generalização, evitando o overfitting a estilos de prova humanos que o modelo não consegue replicar naturalmente.

Em resumo, o ReGFT é uma técnica de pré-processamento que "prepara o terreno" para o RL, convertendo soluções de referência em trajetórias de aprendizado viáveis, permitindo que modelos de linguagem dominem problemas matemáticos de alto nível que antes eram inatingíveis.