Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um aluno muito inteligente, mas que às vezes trava em problemas difíceis. O artigo que você leu apresenta uma nova estratégia de ensino chamada ReLIFT para modelos de inteligência artificial (LLMs), como o Qwen2.5-Math.

Para entender o problema e a solução, vamos usar uma analogia simples: o Aluno (IA), o Treinador de Esportes (RL) e o Professor Particular (SFT).

O Problema: O Dilema do Treinador vs. O Professor

Até agora, os modelos de IA eram treinados principalmente de duas formas, mas cada uma tinha um defeito:

O Treinador de Esportes (Reinforcement Learning - RL):
- Como funciona: O treinador deixa o aluno tentar resolver um problema várias vezes. Se ele acerta, ganha um ponto (recompensa). Se erra, não ganha nada. O aluno aprende tentando, errando e ajustando.
- Onde é bom: É ótimo para melhorar o que o aluno já sabe. Se o aluno já consegue resolver problemas de nível médio, o treinador o deixa mais rápido e eficiente.
- Onde falha: O treinador só pode ensinar o que o aluno já tem capacidade de entender. Se o aluno nunca viu um conceito novo e complexo, ele vai continuar errando, não importa quantas vezes tente. O treinador não tem a "resposta certa" para ensinar algo totalmente novo; ele só reforça o que já existe.
O Professor Particular (Supervised Fine-Tuning - SFT):
- Como funciona: O professor pega um livro de respostas perfeitas e explica passo a passo como resolver os problemas mais difíceis. O aluno apenas copia e aprende o novo método.
- Onde é bom: É mágico para ensinar coisas novas e difíceis que o aluno nunca viu antes.
- Onde falha: Se você usar apenas o professor para tudo, o aluno pode ficar "decorando" as respostas em vez de aprender a pensar. Além disso, ele pode perder a agilidade que tinha com os problemas fáceis, ficando lento e confuso em tarefas simples.

A Conclusão dos Pesquisadores:
Eles descobriram que o Treinador (RL) é excelente para polir o que o aluno já sabe, mas o Professor (SFT) é essencial para ensinar o que o aluno não sabe. O problema é que os métodos antigos tentavam fazer um ou o outro, ou misturavam tudo de forma bagunçada, sem saber quando usar cada um.

A Solução: ReLIFT (O Treinador com um Assistente Inteligente)

O ReLIFT é como um sistema de ensino híbrido e inteligente que mistura o melhor dos dois mundos, mas de forma estratégica.

Como funciona a analogia do ReLIFT:

A Prática Diária (RL): O aluno passa a maior parte do tempo treinando sozinho com o "Treinador". Ele tenta resolver muitos problemas e aprende a ser rápido e eficiente.
O Detector de Dificuldade: Durante esse treino, o sistema monitora: "Ei, esse problema aqui está impossível para o aluno. Ele está errando sempre."
A Intervenção do Professor (Online Fine-Tuning): Assim que o sistema identifica um problema "impossível" (o mais difícil), ele para o treino comum. Ele pega esse problema específico, busca a resposta perfeita (gerada por um modelo mais forte ou humano) e cria uma "lição rápida".
A Lição Rápida: O aluno recebe essa lição específica apenas sobre aquele problema difícil. Ele aprende o novo padrão de raciocínio.
Volta ao Treino: Assim que ele aprende, volta para o treino com o "Treinador" para praticar o que aprendeu e continuar evoluindo.

A Grande Vantagem:
Diferente de métodos antigos que exigiam um livro gigante de respostas para tudo, o ReLIFT só pede ajuda do professor quando o aluno realmente trava. É como ter um professor particular que só aparece quando você está prestes a desistir em uma questão difícil, economizando tempo e dinheiro.

Por que isso é revolucionário?

Aprende o impossível: O modelo consegue resolver problemas que antes eram "além da sua capacidade", porque o professor ensina o novo conceito no momento certo.
Não perde a agilidade: Como a maior parte do tempo é de treino autônomo (RL), o modelo não fica lento ou "decorado". Ele mantém a capacidade de pensar rápido.
Economia: O método usa muito menos dados de exemplo (respostas prontas) e menos tempo de computador do que os métodos anteriores, mas obtém resultados melhores.

Em resumo

O ReLIFT é como um sistema de educação que entende que nem todo problema precisa de um professor, e nem todo problema pode ser resolvido apenas com prática.

Ele usa a prática (RL) para afinar o que o aluno já sabe e chama o professor (SFT) apenas para os momentos de maior dificuldade, garantindo que o aluno aprenda coisas novas sem perder a sua inteligência natural. O resultado é um modelo de IA que é mais inteligente, mais rápido e capaz de resolver os problemas mais complexos da matemática e do raciocínio lógico.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions", publicado na ICLR 2026.

1. Problema e Motivação

O artigo aborda uma limitação fundamental nos avanços recentes de raciocínio em Grandes Modelos de Linguagem (LLMs) impulsionados por Aprendizado por Reforço com Recompensas Verificáveis (RLVR). Embora métodos como o GRPO (Group Relative Policy Optimization) tenham demonstrado sucesso em melhorar o raciocínio, eles apresentam duas falhas críticas:

Limitação de Conhecimento: O RLVR tende a otimizar o modelo com base em seu conhecimento pré-existente, reforçando comportamentos existentes ("câmaras de eco") em vez de adquirir novos conceitos ou padrões de raciocínio que estejam fora do alcance do modelo base.
Ineficiência em Questões Difíceis: O RL é excelente para refinar a performance em questões que o modelo já consegue resolver (níveis fáceis e médios), mas falha em fazer progressos significativos em questões extremamente difíceis ("Hardest") que estão além da capacidade atual do modelo.

Por outro lado, o Ajuste Fino Supervisionado (SFT) é eficaz para introduzir novos conhecimentos e padrões de raciocínio através de dados de demonstração de alta qualidade, mas depende fortemente da disponibilidade massiva desses dados e frequentemente sofre de problemas de generalização em cenários fora da distribuição (OOD).

O objetivo do trabalho é combinar as forças complementares do RL e do SFT para criar um paradigma de treinamento que supere as limitações cognitivas atuais dos modelos, reduzindo a dependência de grandes conjuntos de dados de demonstração pré-coletados.

2. Metodologia: ReLIFT

Os autores propõem o ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning), uma estratégia de treinamento que alterna dinamicamente entre RL e SFT, focando especificamente nas questões mais difíceis identificadas durante o processo.

Análise Dinâmica (RL vs. SFT)

Antes de propor o método, os autores realizaram uma análise empírica mostrando que:

RL: Melhora a precisão em questões fáceis e médias, preservando o conhecimento existente, mas não consegue resolver questões "Hardest" (onde a acurácia inicial é 0).
SFT: É superior para ensinar o modelo a resolver questões "Hardest", mas pode degradar a performance em questões fáceis e aumentar excessivamente o comprimento das respostas.

O Algoritmo ReLIFT

O framework opera em um ciclo contínuo:

Fase de RL (GRPO): O modelo é treinado com RL. Durante a fase de rollout (geração de respostas), o sistema monitora a precisão de cada questão.
Identificação de "Hardest Questions": Questões onde o modelo falha completamente (acurácia = 0) são identificadas como candidatas para intervenção.
Coleta Online de Dados: Para essas questões difíceis, soluções de alta qualidade (Chain-of-Thought - CoT) são obtidas. Isso pode ser feito via:
- Coleta prévia.
- Consulta a um modelo mais forte (ex: DeepSeek-R1).
- Anotação humana (teoricamente possível, embora o estudo use modelos fortes para reprodutibilidade).
- Filtragem rigorosa para garantir que a resposta extraída corresponda à verdade fundamental (ground truth).
Buffer de SFT: As pares (pergunta, solução) de alta qualidade são armazenados em um buffer (BufferFT).
Interleaved Fine-Tuning: Quando o buffer atinge um tamanho pré-definido ( $M$ $M$ ), o modelo executa um passo de SFT usando apenas essas questões difíceis.
- A função de perda inclui uma regularização de entropia ( $\alpha$ ) para evitar que o SFT restrinja excessivamente a capacidade exploratória do modelo.
Retorno ao RL: Após o passo de SFT, o treinamento retorna ao RL, aproveitando o novo conhecimento adquirido para continuar a otimização.

A frequência da intercalação é adaptativa: mais frequente no início (quando o modelo tem muitas lacunas) e menos frequente conforme o modelo amadurece, priorizando o RL para refinar habilidades.

3. Contribuições Principais

Análise Sistemática: Demonstração empírica de que RL e SFT têm papéis complementares: o RL refina habilidades existentes, enquanto o SFT é essencial para adquirir novos conhecimentos em problemas difíceis.
Novo Framework (ReLIFT): Introdução de uma estratégia que intercala SFT online focado apenas nas questões onde o modelo falha, eliminando a necessidade de grandes datasets de demonstração estáticos.
Eficiência de Recursos: O método alcança desempenho superior com menos dados de demonstração e menos horas de GPU comparado a métodos híbridos existentes.
Generalização: Validação da eficácia do método em diferentes escalas de modelos (de 1.5B a 7B) e arquiteturas (Qwen, LLaMA).

4. Resultados Experimentais

Os experimentos foram conduzidos em cinco benchmarks de raciocínio matemático (AIME 2024/2025, AMC, OlympiadBench, MATH500) e um benchmark OOD (MMLU-Pro).

Desempenho Geral: O ReLIFT estabeleceu um novo estado da arte (SOTA) com o modelo Qwen2.5-Math-7B, alcançando 52.6% de acurácia geral, superando todos os baselines (RL puro, SFT puro, e métodos híbridos como LUFFY e SFT+RL sequencial).
Eficiência:
- Dados: ReLIFT utilizou apenas 8.640 amostras de demonstração, enquanto métodos concorrentes usaram até 46.000.
- Tempo: Redução significativa nas horas de GPU necessárias para atingir o melhor desempenho.
Qualidade das Respostas: O ReLIFT gerou soluções mais concisas (menor comprimento de tokens) em comparação com o SFT puro, mantendo alta precisão.
Generalização (OOD): O método superou o RL puro em benchmarks OOD (como MMLU-Pro), demonstrando que a injeção de conhecimento via SFT em pontos críticos melhora a robustez do modelo.
Extensão: O método também funcionou bem em modelos menores (Qwen2.5-1.5B) e em arquiteturas diferentes (Llama-3.1-8B), superando consistentemente as abordagens puras de RL e SFT.

5. Significado e Conclusão

O artigo "Learning What Reinforcement Learning Can't" oferece uma mudança de paradigma na pós-treinagem de LLMs para raciocínio. Ele demonstra que a dependência exclusiva de RLVR é insuficiente para expandir as capacidades cognitivas de um modelo além de seu conhecimento base.

A principal contribuição teórica é a identificação de que o RL é um otimizador de políticas, enquanto o SFT é um transmissor de conhecimento. Ao intercalar esses dois processos de forma inteligente e focada (apenas nas falhas do modelo), o ReLIFT permite que os modelos aprendam novos padrões de raciocínio sem sacrificar a eficiência ou a generalização.

Este trabalho sugere que o futuro do treinamento de modelos de raciocínio não reside em escolher entre RL ou SFT, mas em orquestrá-los dinamicamente para superar as limitações inerentes de cada abordagem individual. A metodologia é escalável e promete ser um componente chave para o desenvolvimento de agentes de IA mais capazes e eficientes.

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

O Problema: O Dilema do Treinador vs. O Professor

A Solução: ReLIFT (O Treinador com um Assistente Inteligente)

Por que isso é revolucionário?

Em resumo

1. Problema e Motivação

2. Metodologia: ReLIFT

Análise Dinâmica (RL vs. SFT)

O Algoritmo ReLIFT

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA