DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um aluno muito inteligente, mas inexperiente, a resolver problemas complexos de ciências, matemática e lógica. O artigo que você leu, chamado DeReason, conta a história de como os pesquisadores descobriram o melhor jeito de fazer isso, evitando erros comuns que as pessoas cometem ao treinar Inteligências Artificiais (IAs).

Aqui está a explicação, traduzida para uma linguagem simples e cheia de analogias:

O Problema: Tentar pular a etapa da "Escola"

Até recentemente, muitos especialistas achavam que a melhor maneira de treinar uma IA para raciocinar era jogá-la direto no "campo de batalha" usando Reforço (RL).

A analogia: É como pegar uma criança que mal sabe ler e colocá-la para resolver problemas de física quântica, dizendo: "Se você acertar, ganha um ponto; se errar, não ganha nada".
O resultado: A criança (ou a IA) fica frustrada, demora muito para aprender e, no final, não aprende quase nada. Ela precisa de uma base sólida primeiro.

Os pesquisadores descobriram que, para a maioria dos modelos, apenas estudar com um professor (SFT - Ajuste Fino Supervisionado) é muito mais eficiente do que tentar aprender sozinho por tentativa e erro. A IA aprende copiando as respostas certas de um modelo "professor" moderadamente inteligente.

A Solução: O Método "DeReason" (Desacoplamento Inteligente)

O grande segredo do DeReason não é mudar a matemática do treinamento, mas sim como eles organizam os livros didáticos. Eles perceberam que nem todos os problemas são iguais. Alguns são fáceis e exigem apenas memória; outros são difíceis e exigem raciocínio profundo.

Eles criaram um currículo em duas etapas, como se fosse uma escola com duas turmas:

1. A Turma da "Memória e Fundamentos" (SFT)

O que é: Problemas mais fáceis e amplos (ex: "Qual a capital da França?" ou "Como se calcula a área de um círculo?").
A Analogia: Imagine que você está montando uma biblioteca. Nesta fase, você usa o tempo para organizar os livros básicos, aprender o vocabulário e entender as regras do jogo. Você não tenta resolver o problema do século ainda; você apenas garante que a IA saiba o que é necessário saber.
Ação: A IA lê as respostas de um "professor" para aprender fatos e conceitos básicos.

2. A Turma do "Desafio e Raciocínio" (RL)

O que é: Problemas muito difíceis, que exigem vários passos de lógica e criatividade (ex: provar um teorema complexo ou resolver um enigma de lógica).
A Analogia: Agora que a IA tem a biblioteca organizada, ela entra na "academia de elite". Aqui, o professor não dá a resposta. Ele diz: "Tente resolver isso. Se acertar, ganha um ponto de honra; se errar, tente de novo".
Ação: A IA é forçada a pensar, explorar caminhos diferentes e desenvolver estratégias de raciocínio que ela não conseguiria apenas copiando.

Por que isso é genial? (A Metáfora do Atleta)

Pense em um atleta olímpico:

SFT (A Base): É o treino de força, a dieta e o estudo da técnica. Você não manda o atleta correr a maratona no primeiro dia. Você garante que ele saiba correr, respirar e entender as regras.
RL (O Desafio): É a competição real. Só depois que ele domina a técnica é que você o coloca para competir contra outros, onde ele precisa adaptar sua estratégia em tempo real.

O DeReason diz: "Não misture tudo!"

Se você tentar treinar um atleta apenas correndo maratonas desde o início (apenas RL), ele se machuca e não evolui.
Se você apenas fizer ele ler livros de corrida e nunca correr (apenas SFT), ele nunca saberá como reagir sob pressão.
O DeReason pega os problemas fáceis para a fase de estudo (SFT) e guarda os problemas difíceis e complexos para a fase de competição (RL).

O Resultado

Quando eles testaram isso em benchmarks de ciências e matemática:

A IA que fez apenas o treino de "memória" ficou boa, mas não excelente.
A IA que tentou apenas "competir" desde o início ficou confusa e aprendeu pouco.
A IA que seguiu o currículo DeReason (Primeiro estuda o básico, depois desafia com o difícil) tornou-se a campeã, superando todos os outros métodos.

Resumo em uma frase

O DeReason é como um treinador inteligente que sabe exatamente quando ensinar a teoria e quando colocar o aluno para praticar o difícil, garantindo que a IA aprenda o máximo possível com o mínimo de esforço desperdiçado.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: DeReason

1. O Problema

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tornou-se um paradigma poderoso para elicitar capacidades de raciocínio em Grandes Modelos de Linguagem (LLMs), especialmente em matemática e codificação. No entanto, a extensão desse paradigma para domínios gerais de STEM (Ciência, Tecnologia, Engenharia e Matemática) enfrenta desafios significativos:

Ineficiência de Amostragem: Aplicar RL diretamente em modelos base (sem pré-treinamento) é altamente ineficiente e consistentemente inferior ao Supervised Fine-Tuning (SFT) em domínios gerais.
Falta de Conhecimento de Domínio: O RL baseado apenas em recompensas de resultado (outcome-based) luta para adquirir o amplo conhecimento de domínio necessário para o raciocínio científico geral, que depende de fatos, fórmulas e conceitos que são difíceis de descobrir apenas por tentativa e erro.
Interação Não Explorada: A forma como os dados de treinamento devem ser alocados entre as etapas de SFT e RL em sequência para domínios gerais permanece subexplorada. A maioria das abordagens recentes foca em RL puro ou em divisões aleatórias de dados, sem considerar a dificuldade ou a natureza do problema.

2. Metodologia: DeReason

O artigo propõe o DeReason, uma estratégia de curriculum learning (aprendizado curricular) baseada na dificuldade que desacopla a alocação de dados entre as fases de SFT e RL. A metodologia opera em três etapas principais:

Estimativa de Dificuldade:
- Utiliza-se um LLM (do mesmo tamanho do modelo de política, ex: Qwen3-4B-Instruct) para classificar cada problema de treinamento em uma escala de 1 a 5.
- A pontuação considera o número de passos de raciocínio, conhecimento pré-requisito e potencial de erro.
- Problemas de baixa pontuação (1-3) são classificados como "intensivo em conhecimento" (recuperação de fatos).
- Problemas de alta pontuação (4-5) são classificados como "intensivo em raciocínio" (derivação multi-etapa).
Desacoplamento de Dados (Data Decoupling):
- Conjunto de Dados para SFT ( $D_{SFT}$ ): Contém problemas de baixa dificuldade (fáceis e amplos). O objetivo é estabelecer conhecimento fundamental de domínio e habilidades básicas através da imitação de respostas de um modelo "professor" moderado.
- Conjunto de Dados para RL ( $D_{RL}$ ): Contém problemas de alta dificuldade (difíceis e focados). O objetivo é cultivar capacidades complexas de raciocínio, permitindo que o modelo explore caminhos além das demonstrações do professor.
Treinamento em Currículo:
1. Fase 1 (SFT): Treinamento supervisionado em $D_{SFT}$ para obter uma política inicial ( $\pi_{SFT}$ ).
2. Fase 2 (RL): Aplicação de RL (usando GRPO - Group Relative Policy Optimization) em $D_{RL}$ , inicializada a partir de $\pi_{SFT}$ .

3. Contribuições Principais

Análise Sistemática da Interação SFT-RL: O trabalho demonstra empiricamente que, para modelos menores em domínios gerais de STEM, o SFT puro supera consistentemente o RL puro quando treinados no mesmo conjunto de dados. O SFT atua como um mecanismo essencial de destilação e cold-start.
Estratégia DeReason: Propõe uma nova estratégia de treinamento desacoplado baseada na dificuldade. Mostra que particionar dados (SFT em dados fáceis/amplos + RL em dados difíceis/selecionados) supera significativamente o SFT puro, o RL puro e a divisão aleatória de dados.
Análise Comportamental Detalhada: O estudo fornece uma análise granular da dinâmica de treinamento, incluindo:
- Impacto na entropia da política (como o RL reduz a incerteza).
- Evolução do comprimento das respostas (RL tende a comprimir respostas verbosas, especialmente em modelos base).
- Otimização de recompensa em diferentes níveis de dificuldade.

4. Resultados Experimentais

Os experimentos foram conduzidos em modelos base (Qwen3-4B) e avaliados em benchmarks rigorosos de raciocínio geral e matemático (MMLU-Pro, GPQA-Diamond, SuperGPQA, BBEH, AIME, MATH500).

Desempenho Geral: O modelo treinado com a estratégia DeReason (SFT em dados fáceis + RL em dados difíceis) alcançou o melhor desempenho em todos os benchmarks de 4B parâmetros, superando tanto as abordagens de "SFT apenas" quanto "RL apenas".
Comparação com Baselines:
- Em benchmarks de conhecimento (ex: MMLU-Pro), a diferença entre DeReason e SFT puro é pequena, indicando que o SFT cobre bem a base de conhecimento.
- Em benchmarks que exigem raciocínio complexo (ex: BBEH, GPQA-Diamond), o DeReason apresenta melhorias claras e significativas em relação a todas as outras abordagens, demonstrando que o RL em dados difíceis é crucial para o raciocínio avançado.
Eficiência: A abordagem é mais eficiente do que treinar RL diretamente no modelo base, que mostrou estagnação ou desempenho inferior mesmo com aumento de dados.
Análise de Entropia e Comprimento: O RL iniciado a partir de um checkpoint SFT mantém uma hierarquia de qualidade e comprime a verbosidade de forma mais estável do que o RL iniciado a partir do modelo base, que sofre de uma bifurcação mais drástica no comportamento de geração.

5. Significância e Impacto

Validação de Hipótese: O trabalho refuta a ideia de que o RL é superior ao SFT em todos os cenários de pós-treinamento para raciocínio geral. Em vez disso, estabelece que eles têm papéis complementares: o SFT para aquisição eficiente de conhecimento e o RL para refinar e expandir o raciocínio em problemas complexos.
Independência Algorítmica: A estratégia DeReason opera no nível de seleção de dados, não exigindo modificações nos algoritmos de SFT ou RL. Isso a torna ortogonal a melhorias algorítmicas existentes e facilmente integrável em qualquer pipeline de treinamento.
Receita Generalizada: Oferece uma "receita" prática e altamente eficaz para o pós-treinamento de LLMs em domínios STEM gerais, sugerindo que a alocação inteligente de dados baseada na dificuldade é tão crítica quanto a escolha do algoritmo de otimização.

Em suma, o DeReason demonstra que um currículo de treinamento bem estruturado, que separa a aquisição de conhecimento (SFT) do refinamento de raciocínio (RL) com base na dificuldade dos dados, é fundamental para maximizar as capacidades de raciocínio de modelos de linguagem em domínios científicos gerais.