DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

O artigo apresenta o DeReason, uma estratégia de currículo baseada na dificuldade que otimiza o treinamento de modelos de linguagem para raciocínio geral ao separar os dados em conjuntos não intensivos em raciocínio para ajuste fino supervisionado (SFT) e conjuntos intensivos para aprendizado por reforço (RL), superando significativamente abordagens tradicionais.

Hanxu Hu, Yuxuan Wang, Maggie Huan, Jannis Vamvas, Yinya Huang, Zhijiang Guo, Rico Sennrich

Publicado 2026-03-13
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um aluno muito inteligente, mas inexperiente, a resolver problemas complexos de ciências, matemática e lógica. O artigo que você leu, chamado DeReason, conta a história de como os pesquisadores descobriram o melhor jeito de fazer isso, evitando erros comuns que as pessoas cometem ao treinar Inteligências Artificiais (IAs).

Aqui está a explicação, traduzida para uma linguagem simples e cheia de analogias:

O Problema: Tentar pular a etapa da "Escola"

Até recentemente, muitos especialistas achavam que a melhor maneira de treinar uma IA para raciocinar era jogá-la direto no "campo de batalha" usando Reforço (RL).

  • A analogia: É como pegar uma criança que mal sabe ler e colocá-la para resolver problemas de física quântica, dizendo: "Se você acertar, ganha um ponto; se errar, não ganha nada".
  • O resultado: A criança (ou a IA) fica frustrada, demora muito para aprender e, no final, não aprende quase nada. Ela precisa de uma base sólida primeiro.

Os pesquisadores descobriram que, para a maioria dos modelos, apenas estudar com um professor (SFT - Ajuste Fino Supervisionado) é muito mais eficiente do que tentar aprender sozinho por tentativa e erro. A IA aprende copiando as respostas certas de um modelo "professor" moderadamente inteligente.

A Solução: O Método "DeReason" (Desacoplamento Inteligente)

O grande segredo do DeReason não é mudar a matemática do treinamento, mas sim como eles organizam os livros didáticos. Eles perceberam que nem todos os problemas são iguais. Alguns são fáceis e exigem apenas memória; outros são difíceis e exigem raciocínio profundo.

Eles criaram um currículo em duas etapas, como se fosse uma escola com duas turmas:

1. A Turma da "Memória e Fundamentos" (SFT)

  • O que é: Problemas mais fáceis e amplos (ex: "Qual a capital da França?" ou "Como se calcula a área de um círculo?").
  • A Analogia: Imagine que você está montando uma biblioteca. Nesta fase, você usa o tempo para organizar os livros básicos, aprender o vocabulário e entender as regras do jogo. Você não tenta resolver o problema do século ainda; você apenas garante que a IA saiba o que é necessário saber.
  • Ação: A IA lê as respostas de um "professor" para aprender fatos e conceitos básicos.

2. A Turma do "Desafio e Raciocínio" (RL)

  • O que é: Problemas muito difíceis, que exigem vários passos de lógica e criatividade (ex: provar um teorema complexo ou resolver um enigma de lógica).
  • A Analogia: Agora que a IA tem a biblioteca organizada, ela entra na "academia de elite". Aqui, o professor não dá a resposta. Ele diz: "Tente resolver isso. Se acertar, ganha um ponto de honra; se errar, tente de novo".
  • Ação: A IA é forçada a pensar, explorar caminhos diferentes e desenvolver estratégias de raciocínio que ela não conseguiria apenas copiando.

Por que isso é genial? (A Metáfora do Atleta)

Pense em um atleta olímpico:

  1. SFT (A Base): É o treino de força, a dieta e o estudo da técnica. Você não manda o atleta correr a maratona no primeiro dia. Você garante que ele saiba correr, respirar e entender as regras.
  2. RL (O Desafio): É a competição real. Só depois que ele domina a técnica é que você o coloca para competir contra outros, onde ele precisa adaptar sua estratégia em tempo real.

O DeReason diz: "Não misture tudo!"

  • Se você tentar treinar um atleta apenas correndo maratonas desde o início (apenas RL), ele se machuca e não evolui.
  • Se você apenas fizer ele ler livros de corrida e nunca correr (apenas SFT), ele nunca saberá como reagir sob pressão.
  • O DeReason pega os problemas fáceis para a fase de estudo (SFT) e guarda os problemas difíceis e complexos para a fase de competição (RL).

O Resultado

Quando eles testaram isso em benchmarks de ciências e matemática:

  • A IA que fez apenas o treino de "memória" ficou boa, mas não excelente.
  • A IA que tentou apenas "competir" desde o início ficou confusa e aprendeu pouco.
  • A IA que seguiu o currículo DeReason (Primeiro estuda o básico, depois desafia com o difícil) tornou-se a campeã, superando todos os outros métodos.

Resumo em uma frase

O DeReason é como um treinador inteligente que sabe exatamente quando ensinar a teoria e quando colocar o aluno para praticar o difícil, garantindo que a IA aprenda o máximo possível com o mínimo de esforço desperdiçado.