Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um cachorro a fazer truques complexos, como pular por cima de uma cerca alta.

Se você pegar o cachorro, levá-lo direto para a cerca e gritar "Pule!", ele provavelmente vai falhar, ficar confuso e talvez até ter medo. Se você tentar treinar apenas com a cerca alta, ele nunca vai aprender o truque porque é muito difícil de começar.

É exatamente esse o problema que os pesquisadores deste artigo (publicado na conferência ICLR 2026) estão tentando resolver com as Inteligências Artificiais (os "LLMs" ou modelos de linguagem).

Aqui está a explicação do trabalho, chamada E2H Reasoner (Raciocínio do Fácil para o Difícil), usando uma linguagem simples e analogias do dia a dia:

1. O Problema: A "Parede de Tiro"

Atualmente, os modelos de IA são ótimos em coisas simples, mas quando tentamos ensiná-los a resolver problemas de matemática complexa ou lógica difícil apenas com recompensas (como um sistema de "acerto/erro"), eles travam.

A analogia: É como tentar ensinar alguém a tocar uma sinfonia inteira no piano no primeiro dia, sem passar pelas escalas ou notas simples. O aluno fica frustrado, não entende o que fazer e o professor (o sistema de recompensa) não dá pontos porque a resposta está errada. O aluno desiste ou aprende apenas a "chutar" sem entender a lógica.

2. A Solução: O "Treinamento em Camadas" (Currículo)

Os autores propõem uma ideia inspirada na forma como humanos aprendem: Currículo. Em vez de jogar tudo de uma vez, você organiza o aprendizado do mais fácil para o mais difícil.

A analogia do Ginásio: Você não começa levantando 100kg. Você começa com 10kg, depois 20kg, 30kg, e assim por diante.
No papel: Eles pegam os dados de treinamento e os dividem em quatro níveis:
1. Trivial: Coisas que a IA já sabe quase de cara.
2. Fácil: Um pequeno desafio.
3. Médio: Já exige pensar um pouco.
4. Difícil: O problema complexo que queremos resolver.

3. O Segredo: O "Treinador Inteligente" (Agendador)

Aqui está a parte genial do artigo. Muitos métodos antigos faziam o seguinte: "Treine no fácil por 1 hora, depois mude para o difícil e nunca mais olhe para trás".

O problema disso: A IA esquece o que aprendeu no fácil (esquecimento) ou vicia em fazer apenas o fácil para ganhar pontos rápidos (viciada em atalhos).

O E2H Reasoner usa um "agendador" (um cronograma) que é como um treinador de esportes muito esperto:

No começo: Ele mostra muitos exercícios fáceis para a IA ganhar confiança e entender a lógica básica.
No meio: Ele começa a misturar os exercícios difíceis, mas ainda mantém alguns fáceis para a IA não perder o ritmo.
No final: Ele foca quase tudo nos exercícios difíceis, mas garante que a IA não esqueceu as bases.

Eles usam duas estratégias matemáticas (chamadas de Cosine e Gaussian) para decidir exatamente quando e quanto mostrar cada tipo de problema. É como ajustar o volume de uma música: começa baixo, sobe gradualmente e termina alto, sem pular de repente.

4. O Resultado: Pequenos Modelos Viram Gênios

O que é mais impressionante é que isso funciona até em modelos de IA "pequenos" (que têm menos "cérebro" ou memória).

A analogia: É como se um estudante do ensino médio, com um método de estudo perfeito, conseguisse resolver problemas de pós-graduação, enquanto um estudante brilhante (um modelo grande) sem método não conseguisse.
Os testes mostraram que, ao usar esse método, a IA aprendeu a resolver problemas que ela nunca conseguiria resolver sozinha no início. Ela generalizou o aprendizado: aprendeu o princípio no exercício fácil e aplicou no difícil.

5. Por que isso é importante?

Economia de Tempo e Dinheiro: O artigo prova matematicamente que esse método precisa de menos exemplos de treinamento para chegar ao mesmo resultado. É como aprender a dirigir em uma pista vazia antes de ir para a estrada movimentada: você comete menos erros e aprende mais rápido.
Acesso: Permite que modelos menores e mais baratos (que rodam em computadores comuns) tenham capacidades de raciocínio que antes só modelos gigantes e caros tinham.

Resumo em uma frase

O E2H Reasoner é como um professor particular que sabe exatamente quando introduzir um novo desafio para que o aluno (a IA) não desanime, não esqueça o básico e, no final, consiga resolver problemas complexos que pareciam impossíveis no início.

Em suma: Não tente pular o passo. Ensine do fácil para o difícil, com um ritmo inteligente, e a inteligência artificial vai aprender a pensar de verdade.

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

1. O Problema: A "Parede de Tiro"

2. A Solução: O "Treinamento em Camadas" (Currículo)

3. O Segredo: O "Treinador Inteligente" (Agendador)

4. O Resultado: Pequenos Modelos Viram Gênios

5. Por que isso é importante?

Resumo em uma frase

1. Problema e Motivação

2. Metodologia: E2H Reasoner

Decomposição de Tarefas

Agendadores de Treinamento (Schedulers)

Fundamentação Teórica

3. Resultados Experimentais

4. Contribuições Principais

5. Significado e Impacto

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

1. O Problema: A "Parede de Tiro"

2. A Solução: O "Treinamento em Camadas" (Currículo)

3. O Segredo: O "Treinador Inteligente" (Agendador)

4. O Resultado: Pequenos Modelos Viram Gênios

5. Por que isso é importante?

Resumo em uma frase

1. Problema e Motivação

2. Metodologia: E2H Reasoner

Decomposição de Tarefas

Agendadores de Treinamento (Schedulers)

Fundamentação Teórica

3. Resultados Experimentais

4. Contribuições Principais

5. Significado e Impacto

Mais como este