RLP: Reinforcement as a Pretraining Objective

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando uma criança a ler e a escrever.

O jeito antigo (como os modelos de IA atuais são treinados):
Você dá para a criança um livro gigante e diz: "Leia a próxima palavra que vem depois desta". A criança repete isso milhões de vezes. Ela fica muito boa em prever qual palavra vem a seguir, mas ela não necessariamente entende o porquê. Ela apenas memorizou padrões. Se você perguntar algo complexo, ela pode tentar adivinhar a resposta sem realmente raciocinar, como um papagaio que repete frases que ouviu.

O novo jeito (RLP - o método deste artigo):
Os autores do artigo dizem: "E se, antes de a criança dizer a próxima palavra, nós a obrigássemos a pensar um pouco?"

O RLP (Reinforcement Learning Pre-training) é como um super-mentor que entra nessa fase de aprendizado inicial. Aqui está como funciona, usando uma analogia simples:

A Analogia do "Detetive Interno"

Imagine que o modelo de IA é um detetive tentando adivinhar a próxima palavra de uma história.

O Cenário Antigo: O detetive olha para a frase anterior e chuta a próxima palavra imediatamente. Se ele acertar, ganha um "ponto".
O Cenário RLP: Antes de chutar a palavra, o detetive tem que escrever um bilhete secreto no seu caderno (o "Chain of Thought" ou Cadeia de Pensamento).
- Exemplo: A frase é "O sol brilha forte, então as plantas fazem sua comida usando...".
- Pensamento do Detetive (Bilhete): "Hmm, plantas precisam de luz solar para fazer fotossíntese. A palavra mais provável é 'luz' ou 'sol'."
- Resposta Final: "...luz solar."

A Grande Inovação: A Recompensa Inteligente

Aqui está a mágica do RLP. Em métodos antigos de "Reinforcement Learning" (Aprendizado por Reforço), você precisava de um professor humano ou um verificador externo para dizer: "Isso está certo, parabéns!" ou "Isso está errado, tente de novo". Isso é caro e lento.

O RLP é autônomo e sem verificador externo. Como ele sabe se o pensamento foi bom?

Ele compara duas situações:
1. Sem Pensamento: O modelo tenta adivinhar a palavra sem ler o bilhete secreto.
2. Com Pensamento: O modelo lê o bilhete secreto e tenta adivinhar.
A Recompensa: Se o bilhete secreto fez o modelo ter mais certeza de que a palavra estava correta (aumentou a probabilidade de acerto), o modelo ganha uma "recompensa" automática. Se o bilhete foi inútil ou confuso, ele não ganha nada.

É como se o modelo recebesse um elogio interno: "Uau, pensar sobre isso me ajudou a prever a próxima palavra com mais precisão! Vou fazer isso de novo!".

Por que isso é revolucionário?

Aprendizado desde o Início: Normalmente, a IA só aprende a "pensar" no final, depois de anos de treinamento básico. O RLP ensina a pensar durante o treinamento básico, desde o primeiro dia. É como ensinar a criança a raciocinar enquanto ela aprende a ler, em vez de só depois.
Funciona em Qualquer Texto: Você não precisa de livros de matemática ou testes difíceis para treinar isso. Funciona em qualquer texto da internet, em artigos científicos, em receitas de bolo. O modelo aprende a extrair padrões de raciocínio de qualquer lugar.
Economia de Energia: O modelo aprende a ser inteligente de forma mais eficiente. O artigo mostra que, com menos dados de treinamento, um modelo com RLP supera modelos gigantes que foram treinados com muito mais dados, mas sem essa técnica de "pensar antes de falar".

O Resultado na Prática

Os autores testaram isso em modelos de diferentes tamanhos (do pequeno ao grande) e em diferentes áreas (matemática, ciências, lógica).

O que aconteceu? Os modelos que usaram o RLP ficaram muito melhores em resolver problemas complexos.
A metáfora final: É como se você estivesse treinando um atleta. O método antigo faz o atleta correr milhões de vezes. O RLP faz o atleta correr, mas antes de cada corrida, ele analisa o terreno, planeja a estratégia e só então corre. O resultado? Ele corre mais rápido, gasta menos energia e ganha mais corridas.

Em resumo, o RLP ensina a IA a não apenas prever o futuro, mas a entender o presente antes de fazer a previsão, transformando um "papagaio estatístico" em um "pensador autônomo" desde o início de sua vida digital.

Each language version is independently generated for its own context, not a direct translation.

Título: RLP: Reinforcement as a Pretraining Objective (RLP: Aprendizado por Reforço como Objetivo de Pré-treinamento)

1. O Problema

O paradigma dominante para o treinamento de Grandes Modelos de Linguagem (LLMs) baseia-se no pré-treinamento com perda de previsão do próximo token (Next-Token Prediction - NTP). Embora eficaz para capturar estrutura sintática e semântica, esse objetivo não incentiva explicitamente o raciocínio de longo alcance ou a integração profunda com conhecimento do mundo.

Atualmente, a capacidade de raciocínio complexo (como em tarefas matemáticas ou científicas) é induzida apenas nas fases finais de pós-treinamento, através de Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço com Feedback Humano/Verificado (RLHF/RLVR). O artigo questiona se adiar o aprendizado de raciocínio para o pós-treinamento é a abordagem ótima. A falta de mecanismos de raciocínio durante o pré-treinamento limita a capacidade do modelo de "pensar" e fundamentar a linguagem em conhecimento do mundo desde o início do aprendizado.

2. Metodologia: RLP (Reinforcement Learning Pre-training)

O RLP propõe uma mudança de paradigma: trazer o espírito central do Aprendizado por Reforço (RL) — a exploração — para a fase de pré-treinamento, utilizando dados de texto ordinário.

Conceito Central

O método trata a geração de uma Cadeia de Pensamento (Chain-of-Thought - CoT) como uma ação exploratória explícita tomada antes de prever o próximo token.

Ação: Para cada posição $t$ no texto, o modelo amostra um pensamento interno (CoT), denotado como $c_t$ .
Predição: O modelo prevê o token observado $x_t$ condicionando-se tanto no contexto anterior quanto no pensamento amostrado ( $x_{<t}, c_t$ ).
Recompensa: A recompensa é calculada como o ganho de informação (Information Gain). Ela mede o aumento na verossimilhança (log-probabilidade) do token observado quando o pensamento está presente, comparado a uma linha de base "sem pensamento" (No-Think).

Mecanismo de Recompensa (Verificador-Livre)

Diferente de métodos de RL tradicionais que exigem verificadores externos ou respostas corretas pré-definidas, o RLP é verificador-livre (verifier-free) e gera recompensas densas:

Linha de Base (EMA): Um professor "EMA" (Média Móvel Exponencial) do modelo atual, que prevê o token sem acesso ao canal de pensamento.
Cálculo: A recompensa $r(c_t)$ é a diferença entre o log-verossimilhança do preditor com pensamento e o log-verossimilhança do baseline sem pensamento:
$r(c_t) = \log p_\theta(x_t | x_{<t}, c_t) - \log \bar{p}_\phi(x_t | x_{<t})$
Se o pensamento ajudar a prever o próximo token com mais precisão do que a linha de base, a recompensa é positiva. Isso incentiva o modelo a gerar pensamentos que realmente reduzem a incerteza sobre o futuro.

Otimização

O objetivo é maximizar o ganho de informação esperado.
Utiliza-se uma abordagem de vantagem relativa em grupo (Group-Relative Advantages), amostrando múltiplos pensamentos por contexto para reduzir a variância.
A atualização dos parâmetros ocorre apenas nos tokens do pensamento (CoT), utilizando uma função de perda substituta com clipping (similar ao PPO), enquanto a recompensa é tratada como constante (sem backpropagation através do preditor).

3. Contribuições Principais

Objetivo de Pré-treinamento Inovador: Introdução do RLP, um objetivo de RL baseado em ganho de informação que permite o aprendizado de raciocínio durante o pré-treinamento em dados de texto geral, sem necessidade de datasets curados ou verificadores externos.
Algoritmo Estável e Prático: Desenvolvimento de um algoritmo que intercala atualizações de RL com treinamento de verossimilhança padrão, utilizando uma linha de base EMA lenta para evitar "hacking" de recompensa e garantir estabilidade.
Garantias Teóricas: Prova teórica de que maximizar a recompensa esperada do RLP equivale à redução da entropia cruzada (Cross-Entropy) em relação à linha de base, fornecendo um limite inferior computável para a melhoria do modelo.
Validação Empírica Abrangente: Demonstração de que o RLP supera baselines fortes, generaliza entre domínios (matemática, ciência, web) e escala eficazmente para diferentes arquiteturas e tamanhos de modelos.

4. Resultados Experimentais

Os autores avaliaram o RLP em dois modelos principais: QWEN3-1.7B-BASE e NEMOTRON-NANO-12B-V2 (um modelo híbrido Mamba-Transformer).

Desempenho em Qwen3-1.7B:
- O modelo pré-treinado com RLP ( $M_{RLP}$ ) superou o pré-treinamento contínuo padrão ( $M_{CPT}$ ) em 17% e o modelo base em 19% em média em uma suíte de 8 benchmarks de matemática e ciência.
- Ganhos significativos foram observados em tarefas pesadas de raciocínio como AIME25 e MMLU-Pro.
- Mesmo após um pós-treinamento forte (SFT + RLVR), os benefícios do RLP persistiram e se acumularam, superando os modelos controlados em 7-8%.
Escalabilidade (Nemotron-Nano-12B):
- Aplicado a um modelo de 12B parâmetros, o RLP aumentou a média geral de 42.81% para 61.32% (um ganho relativo de 43%).
- O ganho no raciocínio científico foi de 23%.
- O modelo RLP treinado com apenas 250M tokens superou um baseline treinado com 20T tokens em métricas de raciocínio, demonstrando extrema eficiência de dados.
Comparação com RPT (Reinforcement Pre-training via Prefix-matching):
- Em comparações com orçamento de tokens e FLOPs equivalentes, o RLP superou consistentemente o método RPT (que usa recompensas binárias esparsas e filtros de entropia).
- O RLP mostrou ganhos universais em todos os domínios, enquanto o RPT tendia a ter ganhos limitados a dados matemáticos curados.
Generalização de Domínio:
- O RLP funcionou bem em dados de SFT estruturados, artigos acadêmicos, livros didáticos e até em dados de web-crawl não curados, provando que o sinal de raciocínio pode ser extraído de textos gerais.

5. Significado e Impacto

O trabalho RLP representa um avanço fundamental na arquitetura de treinamento de LLMs:

Mudança de Paradigma: Desloca o foco de "aprender a raciocinar apenas no pós-treinamento" para "aprender a pensar durante a aquisição de conhecimento".
Eficiência e Escalabilidade: Demonstra que é possível induzir capacidades de raciocínio complexas em modelos base usando apenas dados de texto geral, sem a necessidade de custos computacionais massivos para curadoria de dados ou verificadores externos.
Robustez: Os modelos treinados com RLP desenvolvem uma fundação de raciocínio mais robusta que resiste e se beneficia de alinhamentos posteriores, sugerindo que o raciocínio é uma habilidade que pode (e deve) ser aprendida desde os estágios iniciais de pré-treinamento.

Em resumo, o RLP preenche a lacuna entre a previsão de próxima palavra e o raciocínio emergente, oferecendo um método escalável, eficiente e independente de arquitetura para treinar modelos que "pensam" antes de responder.