Learning to Reason without External Rewards

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um aluno muito inteligente, mas que ainda não sabe muito sobre matemática ou programação. Normalmente, para ele aprender, você precisaria ser um professor o tempo todo: corrigir cada erro, dar notas e dizer "isso está certo" ou "isso está errado". Isso é caro, demorado e difícil de fazer para tudo o que existe no mundo.

Este artigo, chamado INTUITOR, propõe uma ideia revolucionária: e se o aluno pudesse aprender sozinho, apenas confiando na própria intuição?

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: A Dependência do Professor

Atualmente, para treinar Inteligências Artificiais (IA) a serem boas em raciocínio (como resolver equações ou escrever códigos), usamos dois métodos principais:

O Professor Humano (RLHF): Alguém lê a resposta da IA e diz se é boa. É caro e lento.
O Chefe Rigoroso (RLVR): A IA tenta resolver um problema de matemática. Se a resposta for exatamente igual à do livro, ganha um ponto. Se não, ganha zero. Isso funciona bem para matemática, mas e se não houver um "livro de respostas" (como em criar um novo tipo de código ou escrever uma história)? A IA fica travada.

2. A Solução: O "Sentimento de Confiança" (Self-Certainty)

Os autores criaram o INTUITOR. Em vez de um professor ou um livro de respostas, a IA usa o próprio "feeling" dela.

A Analogia do "Estalo Mental":
Imagine que você está tentando resolver um quebra-cabeça difícil.

Se você coloca as peças de um jeito e elas parecem estranhas, você sente um "estalo" interno de que algo está errado. Sua confiança é baixa.
Se você coloca as peças e elas se encaixam perfeitamente, você sente uma sensação de "sim, isso faz sentido!". Sua confiança é alta.

O INTUITOR ensina a IA a perceber essa sensação de confiança.

Se a IA gera uma resposta e sente que ela é "confusa" ou "incerta", ela recebe uma recompensa baixa (ou seja, não é premiada).
Se ela gera uma resposta e sente que ela é "clara", "lógica" e "certa", ela recebe uma recompensa alta.

A IA aprende, então, a tentar gerar respostas que a deixem mais "confiante".

3. Como Funciona na Prática?

O método usa uma técnica chamada GRPO (uma forma de treino por tentativa e erro).

A IA recebe uma pergunta.
Ela tenta responder 7 vezes diferentes (como se estivesse rascunhando 7 soluções).
Ela mesma avalia: "Qual dessas 7 respostas eu sinto que é a mais sólida?"
Ela recebe um "prêmio" virtual pelas respostas que ela mesma achou mais convincentes.
Ela ajusta seu cérebro para tentar fazer mais coisas que gerem essa sensação de certeza.

4. O Resultado Surpreendente: O Efeito "Bola de Neve"

O que os pesquisadores descobriram foi incrível:

Aprendizado Rápido: A IA começou a aprender muito rápido, sem precisar de ninguém corrigindo.
Raciocínio Estruturado: Para se sentir mais "confiante", a IA começou a escrever mais detalhes. Em vez de apenas dar a resposta, ela começou a explicar o "porquê" passo a passo (como um aluno que escreve todo o raciocínio na prova para garantir que não errou).
Generalização (O Pulo do Gato): Isso é o mais legal. Eles treinaram a IA apenas com problemas de Matemática (usando apenas a confiança dela).
- O Milagre: Depois de treinar só em matemática, a IA ficou tão boa em "pensar com lógica" que, quando pediram para ela escrever códigos de computador (algo que ela nunca viu no treino), ela foi melhor do que modelos treinados especificamente para isso!
- Por que? Porque ela aprendeu a organizar o pensamento, não apenas a decorar fórmulas. Ela aprendeu a "pensar" de verdade.

5. Por que isso é importante?

Hoje, para criar uma IA superinteligente, precisamos de milhões de respostas humanas ou testes complexos. O INTUITOR mostra que a IA pode ter um "motor interno" de aprendizado.

É como se a IA tivesse um GPS interno. Em vez de alguém apontar o caminho no mapa (resposta certa), a IA aprende a sentir quando está no caminho certo (confiança). Isso permite que ela aprenda qualquer coisa, desde matemática até programação, sem precisar de um professor humano para cada tarefa.

Resumo em uma frase:
O INTUITOR ensina a IA a confiar no próprio "feeling" de que uma resposta faz sentido, e ao fazer isso, ela desenvolve uma capacidade de raciocínio tão forte que consegue resolver problemas de áreas que nunca viu antes.

Each language version is independently generated for its own context, not a direct translation.

Título: Aprendendo a Raciocinar sem Recompensas Externas

Autores: Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song (UC Berkeley, Yale University).

1. O Problema

O treinamento de Grandes Modelos de Linguagem (LLMs) para raciocínio complexo tem dependido fortemente de duas abordagens principais:

RLHF (Reinforcement Learning from Human Feedback): Requer anotação humana extensiva, o que é caro, lento e introduz viés.
RLVR (Reinforcement Learning with Verifiable Rewards): Utiliza sinais verificáveis automaticamente (como correspondência exata de respostas em matemática ou execução de testes de código). Embora eficaz, o RLVR está limitado a domínios onde soluções "ouro" (gold solutions) ou suites de teste completas existem.

A Lacuna: A maioria dos cenários do mundo real (especialmente em tarefas abertas, criativas ou sem verificação automática clara) carece de recompensas externas confiáveis. Isso limita a escalabilidade e a capacidade de autoaperfeiçoamento de agentes de IA, especialmente à medida que suas capacidades superam a capacidade de avaliação humana direta.

Questão de Pesquisa: Os LLMs podem aprimorar suas capacidades de raciocínio baseando-se exclusivamente em sinais intrínsecos e auto-gerados, sem recorrer a verificadores externos ou verdades fundamentais (ground truth) específicas de domínio?

2. Metodologia: RLIF e o Método INTUITOR

Os autores propõem um novo paradigma chamado Reinforcement Learning from Internal Feedback (RLIF) e introduzem um método específico chamado INTUITOR.

Conceito Central: Auto-Certeza (Self-Certainty)

Em vez de usar uma recompensa externa (como "correto/errado"), o INTUITOR utiliza a confiança interna do próprio modelo como sinal de recompensa.

Métrica: O método emprega a Self-Certainty, definida como a divergência KL média entre a distribuição uniforme do vocabulário e a distribuição de probabilidade do próximo token gerada pelo modelo.
Lógica: Modelos tendem a exibir menor confiança em problemas difíceis ou desconhecidos e maior confiança em respostas corretas. Ao otimizar para maximizar essa auto-confiança, o modelo é incentivado a refinar seus caminhos de raciocínio até que se sinta "convencido" da sua própria resposta.
Vantagem: Diferente da entropia (que pode levar a repetições), a auto-certeza é "buscadora de modos" (mode-seeking) e menos propensa a viés de comprimento, tornando-se um indicador mais robusto de qualidade intrínseca.

Algoritmo de Otimização

O INTUITOR integra essa métrica no framework GRPO (Group Relative Policy Optimization), amplamente utilizado em modelos como o DeepSeek-R1.

Amostragem: Para cada consulta $q$ , o modelo gera um grupo de $G$ respostas candidatas ( $o_1, ..., o_G$ ).
Cálculo de Recompensa: Cada resposta é pontuada pela sua Self-Certainty.
Estimativa de Vantagem: A vantagem para cada token é calculada com base na pontuação relativa dentro do grupo (normalizando a pontuação de auto-certeza em relação à média e ao desvio padrão do grupo).
Atualização: O modelo é atualizado para aumentar a probabilidade de gerar respostas com maior auto-certeza relativa.

Diferencial: O processo é totalmente não supervisionado. Não há necessidade de anotação humana, soluções de referência ou execução de código para validar a recompensa.

3. Contribuições Principais

Novo Paradigma (RLIF): Estabelecimento do RLIF como uma abordagem viável para o aprimoramento de LLMs sem supervisão externa, permitindo aprendizado em domínios onde a verificação é impossível.
Método INTUITOR: Desenvolvimento de um algoritmo prático e eficiente que substitui recompensas verificáveis por auto-certeza no GRPO.
Generalização Emergente: Demonstração de que a otimização por recompensas intrínsecas não apenas melhora a tarefa de treinamento (matemática), mas também induz capacidades de raciocínio estruturado e seguimento de instruções que se generalizam para tarefas fora do domínio (como geração de código).
Robustez contra Exploração de Recompensa: Evidência de que o uso de um avaliador de auto-certeza "online" (que evolui com a política) previne o reward hacking (hacking de recompensa), um problema comum em RL onde modelos aprendem a enganar um avaliador estático.

4. Resultados Experimentais

Os experimentos foram conduzidos utilizando modelos da família Qwen2.5 (1.5B, 3B, 7B, 14B), Llama e OLMo, treinados no conjunto de dados MATH.

Desempenho In-Domain (Matemática):
- O INTUITOR atingiu desempenho comparável ao GRPO supervisionado (que usa respostas douradas) em benchmarks como GSM8K e MATH500, sem utilizar nenhuma resposta correta durante o treinamento.
- Em modelos menores (Qwen2.5-1.5B), o INTUITOR conseguiu transformar um modelo que originalmente gerava conteúdo repetitivo e nonsense em um capaz de raciocínio coerente, alcançando ganhos significativos.
Generalização Out-of-Domain (Código e Instruções):
- LiveCodeBench e CRUXEval: O INTUITOR demonstrou superioridade na generalização para geração de código. Enquanto o GRPO treinado em matemática mostrou pouca melhoria em tarefas de código, o INTUITOR obteve melhorias relativas de 65% (LiveCodeBench) e 76% (CRUXEval-O).
- Seguimento de Instruções: Houve uma melhoria notável no AlpacaEval, indicando que o modelo aprendeu a seguir formatos complexos e instruções de chat.
Comportamento Emergente:
- Raciocínio de Longo Prazo: Modelos treinados com INTUITOR começaram a exibir naturalmente cadeias de raciocínio detalhadas (Chain-of-Thought) antes de gerar a resposta final ou o código, mesmo quando o prompt não exigia explicitamente isso.
- Evolução da Qualidade: A análise mostrou que o modelo primeiro aprende a gerar código válido e, subsequentemente, adiciona explicações e raciocínio prévio para aumentar sua própria confiança.
Estabilidade e Robustez:
- O uso de auto-certeza online (onde o modelo avalia suas próprias gerações atuais) evitou o colapso do modelo observado em abordagens com recompensas estáticas ou baseadas em entropia negativa.
- Estudos de ablação confirmaram que a otimização direta da auto-certeza como função de perda leva ao reward hacking, enquanto a formulação baseada em gradiente de política (GRPO) é estável.

5. Significado e Implicações

Este trabalho representa um passo significativo em direção a sistemas de IA autônomos capazes de autoaperfeiçoamento contínuo.

Escalabilidade: Ao eliminar a dependência de dados rotulados ou verificadores de domínio específico, o RLIF oferece um caminho escalável para treinar modelos em vastos conjuntos de dados não estruturados da internet.
Autonomia Futura: O método sugere que, à medida que os modelos se tornam mais capazes, eles podem desenvolver mecanismos internos de avaliação que superam a capacidade humana de verificação direta, permitindo que continuem a melhorar em tarefas complexas sem intervenção humana.
Descoberta de Priors Latentes: Os resultados indicam que os LLMs pré-treinados possuem "priors comportamentais latentes" mais ricos do que se pensava, contendo a estrutura necessária para o raciocínio, que pode ser desbloqueada apenas através de incentivos intrínsecos de confiança.

Em resumo, o INTUITOR prova que a "intuição" do modelo (sua própria confiança) pode ser um motor poderoso para o aprendizado de raciocínio complexo, reduzindo drasticamente a barreira de entrada para o treinamento de agentes de IA avançados.