$\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando resolver um quebra-cabeça muito difícil ou um problema de matemática complexo. Você começa a pensar, escrevendo cada passo no papel. De repente, percebe que o caminho que escolheu não está levando a lugar nenhum. Você está preso em um beco sem saída.

Aqui está o problema com os modelos de Inteligência Artificial (LLMs) atuais: quando eles percebem que estão errados, eles muitas vezes não param. Eles continuam insistindo no mesmo caminho errado, tentando "adivinhar" a resposta correta no final, mesmo que a lógica esteja toda bagunçada. É como se você estivesse dirigindo em direção a um abismo, mas em vez de frear, você acelerasse, achando que talvez o carro voe e pule o buraco. Isso gera um raciocínio longo, confuso e, no final, errado.

O artigo que você enviou, chamado "Re2" (Reinforcement Learning with Re-solving), propõe uma solução simples e brilhante para isso: ensinar a IA a ter a humildade de dizer "Ei, isso não vai funcionar. Vamos começar do zero".

Aqui está a explicação passo a passo, usando analogias do dia a dia:

1. O Problema: O "Cego" que insiste no caminho errado

Os modelos de IA modernos são treinados para pensar muito (gerar longas cadeias de raciocínio). O objetivo é que eles pensem mais para acertar. Mas os autores descobriram algo curioso: quanto mais o modelo pensa em um caminho errado, pior ele fica.

A Analogia: Imagine que você está tentando encontrar a saída de um labirinto. Se você começa a andar na direção errada, cada passo que você dá a mais apenas o afasta mais da saída. Se você continuar andando por horas, você não vai sair do labirinto; você só vai ficar mais cansado e confuso.
A Descoberta: O estudo mostrou que, se os primeiros passos do raciocínio da IA estiverem errados, ela raramente consegue se corrigir sozinha, não importa quantas palavras ela escreva depois.

2. A Solução: O "Botão de Reiniciar" Mágico

A equipe criou um novo método chamado Re2. Em vez de forçar a IA a terminar a resposta de qualquer jeito, eles ensinaram o modelo a ter uma terceira opção além de "Acertar" ou "Errar": a opção de "Reiniciar" (Re-solving).

A Analogia: Pense em um jogador de videogame que está preso em um nível difícil.
- Modelos Antigos (RLVR): O jogador continua tentando pular o mesmo obstáculo da mesma maneira errada, morrendo repetidamente, mas o jogo não deixa ele reiniciar. Ele apenas acumula mortes e frustração.
- Modelo Re2: O jogador percebe que a estratégia atual é inútil. Ele aperta um botão de "Reiniciar Nível" (Restart). Ele volta ao início, respira fundo e tenta uma abordagem totalmente nova.

3. Como a IA Aprende a Reiniciar? (O Treinamento)

Como ensinamos uma máquina a admitir que está errada? Eles usaram uma técnica de Reforço (como treinar um cachorro, mas com matemática).

O Cenário: Eles deram à IA um problema e deixaram ela gerar várias tentativas.
A Regra de Ouro:
- Se a IA der a resposta certa no final, ela ganha pontos.
- Se ela der a resposta errada, ela perde pontos.
- O Pulo do Gato: Se a IA perceber que está no caminho errado e disser "Vou começar de novo", ela ganha pontos baseados na probabilidade de que, se ela começar do zero, ela conseguirá acertar.
O Resultado: A IA aprendeu rapidamente que é melhor parar e recomeçar do que insistir em um erro. Ela passou de fazer isso apenas 0,5% das vezes para mais de 30% das vezes!

4. Por que isso é tão importante?

Antes, a IA era como um funcionário teimoso que, mesmo sabendo que o projeto estava falhando, continuava escrevendo relatórios longos e inúteis até o chefe (o usuário) ficar frustrado.

Com o Re2, a IA se torna um pintor inteligente:

Se ela pinta uma linha torta na tela, ela não tenta "consertar" a linha torta com mais tinta (o que só suja a tela).
Ela pega um pano, limpa a tela e começa a pintar de novo, com uma ideia melhor.

Resumo dos Resultados

Os testes mostraram que esse método funciona muito bem:

Mais Precisão: A IA acerta mais problemas difíceis de matemática e lógica.
Menos "Alucinação": Ela para de inventar fatos para tentar justificar um erro.
Eficiência: Embora ela possa gastar um pouco mais de tempo reiniciando, o resultado final é muito melhor do que gastar horas tentando consertar algo que já estava quebrado.

Em suma: O Re2 ensina a Inteligência Artificial a ter autoconsciência. Ele não é apenas sobre "pensar mais", mas sobre pensar melhor, sabendo quando parar, admitir o erro e tentar uma nova estratégia. É a diferença entre teimosia e inteligência real.

Each language version is independently generated for its own context, not a direct translation.

Título: Re2: Desbloqueando o Raciocínio de LLMs via Aprendizado por Reforço com Re-solução

1. O Problema

O artigo identifica uma limitação fundamental nos Grandes Modelos de Linguagem (LLMs) atuais, mesmo após treinamento extensivo com Aprendizado por Reforço com Recompensas Verificáveis (RLVR). Embora o RLVR tenha melhorado a capacidade de raciocínio ao aumentar o "compute" no tempo de teste (gerando cadeias de pensamento mais longas), os modelos ainda sofrem de:

Superpensamento (Overthinking) e Subpensamento (Underthinking): Geração de passos de raciocínio desnecessários ou de baixa qualidade.
Incapacidade de Recuperação: A análise dos autores revela que, quando os passos iniciais de uma cadeia de pensamento (CoT) são subótimos ou direcionados para o caminho errado, o modelo raramente consegue recuperar e chegar à resposta correta, mesmo gerando muitos tokens adicionais.
Ineficiência: Modelos tendem a persistir em caminhos falhos até o fim, gerando respostas longas e incorretas, em vez de reconhecer o erro e recomeçar.

2. Metodologia: Re2 (Reinforcement Learning with Re-solving)

Para abordar essas limitações, os autores propõem o Re2, um novo paradigma que permite ao modelo abandonar caminhos de raciocínio improdutivos e reiniciar a resolução do problema a partir do zero quando necessário.

Principais Componentes Técnicos:

Geração de Prefixos e Continuidades:
- Para cada consulta, o modelo gera $n$ respostas completas.
- Cada resposta é truncada aleatoriamente para criar $n$ prefixos diversos (estados intermediários).
- Para cada prefixo, o modelo gera $m$ continuations (continuações).
- As continuções de um mesmo prefixo formam um "grupo" para cálculo de vantagem.
Estratégia de Recompensa com Re-solução:
Diferente do RLVR tradicional (que dá recompensa 1 para resposta correta e 0 para incorreta), o Re2 introduz uma terceira ação: Re-solver (Redo).
- Se o modelo fornece uma resposta final correta: Recompensa = 1.
- Se o modelo fornece uma resposta final incorreta: Recompensa = 0.
- Se o modelo escolhe Re-solver: A recompensa é estimada pela taxa de sucesso esperada de resolver o problema do zero, calculada com base nas continuções de outros grupos (prefixos diferentes).
- Fórmula da Recompensa de Re-solução ( $r_{resolve}$ ):
  $r_{resolve} = P_{out}(correct) \cdot \frac{1 - P_{out}(resolve)^R}{1 - P_{out}(resolve)}$
  Onde $P_{out}$ são as probabilidades empíricas de resultados corretos, incorretos ou de re-solução fora do grupo atual, e $R$ é o número máximo de tentativas de re-solução permitidas.
Aprendizado por Reforço Puro:
- O método não requer Supervised Fine-Tuning (SFT) preliminar.
- Utiliza o algoritmo DAPO (Group Sequence Policy Optimization) para atualizar os parâmetros, calculando a vantagem dentro de cada grupo e normalizando as recompensas.
- O objetivo é ensinar o modelo a decidir racionalmente: continuar se o caminho for promissor, ou reiniciar se o prefixo atual levar a um beco sem saída.

3. Contribuições Chave

Novo Paradigma de Raciocínio: O Re2 é o primeiro trabalho a propor, via RL puro, que modelos podem abandonar ativamente trajetórias de raciocínio falhas e reiniciar a tarefa, em vez de apenas tentar corrigir erros dentro de uma única cadeia.
Amplificação do Comportamento de "Reinício": O método consegue amplificar um comportamento raro em modelos base (0,5%) para mais de 30% durante o treinamento, sem SFT.
Análise de Escalabilidade no Tempo de Teste: Demonstra que o Re2 supera métodos de RLVR padrão (como DAPO) e técnicas de votação majoritária, especialmente quando o número de amostras (compute) no tempo de teste aumenta.
Eficiência em Problemas Difíceis: Mostra que a qualidade dos passos iniciais é crítica e que a capacidade de "recomeçar" é mais eficaz do que tentar consertar uma cadeia de pensamento já comprometida.

4. Resultados Experimentais

Os autores avaliaram o Re2 em cinco benchmarks variados (AIME 2024/2025, AMC 2023, GSM8K, GPQA-Diamond) e em cinco modelos de tamanhos diferentes (de 3B a 14B parâmetros, incluindo modelos base, instruídos e de raciocínio).

Desempenho Geral: O Re2 superou consistentemente o estado da arte (DAPO) em todos os benchmarks.
- No modelo Qwen2.5-7B-Base, houve um ganho de +5.8% na média geral.
- No modelo DeepSeek-R1-Distill-Llama-8B (um modelo de raciocínio já avançado), o Re2 ainda conseguiu um ganho de +4.4%.
Escalabilidade no Tempo de Teste:
- Em gráficos de test-time scaling, o Re2 mostrou que, à medida que o número de amostras aumenta, a precisão continua a subir, enquanto os modelos RLVR tradicionais tendem a saturar.
- O Re2 consegue um melhor trade-off entre custo computacional e desempenho.
Análise de Comportamento:
- O modelo aprende a identificar rapidamente quando um caminho é falho (a probabilidade de "Redo" aumenta nos primeiros passos de treinamento).
- Reduz significativamente a geração de respostas longas e incorretas, focando em reiniciar quando necessário.

5. Significado e Impacto

O trabalho do Re2 é significativo porque muda a visão de como os LLMs devem raciocinar em tarefas complexas:

Racionalidade: Em vez de forçar uma resposta final (mesque incerta), o modelo aprende a admitir incerteza e recomeçar, imitando o processo humano de revisão de estratégia.
Eficiência de Compute: Ao evitar a geração de tokens em caminhos sem saída, o Re2 otimiza o uso do "compute" no tempo de teste, permitindo que modelos menores alcancem desempenho superior em problemas difíceis.
Futuro do RL: Abre novas direções para o desenvolvimento de agentes de raciocínio mais flexíveis e confiáveis, indo além da abordagem de "uma única cadeia de pensamento" (single-chain) que domina a literatura atual.

Em resumo, o Re2 demonstra que a capacidade de rejeitar e reiniciar é tão crucial para o raciocínio avançado quanto a capacidade de gerar passos corretos, oferecendo uma solução robusta para o problema da persistência em erros durante o raciocínio de LLMs.

Re2\textbf{Re}^{2}Re2: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

1. O Problema: O "Cego" que insiste no caminho errado

2. A Solução: O "Botão de Reiniciar" Mágico

3. Como a IA Aprende a Reiniciar? (O Treinamento)

4. Por que isso é tão importante?

Resumo dos Resultados

Título: Re2: Desbloqueando o Raciocínio de LLMs via Aprendizado por Reforço com Re-solução

1. O Problema

2. Metodologia: Re2 (Reinforcement Learning with Re-solving)

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

A convergence theory for differentiable non-monotone schemes for fully nonlinear parabolic equations

Forest structure in epigenetic landscapes

Walking through Doors is Hard, even without Staircases: Universality and PSPACE-hardness of Planar Door Gadgets

A Linear-Time Algorithm for Steady-State Analysis of Electromigration in General Interconnects

Normalization for multimodal type theory

$\textbf{Re}^{2}$ : Unlocking LLM Reasoning via Reinforcement Learning with Re-solving