Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô muito inteligente a resolver um quebra-cabeça complexo, como o famoso "Enigma de Einstein" (ou Zebra Puzzle), onde você precisa deduzir quem mora em qual casa, de que cor é a casa, qual animal eles têm, etc.

O artigo que você enviou conta uma história interessante sobre como ensinar esse robô a pensar de forma mais organizada, sem precisar reescrever todo o livro de instruções dele.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O Caos na Cozinha

Normalmente, quando treinamos esses robôs (chamados de Modelos de Linguagem) para resolver tarefas, nós damos a eles um objetivo simples: "Acerte a resposta!". É como se você dissesse a um cozinheiro: "Faça um bolo perfeito". Se o bolo ficar bom, você dá um ponto. Se ficar ruim, zero.

O problema é que o robô pode tentar fazer o bolo de qualquer jeito: misturar os ingredientes na ordem errada, assar antes de bater os ovos, ou tentar tudo ao mesmo tempo. Ele consegue o resultado final (o bolo), mas o processo foi um caos. O artigo pergunta: E se pudéssemos dar uma "dica" sutil sobre a ordem correta das coisas, sem mudar o livro de receitas?

2. A Solução: O "GPS" da Ordem

Os autores decidiram testar isso com um robô que já foi treinado para resolver o enigma, mas com uma pegadinha: eles ensinaram o robô com as soluções em ordem aleatória. Imagine que você ensinou o cozinheiro a fazer o bolo, mas mostrou as fotos dos passos misturadas (primeiro o bolo pronto, depois a massa crua, depois os ovos quebrados). O robô aprendeu a fazer o bolo, mas não sabe a ordem lógica dos passos.

Depois, eles usaram uma técnica de "treinamento por reforço" (onde o robô aprende tentando e recebendo recompensas). Aqui está a mágica:

Recompensa 1 (O Bolo): Se o robô resolver o enigma corretamente, ganha um ponto.
Recompensa 2 (A Ordem): Se o robô seguir a ordem lógica de um "solucionador profissional" (o "solucionador canônico"), ganha um pontinho extra, mesmo que a resposta final ainda não esteja pronta.

3. O Truque: A Mistura de Sabores

O grande desafio era equilibrar essas duas recompensas. Imagine que a recompensa de "resolver o enigma" é como um prato gigante de arroz (muito grande), e a recompensa de "seguir a ordem" é uma pitada de sal. Se você misturar tudo sem medir, o robô só vai sentir o arroz e ignorar o sal.

Para resolver isso, os autores criaram um "Equilibrador de Sabores" (chamado no texto de Bootstrapped Scaling). Eles mediram o quanto cada recompensa valia no início e ajustaram os volumes para que, quando misturados, a "pitada de sal" (a ordem) tivesse o peso exato que eles queriam, sem ser engolido pelo "arroz" (o resultado final).

4. O Resultado: O Caminho do Sábio

O resultado foi surpreendente. Mesmo que o robô nunca tivesse visto a ordem correta durante o treinamento inicial (ele só viu o caos), quando eles deram essa "dica de ordem" durante o treino final:

O robô começou a resolver o enigma com mais frequência.
Ele começou a seguir um caminho mais lógico, como se tivesse um "GPS interno" que o guiava pelos passos corretos.
O melhor resultado veio quando eles deram 99% de peso para acertar a resposta e apenas 1% de peso para seguir a ordem.

A analogia final:
Pense em um aluno que estuda para uma prova.

Método Antigo: O professor diz apenas: "Se você tirar 10, ganha um prêmio". O aluno pode chutar tudo, memorizar respostas aleatórias e, por sorte, tirar 10.
Método Novo: O professor diz: "Se você tirar 10, ganha um prêmio. E, se você escrever a resposta seguindo a lógica do livro didático, ganha um bônus extra".
O que aconteceu: O aluno, mesmo tendo estudado com anotações bagunçadas antes, começou a organizar o pensamento. Ele não precisou reescrever todo o livro; só precisou de um pequeno incentivo para seguir o caminho mais lógico.

Conclusão

O artigo mostra que não precisamos reescrever todo o material de ensino (os dados de treinamento) para melhorar a inteligência de uma IA. Às vezes, basta dar um sinal de recompensa sutil que diga: "Ei, tente fazer isso na ordem certa". Isso ajuda a IA a desenvolver um "modelo de mundo" interno, entendendo não apenas o que fazer, mas como e quando fazer, tornando-a mais eficiente e inteligente.

Each language version is independently generated for its own context, not a direct translation.

Título: Recompensas Mistas Bootstrap para Pós-Treinamento em RL: Injetando Ordem Canônica de Ações

1. Problema e Motivação

O pós-treinamento de modelos de linguagem com Aprendizado por Reforço (RL) geralmente otimiza um único objetivo escalar (como o sucesso na tarefa), ignorando a estrutura interna de como as soluções são geradas, especificamente a ordem em que as ações intermediárias são tomadas.

A questão central deste trabalho é: Uma dica escalar simples sobre uma ordem de resolução canônica, usada apenas durante o pós-treinamento com RL, pode melhorar o desempenho, mesmo quando o modelo foi ajustado (fine-tuned) em sequências de soluções aleatórias?

O estudo foca em Quebra-cabeças Zebra (puzzles lógicos), onde a ordem lógica de preenchimento das células é crucial para a eficiência da resolução, mas o modelo é inicialmente treinado em dados com ordem aleatória.

2. Metodologia

Arquitetura e Dados

Modelo: Um Transformer estilo GPT-2 (4 camadas, 4 cabeças de atenção, tamanho oculto de 256), treinado do zero.
Dataset: Quebra-cabeças Zebra, filtrados para soluções com exatamente 9 ações.
Variáveis de Sequência:
1. Ordem do Solucionador (Solver-order): A sequência cronológica exata em que um solucionador canônico e determinístico preenche as células.
2. Ordem Aleatória (Random-order): A mesma sequência de ações, mas embaralhada uniformemente.

Fase 1: Ajuste Fino (Fine-Tuning)

O modelo é primeiro ajustado com um objetivo padrão de modelagem de linguagem causal sobre o dataset de ordem aleatória. O modelo não vê a ordem canônica nesta fase.

Fase 2: Pós-Treinamento com RL (GRPO)

Após o ajuste fino, o modelo é submetido ao Group Relative Policy Optimization (GRPO). O objetivo é otimizar uma função de recompensa composta por dois componentes:

Recompensa de Resolução (Solved Reward - $R_{solve}$ ):
- Esparsa e binária.
- Valor 1 se o modelo produzir uma solução totalmente correta; 0 caso contrário.
- Ignora a ordem das ações, focando apenas no resultado final.
Recompensa de Ordem (Order Reward - $R_{order}$ ):
- Mede o quão próximo a ordem de geração do modelo está da ordem canônica do solucionador, independentemente da correção dos valores.
- Calculada como a média de $1 / (1 + |\pi^*(r,c) - \hat{\pi}(r,c)|)$ para as células emitidas corretamente, onde $\pi^*$ é o índice canônico e $\hat{\pi}$ é o índice de emissão do modelo.
- Atua como um reward shaping (modelagem de recompensa) para guiar o modelo para trajetórias semelhantes às do solucionador.

Combinação e Escalonamento Bootstrap

Para comparar os sinais de forma justa, as recompensas são combinadas via soma ponderada fixa:
$R_{total} = \alpha \cdot R_{solve} + (1 - \alpha) \cdot R_{order}$

Desafio: As magnitudes brutas de $R_{solve}$ e $R_{order}$ podem diferir drasticamente, dominando uma sobre a outra independentemente do peso $\alpha$ .
Solução (Bootstrapped Scaling): Antes do GRPO, o modelo ajustado é avaliado em um conjunto de validação para calcular as médias empíricas ( $\bar{R}_{solve}$ e $\bar{R}_{order}$ ). Fatores de escala globais são definidos para equalizar as magnitudes dos componentes na razão desejada ( $\alpha$ ) no início do treinamento. Esses fatores permanecem fixos durante todo o pós-treinamento.

3. Contribuições Principais

Método de Recompensa Escalar: Propõe injetar a ordem do solucionador no processo de GRPO apenas através de um sinal de recompensa, sem modificar os dados de ajuste fino ou a arquitetura do modelo.
Procedimento de Escalonamento Bootstrap: Desenvolve uma técnica para normalizar magnitudes heterogêneas de recompensa, permitindo estudos controlados de misturas de objetivos.
Evidência Empírica: Demonstra que sinais de ordem "grossos" (coarse), quando misturados com a recompensa de correção, melhoram significativamente a precisão do pós-treinamento em RL, mesmo sem dados supervisionados ordenados.

4. Resultados

Os experimentos foram avaliados na acurácia de resolução de quebra-cabeças (fração de puzzles totalmente resolvidos) no conjunto de teste.

Linha de Base: O modelo ajustado em ordem aleatória alcançou 27.9% de acurácia.
Otimização Apenas na Tarefa ( $\alpha = 1.0$ ): O pós-treinamento com apenas a recompensa de resolução melhorou a acurácia para 32.6%.
Recompensas Mistas: A adição de qualquer componente de ordem não nulo superou consistentemente a otimização apenas de tarefa.
- A melhor performance foi alcançada com uma ponderação de 0.99 : 0.01 (Solução : Ordem), atingindo 36.3% de acurácia.
- Outras misturas (ex: 0.95 : 0.05 e 0.9 : 0.1) também superaram a linha de base, alcançando ~35.5%.

Conclusão dos Resultados: Mesmo uma pequena fração de sinal de ordem (1%) atua como um termo de modelagem eficaz, guiando o modelo para trajetórias canônicas e melhorando a taxa de sucesso final.

5. Significado e Implicações

Viés Estrutural sem Custos de Dados: O trabalho demonstra que é possível injetar viés estrutural (como a lógica de raciocínio passo-a-passo) no pós-treinamento de RL sem a necessidade de curar novos conjuntos de dados supervisionados ordenados ou retreinar o modelo do zero.
World Models Implícitos: Sugere que o modelo pode aprender a manter um "modelo interno" de movimentos válidos para cada estado quando guiado por sinais de ordem, alinhando-se com a ideia de que Transformers podem atuar como motores de raciocínio sobre dinâmicas de puzzles.
Eficiência: Oferece um "botão" modular e barato para pós-treinamento, onde a simples adição de uma recompensa de ordem pode refinar o comportamento do agente para ser mais robusto e alinhado com a lógica humana/canônica.

6. Limitações e Trabalhos Futuros

Os experimentos são limitados a uma única tarefa (Zebra puzzles) e uma única arquitetura.
O uso de fatores de escala fixos pode se tornar descalibrado à medida que a política melhora em taxas diferentes durante o treinamento.
Futuras pesquisas devem investigar a atualização periódica desses fatores de escala e a generalização para outras tarefas e escalas de modelos.