Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô superinteligente (um Modelo de Linguagem Grande, ou LLM) a resolver problemas de matemática complexos. O método atual, chamado RLVR, funciona basicamente assim: você deixa o robô tentar resolver o problema várias vezes. Se ele acertar, você dá um "biscoito" (recompensa) e ele aprende a fazer aquela solução específica de novo. Se ele errar, você não dá o biscoito.

O problema é que, com o tempo, o robô fica muito bom em repetir as soluções que ele já conhece, mas para de tentar coisas novas. Ele entra em um "teto de vidro": ele só reorganiza as ideias que já tinha, em vez de descobrir novas formas de pensar. É como se um aluno de matemática apenas memorizasse as respostas do livro, em vez de aprender a criar novas fórmulas.

Aqui entra a proposta deste artigo: PSN-RLVR. Vamos usar uma analogia para explicar como isso funciona.

A Analogia do "Chapéu de Palhaço" vs. "Mudança de Personalidade"

Para fazer o robô pensar de forma mais criativa, os cientistas testaram duas abordagens:

O Método Antigo (Ruído no Espaço de Ação): Imagine que o robô está escrevendo uma história passo a passo. O método antigo tenta mudar a história adicionando um "ruído" aleatório a cada palavra que ele escreve.
- O problema: É como se o robô tivesse um "tremedeira" na mão a cada letra que escreve. Ele pode começar a frase com uma ideia brilhante, mas no meio da frase, a tremedeira o faz mudar de ideia aleatoriamente. O resultado é uma história confusa, sem lógica, onde a coerência se perde. É como tentar dirigir um carro enquanto alguém chacoalha o volante a cada segundo.
O Novo Método (Ruído no Espaço de Parâmetros - PSN): Em vez de chacoalhar a mão do robô a cada palavra, os autores propõem mudar a "personalidade" ou o "cérebro" do robô antes de ele começar a escrever.
- Como funciona: Imagine que você tem um robô. Antes de ele tentar resolver um problema, você coloca um "chapéu de palhaço" (uma pequena perturbação matemática) na cabeça dele. Esse chapéu muda ligeiramente a forma como ele vê o mundo e pensa.
- A mágica: Enquanto ele estiver usando aquele chapéu, ele mantém essa nova personalidade do início ao fim da solução. Ele não muda de ideia a cada palavra. Isso permite que ele explore um caminho de raciocínio totalmente novo e consistente do começo ao fim. Se o chapéu funcionar, ele descobre uma solução que o robô "normal" nunca teria imaginado.

Os Três Segredos do Sucesso

Para que essa ideia funcione na prática, os autores precisaram resolver três desafios:

O Problema do "Treino vs. Realidade" (Correção TIS):
Como o robô está treinando com a "versão chapéu" (que é um pouco diferente da versão original), ele pode aprender coisas que não servem para o robô normal. É como treinar um atleta com botas de chumbo e depois pedir para ele correr sem elas.
- A solução: Eles usaram uma técnica chamada Amostragem de Importância Truncada (TIS). Pense nisso como um "filtro de correção". O sistema olha para o que o robô "chapéu" fez e ajusta a pontuação para garantir que o robô "normal" aprenda a lição correta, sem se confundir com as diferenças do chapéu.
O "Botão de Volume" Inteligente (Agendador Adaptativo):
Quanto mais forte o "chapéu" (o ruído), mais criativo o robô fica, mas também mais instável. Se o chapéu for muito forte, o robô fica louco e não resolve nada. Se for muito fraco, ele não muda nada.
- A solução: Em vez de usar um botão fixo, eles criaram um agendador adaptativo em tempo real. É como um termostato inteligente. O sistema olha para o robô: "Ei, você está pensando de forma muito repetitiva e confiante demais? Vamos aumentar o ruído para te forçar a pensar diferente." Se o robô já está tentando coisas novas, o sistema diminui o ruído para ele focar. Isso acontece automaticamente, sem precisar de computadores superpotentes para calcular tudo.
Onde colocar o "Chapéu"?
Eles descobriram que não adianta colocar o chapéu em qualquer lugar do cérebro do robô. A melhor parte para perturbar é uma seção específica chamada MLP (camadas que ajudam o robô a processar informações complexas). É como se você estivesse afinando as cordas de um violão: afinar a corda errada estraga o som, mas afinar a certa cria uma melodia nova e bonita.

O Resultado Final

Quando eles testaram esse método (chamado PSN-GRPO) em modelos de linguagem reais, o resultado foi impressionante:

Para problemas fáceis: O robô continua resolvendo bem, quase como antes.
Para problemas difíceis (com muitos passos): O robô explodiu de criatividade. Ele conseguiu encontrar soluções que os métodos antigos não conseguiam, especialmente quando permitiam muitas tentativas (como tentar 256 vezes para acertar uma vez).
Diversidade: O robô não apenas acertou mais, mas usou estratégias diferentes para acertar. Ele não estava apenas reescrevendo o que já sabia; ele estava descobrindo novos caminhos.

Resumo em uma frase

Este artigo ensina como dar um "empurrãozinho" na personalidade do cérebro de uma IA antes de ela começar a pensar, permitindo que ela explore caminhos de raciocínio longos e consistentes que ela nunca ousaria tentar sozinha, sem perder a lógica no meio do caminho. É a diferença entre um aluno que apenas decora a resposta e um gênio que descobre uma nova forma de resolver o problema.

Each language version is independently generated for its own context, not a direct translation.

Título: Aprendizado para Explorar com Ruído no Espaço de Parâmetros: Um Estudo Aprofundado para RL com Recompensas Verificáveis

1. O Problema: O Teto de Exploração no RLVR

O artigo identifica uma limitação crítica no Reinforcement Learning with Verifiable Rewards (RLVR), uma técnica amplamente utilizada para melhorar o raciocínio de Grandes Modelos de Linguagem (LLMs) em domínios como matemática e código (ex: DeepSeek-R1).

O Fenômeno: Embora o RLVR melhore a eficiência de amostragem (aumentando o pass@1), ele frequentemente atinge um "teto de exploração". Em vez de descobrir novas estratégias de raciocínio, o modelo tende apenas a reponderar traços de solução existentes que já eram prováveis no modelo base.
Consequência: Sob orçamentos de amostragem grandes (ex: pass@256), o modelo não consegue acessar regiões do espaço de raciocínio que contêm soluções superiores ou mais robustas, mas que são improváveis sob a política inicial.
Falhas das Abordagens Atuais:
- Perturbações no Espaço de Ação (Decodificação): Técnicas como amostragem com temperatura injetam ruído token a token. Isso gera ruído não correlacionado ao longo do tempo, destruindo a coerência global necessária para o raciocínio em cadeia (Chain-of-Thought - CoT).
- Regularização de Objetivo: Métodos que forçam diversidade via entropia ou otimização pass@k muitas vezes dependem de sinais proxy sensíveis à dificuldade da tarefa.
- Aumento de Dados: Frequentemente requer custos computacionais adicionais ou dependência de sinais externos.

2. Metodologia: PSN-RLVR

Os autores propõem o PSN-RLVR (Parameter-Space Noise for RLVR), um framework que perturba os parâmetros do modelo antes da geração de trajetórias, em vez de perturbar as ações (tokens).

Principais Componentes:

Exploração no Espaço de Parâmetros (PSN):
- No início de cada iteração, ruído Gaussiano aditivo é aplicado aos parâmetros do modelo ( $\tilde{\theta} = \theta + \epsilon$ ).
- Vantagem Chave: Como o parâmetro perturbado $\tilde{\theta}$ é fixo durante toda a geração de uma trajetória (rollout), a exploração é temporalmente consistente. Isso preserva a coerência do Chain-of-Thought, permitindo que o modelo explore estratégias de raciocínio inteiramente novas sem "deslizar" logicamente.
Correção Off-Policy via Amostragem de Importância Truncada (TIS):
- Como os dados são coletados pela política perturbada ( $\pi_{\tilde{\theta}}$ ) mas usados para treinar a política limpa ( $\pi_{\theta}$ ), há um desajuste de distribuição.
- O método utiliza Truncated Importance Sampling (TIS) para corrigir esse viés, truncando a razão de importância para evitar variância infinita quando as políticas divergem significativamente.
Agendamento Adaptativo de Ruído em Tempo Real:
- Para evitar o controle de ruído baseado em KL (computacionalmente caro e com latência), os autores propõem um agendador leve baseado em dois sinais:
  - Diversidade Semântica: Medida pela similaridade coseno entre duas trajetórias de "sonda" geradas pela política limpa.
  - Auto-certeza (Self-Certainty): Medida pela divergência KL da distribuição de tokens do modelo em relação a uma distribuição uniforme.
- Se o modelo estiver muito confiante e gerando saídas semanticamente similares, o ruído é aumentado para forçar a exploração.
Localização Ótima de Injeção:
- Experimentos mostram que injetar ruído especificamente nas camadas MLP (Feed-Forward) dos Transformers oferece o melhor equilíbrio entre estabilidade e capacidade de exploração, superando a injeção no cabeçalho de linguagem (LM head) ou em todas as camadas.

3. Contribuições Principais

PSN-RLVR: O primeiro estudo sistemático de ruído no espaço de parâmetros para LLMs treinados com recompensas verificáveis.
Mecanismos de Estabilidade: Introdução de TIS para correção off-policy e de um agendador de ruído adaptativo e eficiente, resolvendo os desafios de treinamento com políticas perturbadas.
Análise Abrangente do Espaço de Design: Demonstração de que o PSN é agnóstico ao modelo (funciona em Qwen2.5 e Qwen3) e que a injeção em camadas MLP é superior.
Descoberta de Novas Estratégias: Evidência empírica de que o PSN descobre modos de raciocínio qualitativamente novos, não apenas reponderando o que já existia.

4. Resultados Experimentais

Os experimentos foram realizados em benchmarks de raciocínio matemático (AIME 2024/25, AMC 2023, OlympiadBench, Minerva Math) usando modelos como Qwen2.5-Math-7B.

Desempenho em Orçamentos Grandes: O PSN-GRPO supera consistentemente o GRPO padrão e métodos de ruído no espaço de ação (temperatura) em métricas de pass@k para $k$ $k$ grandes (ex: 128, 256).
- Exemplo: No AIME 2024, o PSN-GRPO alcançou 81.6% de pass@256, superando o baseline GRPO em +8.9 pontos percentuais.
Diversidade: O método restaura e aumenta a diversidade semântica e de operações, que tende a colapsar no RLVR padrão.
Coerência em Longa Distância: Diferente da temperatura (que causa "deriva lógica" em trajetórias longas), o PSN mantém a consistência do raciocínio, sendo particularmente eficaz em tarefas com respostas longas (ex: AIME 2024, média de ~2000 tokens).
Composicionalidade: O PSN é ortogonal a outras técnicas. Combinar PSN com treinamento pass@k resultou em ganhos adicionais (pass@256 subiu de 76.37% para 79.12%).

5. Significado e Impacto

Este trabalho oferece uma solução prática para o problema de estagnação da capacidade de raciocínio em LLMs. Ao mudar o foco da perturbação de tokens para perturbação de parâmetros, os autores conseguem:

Expandir os Limites de Raciocínio: Permitir que modelos descubram soluções que estavam fora do alcance da distribuição pré-treinada.
Manter a Coerência: Resolver o dilema entre exploração e a necessidade de consistência lógica em cadeias de pensamento longas.
Eficiência: Proporcionar ganhos significativos sem a necessidade de dados externos massivos ou custos computacionais proibitivos (graças ao agendador adaptativo leve).

Em resumo, o PSN-RLVR representa um avanço fundamental na forma como os modelos de IA exploram espaços de solução complexos, transformando o RLVR de uma ferramenta de refinamento de seleção para uma ferramenta de descoberta genuína de estratégias.

Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

A Analogia do "Chapéu de Palhaço" vs. "Mudança de Personalidade"

Os Três Segredos do Sucesso

O Resultado Final

Resumo em uma frase

Título: Aprendizado para Explorar com Ruído no Espaço de Parâmetros: Um Estudo Aprofundado para RL com Recompensas Verificáveis

1. O Problema: O Teto de Exploração no RLVR

2. Metodologia: PSN-RLVR

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback