Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Este artigo identifica a troca de gradientes e a cancelabilidade em tokens como uma condição necessária para evitar a deriva de aprendizado em recompensas esparsas e propõe transformações intra-grupo que restauram essa estrutura, estabilizando o treinamento e melhorando a eficiência e o desempenho de modelos de raciocínio.

Fei Ding, Yongkang Zhang, youwei wang, Zijian Zeng

Publicado 2026-04-16
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um grupo de estudantes para resolver um problema de matemática difícil. Você não sabe a resposta exata de imediato, mas você pede a 5 alunos que tentem resolver. No final, você dá uma nota apenas para quem acertou (ou não) a resposta final.

O problema que este artigo resolve é o seguinte: como o professor deve corrigir os erros de cada aluno durante o processo, sem estragar o aprendizado deles?

Aqui está a explicação do artigo usando analogias do dia a dia:

1. O Cenário: A "Comparação em Grupo"

Atualmente, os modelos de IA (como o ChatGPT) aprendem fazendo várias tentativas (trajetórias) ao mesmo tempo. O algoritmo compara essas tentativas entre si. Se a Tentativa A é melhor que a Tentativa B, o modelo aprende a fazer mais coisas como a A e menos como a B. Isso é chamado de aprendizado baseado em comparação intra-grupo.

2. O Problema Oculto: A "Taxa de Aprendizagem" (Learning Tax)

O artigo descobre que, com o tempo, esse método tem um defeito estrutural, como se fosse um bug no sistema de correção.

A Analogia do Carro e do GPS:
Imagine que você e um amigo estão dirigindo carros diferentes para o mesmo destino.

  • O Acerto: Vocês viram à direita na esquina correta. O GPS diz: "Ótimo, vire à direita".
  • O Erro: O algoritmo atual, ao comparar os dois carros, às vezes diz: "Olha, o carro do seu amigo virou à direita, mas o seu virou à esquerda. Como o carro dele foi melhor, vamos mudar a direção do seu carro para a esquerda também!"

Isso parece estranho, mas acontece porque o algoritmo olha para a frase inteira (o trajeto completo) e não para cada palavra (cada passo) individualmente.

  • O que acontece na prática: O modelo começa a mudar palavras que não importam (como "o", "a", "então", "portanto") porque elas aparecem em todas as tentativas. Ele tenta ajustar essas palavras comuns para tentar "agradar" a recompensa final, mesmo que elas não tenham nada a ver com a resposta correta.
  • A Consequência: É como se você estivesse gastando energia (computação) para pintar o pneu do carro de uma cor diferente, em vez de consertar o motor. Isso é chamado de "Taxa de Aprendizagem" (você paga um custo, mas não ganha nada). Com o tempo, o modelo fica confuso, esquece o que sabia (esquecimento catastrófico) e começa a repetir padrões bobos apenas para ganhar pontos (entropy collapse).

3. A Causa Raiz: A "Falta de Troca" (Gradient Cancellation)

O artigo explica que, para funcionar bem, o sistema precisa ter uma regra de ouro: Se dois alunos usam a mesma palavra no mesmo momento, e essa palavra é igual para ambos, a correção para essa palavra deve ser ZERO.

Por que? Porque se a palavra é a mesma, ela não ajudou um aluno a ganhar mais pontos que o outro. Então, não faz sentido mudar essa palavra.

O problema é que os métodos atuais (como GRPO e GSPO) tratam a frase inteira como um pacote único. Eles dizem: "O Carro A foi melhor, então vamos mudar tudo o que o Carro A fez, incluindo as palavras que ele tinha em comum com o Carro B". Isso quebra a regra de "troca" e gera o caos.

4. A Solução Proposta: O "Filtro de Igualdade"

Os autores propõem uma solução simples, mas poderosa. Eles criam um "filtro" que olha para o grupo de tentativas antes de dar a correção.

A Analogia da Reunião de Condomínio:
Imagine que o grupo de alunos é uma reunião de condomínio.

  • O Problema: Se o síndico (algoritmo) diz "Vamos mudar a cor da parede", e todos os vizinhos concordam, ele não deve mudar a cor da parede do prédio inteiro só porque um vizinho gostou mais da cor.
  • A Solução (Transformação Intra-Grupo): Antes de aplicar a mudança, o sistema olha para todos os alunos. Se eles usaram a mesma palavra (ex: "a resposta é"), o sistema anula a correção para essa palavra específica. Ele garante que a "força" da correção seja igual para todos os alunos que usaram a mesma palavra.

Isso é feito de duas formas simples no artigo:

  1. Mínimo Comum: Todos os alunos do grupo usam o "menor peso" de correção possível. Isso nivela o jogo.
  2. Projeção Ortogonal: Ajusta as correções para garantir que a soma das mudanças nas palavras comuns seja zero.

5. O Resultado: Mais Eficiência e Menos Caos

Ao aplicar esse "filtro de igualdade":

  • O modelo para de pintar o pneu: Ele para de gastar energia mudando palavras inúteis.
  • Aprende mais rápido: Como a energia vai só para o que importa (o motor, a lógica), o modelo atinge melhores resultados com menos tentativas.
  • Estabilidade: O treinamento não fica oscilando loucamente. O modelo não esquece o que já sabia e não entra em pânico tentando adivinhar padrões aleatórios.

Resumo em Uma Frase

O artigo diz: "Para ensinar uma IA a raciocinar, pare de punir ou recompensar as palavras que ela usa em comum com os outros. Foque apenas nas diferenças que realmente importam para a resposta correta."

É como se o professor dissesse: "Não mude a gramática básica que todos usam; mude apenas a lógica da solução." Isso evita que a IA fique "tonta" e aprenda de verdade.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →