Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Este artigo identifica e resolve o viés de agregação em aprendizado por reforço estilo GRPO com recompensas verificáveis, propondo Agregação Balanceada, um método que calcula a média separadamente dos gradientes em nível de token para respostas positivas e negativas antes de recombiná-los, melhorando assim a estabilidade do treinamento e o desempenho em benchmarks de raciocínio e codificação.

Autores originais: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Publicado 2026-05-07
📖 6 min de leitura🧠 Leitura aprofundada

Autores originais: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

A Visão Geral: Ensinar IA a Resolver Quebra-Cabeças

Imagine que você está treinando um robô para resolver problemas de matemática ou escrever código. Você fornece um comando, e ele tenta gerar uma resposta. Para ensiná-lo, você usa um método chamado Aprendizado por Reforço com Recompensas Verificáveis (RLVR).

Pense nisso como um programa de auditório. O robô (a IA) gera várias respostas diferentes para uma única pergunta. Um árbitro (um simples programa de computador) as verifica:

  • Se a resposta estiver correta, o robô recebe um "polegar para cima" (recompensa positiva).
  • Se estiver errada, o robô recebe um "polegar para baixo" (recompensa negativa).

O objetivo é ensinar o robô a gerar mais respostas com "polegar para cima" e menos com "polegar para baixo". O artigo foca em um método de treinamento específico chamado GRPO, que é popular por ser simples e funcionar bem.

O Problema: Como Contar os Votos

A questão central que o artigo aborda é uma pergunta sutil, mas crítica: Quando o robô gera um grupo de respostas, como calculamos a "lição média" para aprender?

O robô pode gerar 16 respostas de uma só vez. Algumas são curtas (5 palavras), e outras são longas (500 palavras). Algumas estão corretas, e outras estão erradas. O algoritmo de treinamento precisa combinar todas essas palavras individuais em uma única grande "atualização" para melhorar o cérebro do robô.

Existem duas principais formas pelas quais as pessoas têm feito isso, e o artigo argumenta que ambas têm um defeito oculto:

1. O Método "Contagem de Palavras" (Agregação de Tokens)

  • Como funciona: Você conta cada palavra (token) de cada resposta e as média todas juntas.
  • O Defeito (O "Vilão Prolixo"): Imagine um grupo de alunos fazendo uma prova.
    • Aluno A acerta a resposta, mas escreve uma explicação muito curta e concisa (10 palavras).
    • Aluno B erra a resposta, mas escreve um ensaio massivo e prolixo (500 palavras).
    • Se você apenas contar palavras, a resposta errada do Aluno B tem 50 vezes mais "peso" na média do que a resposta correta do Aluno A.
    • O Resultado: A IA fica confusa. Ela acha que as respostas longas e erradas são mais importantes porque ocupam mais espaço. Isso é chamado de "Acoplamento Sinal-Comprimento". O comprimento da resposta altera acidentalmente o sinal (positivo ou negativo) da lição.

2. O Método "Por Pessoa" (Agregação de Sequência)

  • Como funciona: Você primeiro calcula a lição média para cada resposta individualmente e, em seguida, média essas respostas juntas.
  • O Defeito (O "Eleitor Preguiçoso"): Usando o mesmo exemplo dos alunos:
    • Aluno A (Curto, Correto) recebe 1 voto.
    • Aluno B (Longa, Errada) recebe 1 voto.
    • O Resultado: Isso corrige o problema do "vilão prolixo". Mas agora, trata uma resposta de 10 palavras exatamente da mesma forma que uma de 500 palavras. Se a IA aprende muito com uma explicação longa e detalhada, este método ignora esse esforço extra. Ele "reduz o peso" das respostas longas, tratando-as como se fossem tão simples quanto as curtas.

A Solução: "Agregação Balanceada" (BA)

Os autores propõem um novo método chamado Agregação Balanceada (BA). É como um árbitro inteligente que corrige os defeitos de ambos os métodos anteriores.

Como funciona:

  1. Classificar as Respostas: Primeiro, o árbitro separa as respostas em duas pilhas: a pilha "Boa" (polegar para cima) e a pilha "Ruim" (polegar para baixo).
  2. Contar Palavras Dentro das Pilhas: Dentro da pilha "Boa", eles contam todas as palavras e as média. Dentro da pilha "Ruim", eles contam todas as palavras e as média.
  3. Equilibrar as Pilhas: Finalmente, eles combinam as duas pilhas. Mas aqui está o truque: eles não as misturam aleatoriamente. Eles garantem que a pilha "Boa" e a pilha "Ruim" tenham influência igual na decisão final, independentemente de quantas palavras haja em cada pilha.

A Analogia:
Imagine um conselho municipal votando sobre um novo parque.

  • Método Antigo 1 (Contagem de Palavras): As pessoas que falam por mais tempo recebem mais votos, mesmo que estejam erradas.
  • Método Antigo 2 (Por Pessoa): Cada pessoa recebe um voto, mesmo que uma pessoa tenha escrito um relatório de 50 páginas e outra tenha dito apenas "Sim".
  • Agregação Balanceada: O conselho se divide em grupos "Pró-Parque" e "Contra-Parque". Eles média os argumentos dentro de cada grupo. Em seguida, dão ao grupo "Pró" e ao grupo "Contra" peso igual na decisão final, garantindo que o comprimento dos argumentos não distorça o resultado.

O Que Eles Encontraram?

Os pesquisadores testaram esse novo método em dois modelos de IA diferentes (Qwen2.5-Math-7B e Qwen3-1.7B) usando conjuntos de dados de matemática e programação.

  1. Estabilidade é a Chave: Os métodos antigos muitas vezes funcionavam bem no início, mas depois colapsavam ou se tornavam instáveis mais tarde no treinamento. O método "Contagem de Palavras" era especialmente instável quando a IA começava a escrever respostas muito longas e erradas.
  2. Melhores Resultados: O método Agregação Balanceada produziu consistentemente pontuações finais melhores. Foi mais estável, o que significa que a IA aprendeu de forma constante, sem oscilações selvagens no desempenho.
  3. Por Que Isso Importa: O artigo mostra que a "melhor" maneira de treinar uma IA depende de quanto o comprimento das respostas varia.
    • Se as respostas variam drasticamente em comprimento, o método "Contagem de Palavras" pode ser arriscado.
    • Se a diferença entre os comprimentos de respostas "Boas" e "Ruins" é enorme, o método "Por Pessoa" pode ser injusto.
    • A Agregação Balanceada funciona bem em ambas as situações porque corrige o viés específico de cada método.

A Conclusão

O artigo conclui que como você "mistura os ingredientes" (agrega os dados) no treinamento de IA não é apenas um detalhe técnico pequeno; é uma escolha de design importante que determina se a IA aprende efetivamente ou fica confusa. Ao simplesmente separar os exemplos "bons" e "ruins" antes de medi-los, os autores criaram um método mais robusto, estável e eficaz para ensinar a IA a raciocinar e programar.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →