Autores originais: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Publicado 2026-05-07

📖 6 min de leitura🧠 Leitura aprofundada

CC BY 4.0

Autores originais: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

A Visão Geral: Ensinar IA a Resolver Quebra-Cabeças

Imagine que você está treinando um robô para resolver problemas de matemática ou escrever código. Você fornece um comando, e ele tenta gerar uma resposta. Para ensiná-lo, você usa um método chamado Aprendizado por Reforço com Recompensas Verificáveis (RLVR).

Pense nisso como um programa de auditório. O robô (a IA) gera várias respostas diferentes para uma única pergunta. Um árbitro (um simples programa de computador) as verifica:

Se a resposta estiver correta, o robô recebe um "polegar para cima" (recompensa positiva).
Se estiver errada, o robô recebe um "polegar para baixo" (recompensa negativa).

O objetivo é ensinar o robô a gerar mais respostas com "polegar para cima" e menos com "polegar para baixo". O artigo foca em um método de treinamento específico chamado GRPO, que é popular por ser simples e funcionar bem.

O Problema: Como Contar os Votos

A questão central que o artigo aborda é uma pergunta sutil, mas crítica: Quando o robô gera um grupo de respostas, como calculamos a "lição média" para aprender?

O robô pode gerar 16 respostas de uma só vez. Algumas são curtas (5 palavras), e outras são longas (500 palavras). Algumas estão corretas, e outras estão erradas. O algoritmo de treinamento precisa combinar todas essas palavras individuais em uma única grande "atualização" para melhorar o cérebro do robô.

Existem duas principais formas pelas quais as pessoas têm feito isso, e o artigo argumenta que ambas têm um defeito oculto:

1. O Método "Contagem de Palavras" (Agregação de Tokens)

Como funciona: Você conta cada palavra (token) de cada resposta e as média todas juntas.
O Defeito (O "Vilão Prolixo"): Imagine um grupo de alunos fazendo uma prova.
- Aluno A acerta a resposta, mas escreve uma explicação muito curta e concisa (10 palavras).
- Aluno B erra a resposta, mas escreve um ensaio massivo e prolixo (500 palavras).
- Se você apenas contar palavras, a resposta errada do Aluno B tem 50 vezes mais "peso" na média do que a resposta correta do Aluno A.
- O Resultado: A IA fica confusa. Ela acha que as respostas longas e erradas são mais importantes porque ocupam mais espaço. Isso é chamado de "Acoplamento Sinal-Comprimento". O comprimento da resposta altera acidentalmente o sinal (positivo ou negativo) da lição.

2. O Método "Por Pessoa" (Agregação de Sequência)

Como funciona: Você primeiro calcula a lição média para cada resposta individualmente e, em seguida, média essas respostas juntas.
O Defeito (O "Eleitor Preguiçoso"): Usando o mesmo exemplo dos alunos:
- Aluno A (Curto, Correto) recebe 1 voto.
- Aluno B (Longa, Errada) recebe 1 voto.
- O Resultado: Isso corrige o problema do "vilão prolixo". Mas agora, trata uma resposta de 10 palavras exatamente da mesma forma que uma de 500 palavras. Se a IA aprende muito com uma explicação longa e detalhada, este método ignora esse esforço extra. Ele "reduz o peso" das respostas longas, tratando-as como se fossem tão simples quanto as curtas.

A Solução: "Agregação Balanceada" (BA)

Os autores propõem um novo método chamado Agregação Balanceada (BA). É como um árbitro inteligente que corrige os defeitos de ambos os métodos anteriores.

Como funciona:

Classificar as Respostas: Primeiro, o árbitro separa as respostas em duas pilhas: a pilha "Boa" (polegar para cima) e a pilha "Ruim" (polegar para baixo).
Contar Palavras Dentro das Pilhas: Dentro da pilha "Boa", eles contam todas as palavras e as média. Dentro da pilha "Ruim", eles contam todas as palavras e as média.
Equilibrar as Pilhas: Finalmente, eles combinam as duas pilhas. Mas aqui está o truque: eles não as misturam aleatoriamente. Eles garantem que a pilha "Boa" e a pilha "Ruim" tenham influência igual na decisão final, independentemente de quantas palavras haja em cada pilha.

A Analogia:
Imagine um conselho municipal votando sobre um novo parque.

Método Antigo 1 (Contagem de Palavras): As pessoas que falam por mais tempo recebem mais votos, mesmo que estejam erradas.
Método Antigo 2 (Por Pessoa): Cada pessoa recebe um voto, mesmo que uma pessoa tenha escrito um relatório de 50 páginas e outra tenha dito apenas "Sim".
Agregação Balanceada: O conselho se divide em grupos "Pró-Parque" e "Contra-Parque". Eles média os argumentos dentro de cada grupo. Em seguida, dão ao grupo "Pró" e ao grupo "Contra" peso igual na decisão final, garantindo que o comprimento dos argumentos não distorça o resultado.

O Que Eles Encontraram?

Os pesquisadores testaram esse novo método em dois modelos de IA diferentes (Qwen2.5-Math-7B e Qwen3-1.7B) usando conjuntos de dados de matemática e programação.

Estabilidade é a Chave: Os métodos antigos muitas vezes funcionavam bem no início, mas depois colapsavam ou se tornavam instáveis mais tarde no treinamento. O método "Contagem de Palavras" era especialmente instável quando a IA começava a escrever respostas muito longas e erradas.
Melhores Resultados: O método Agregação Balanceada produziu consistentemente pontuações finais melhores. Foi mais estável, o que significa que a IA aprendeu de forma constante, sem oscilações selvagens no desempenho.
Por Que Isso Importa: O artigo mostra que a "melhor" maneira de treinar uma IA depende de quanto o comprimento das respostas varia.
- Se as respostas variam drasticamente em comprimento, o método "Contagem de Palavras" pode ser arriscado.
- Se a diferença entre os comprimentos de respostas "Boas" e "Ruins" é enorme, o método "Por Pessoa" pode ser injusto.
- A Agregação Balanceada funciona bem em ambas as situações porque corrige o viés específico de cada método.

A Conclusão

O artigo conclui que como você "mistura os ingredientes" (agrega os dados) no treinamento de IA não é apenas um detalhe técnico pequeno; é uma escolha de design importante que determina se a IA aprende efetivamente ou fica confusa. Ao simplesmente separar os exemplos "bons" e "ruins" antes de medi-los, os autores criaram um método mais robusto, estável e eficaz para ensinar a IA a raciocinar e programar.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Agregação Balanceada: Compreendendo e Corrigindo o Viés de Agregação no GRPO

Declaração do Problema

A Aprendizagem por Reforço com Recompensas Verificáveis (RLVR) tornou-se um paradigma padrão para aprimorar o raciocínio e a geração de código em Modelos de Linguagem de Grande Escala (LLMs), com a Otimização de Política Relativa por Grupo (GRPO) sendo um método amplamente adotado devido à sua simplicidade e à ausência de um crítico separado. No entanto, uma escolha de design crítica dentro do GRPO permanece pouco explorada: a regra de agregação para os termos do gradiente de política ao nível de token dentro de um grupo amostrado.

As práticas atuais geralmente se enquadram em duas categorias:

Agregação de Sequência: O padrão no GRPO convencional, que primeiro calcula a média das contribuições de token dentro de cada resposta e, em seguida, calcula a média entre as respostas. Isso implicitamente reduz o peso das respostas mais longas, pois cada sequência contribui igualmente, independentemente da contagem de tokens.
Agregação de Token: Defendida por trabalhos recentes como DAPO e Dr.GRPO, que calcula a média do objetivo truncado diretamente sobre todos os tokens no grupo amostrado.

O artigo identifica que essas duas regras induzem vieses de otimização sistematicamente diferentes:

A Agregação de Token introduz um viés de acoplamento sinal-comprimento. A contribuição relativa de amostras positivas (vantagem > 0) e negativas (vantagem < 0) depende não apenas de suas vantagens normalizadas, mas também de seus comprimentos médios de resposta. Se as respostas positivas e negativas tiverem distribuições de comprimento diferentes, a agregação de token pode amplificar sistematicamente um lado da atualização, levando a dinâmicas de treinamento instáveis.
A Agregação de Sequência remove o acoplamento sinal-comprimento ao atribuir peso igual a cada resposta. No entanto, ela introduz um viés de ponderação igual de sequência, onde respostas mais longas são implicitamente subponderadas porque a perda é calculada em média por sequência e não por token.

Nenhuma abordagem é universalmente ótima; a eficácia de cada uma depende da variância nos comprimentos de resposta e da diferença nos comprimentos entre amostras positivas e negativas.

Metodologia: Agregação Balanceada (BA)

Para abordar a tensão entre esses vieses, os autores propõem a Agregação Balanceada (BA), uma substituição simples e direta para a etapa de agregação no RLVR estilo GRPO.

O mecanismo central da BA envolve um processo de três etapas:

Particionamento: O grupo amostrado de respostas é dividido em dois subconjuntos com base no sinal de suas vantagens normalizadas: um subconjunto positivo ( $S_+$ ) e um subconjunto negativo ( $S_-$ ).
Média Intra-Subconjunto: As médias ao nível de token são computadas separadamente dentro de cada subconjunto. Isso mantém a propriedade de média ao nível de token dentro dos grupos de sinal, evitando o forte peso igual por sequência da agregação de sequência padrão.
Combinação Inter-Subconjunto: As duas perdas de subconjunto são combinadas usando pesos proporcionais ao número de sequências em cada subconjunto ( $k/G$ para positivo e $(G-k)/G$ para negativo, onde $k$ é a contagem de sequências positivas).

Justificativa Teórica:
No cenário padrão de recompensa binária do GRPO, esse esquema de ponderação específico garante que a BA induza o mesmo fator de equilíbrio inter-sinal que a agregação de sequência ( $\sqrt{k(G-k)}/G$ ). Consequentemente, a BA preserva a propriedade de equilíbrio de sinal da agregação de sequência (removendo o acoplamento sinal-comprimento) enquanto evita o forte efeito de ponderação igual de sequência que penaliza respostas longas. O artigo também fornece uma formulação generalizada para recompensas não binárias, onde os pesos são determinados pela massa de vantagem em vez da contagem de sequências.

Contribuições Principais

Análise Unificada do Viés de Agregação: O artigo fornece uma análise formal demonstrando que a agregação de perda no GRPO não é um detalhe de implementação benigno. Ele caracteriza o viés específico de "acoplamento sinal-comprimento" na agregação de token e o viés de "ponderação igual de sequência" na agregação de sequência.
Agregação Balanceada (BA): A proposta da BA como uma alternativa simples e direta que desacopla os vieses de sinal e comprimento. Ela realiza a média ao nível de token dentro dos grupos de sinal, mas equilibra os grupos com base nas contagens de sequências.
Validação Empírica e Critérios de Diagnóstico: Extensos experimentos mostrando que a eficácia relativa da agregação de token versus agregação de sequência é governada pela variância do comprimento de resposta e pela diferença de comprimento entre positivos e negativos. O artigo demonstra que a BA supera consistentemente ambas as linhas de base em diferentes modelos e conjuntos de dados.

Resultados Experimentais

Os autores avaliaram a BA usando Qwen2.5-Math-7B e Qwen3-1.7B em dois conjuntos de dados de treinamento (DAPO-17k e Polaris). O desempenho foi medido em seis benchmarks: Math-500, AIME 2024, AIME 2025, OlympicBench, Minerva-MATH e LiveCodeBench.

Principais Descobertas:

Estabilidade de Treinamento: A agregação de token frequentemente leva a uma degradação severa do desempenho nas etapas finais do treinamento (alta queda do pico até o último passo), enquanto a BA mantém uma precisão robusta no último passo.
Dinâmicas Dependentes do Modelo:
- No Qwen2.5-Math-7B (que apresentou maior variação no comprimento de resposta), a agregação de token inicialmente superou a agregação de sequência, mas a BA superou ambas no desempenho de pico e no último passo.
- No Qwen3-1.7B (que apresentou uma maior diferença de comprimento entre positivos e negativos), a agregação de sequência foi mais estável do que a agregação de token, mas a BA novamente alcançou as métricas mais altas de pico e último passo.
Dinâmicas de Perda: A análise das trajetórias de perda do gradiente de política revelou que a agregação de token causa grandes desvios de zero devido ao acoplamento sinal-comprimento, enquanto a BA e a agregação de sequência permanecem estáveis próximas de zero.
Desempenho Geral: A BA entregou consistentemente um desempenho final mais forte e melhor estabilidade de treinamento em comparação com a agregação padrão de token e sequência em todos os regimes testados.

Significado e Afirmações

O artigo afirma que a agregação é uma escolha de design de primeira classe no RLVR estilo GRPO, e não um detalhe menor de implementação. O significado do trabalho reside em:

Estabilidade: A BA fornece um sinal de otimização mais robusto que previne o colapso do treinamento frequentemente observado com a agregação de token nas etapas posteriores.
Universalidade: Diferentemente da agregação de token ou de sequência, que funcionam bem apenas sob condições específicas de distribuição de comprimento, a BA é robusta em diferentes tamanhos de modelo e conjuntos de dados.
Princípio de Design: O trabalho destaca que um RLVR eficaz requer o equilíbrio da ponderação inter-sinal (para prevenir viés) sem descartar informações de token dentro do sinal (para preservar o sinal de respostas longas).

Os autores concluem que a Agregação Balanceada oferece uma solução simples, porém eficaz, para os trade-offs inerentes ao GRPO, levando a uma otimização mais estável e a um desempenho final aprimorado do modelo em tarefas de raciocínio e codificação.

Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO