Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha (o Modelo de Linguagem) que é incrível cozinhar pratos para milhões de pessoas. Ele sabe fazer tudo: desde um bolo simples até uma sopa complexa. O problema é que, quando ele tenta aprender o que as pessoas gostam, ele recebe um "aviso de satisfação" de todos os clientes ao mesmo tempo.

No método antigo (chamado GRPO), o chef olhava para a mesa inteira de clientes, calculava a média de satisfação e tentava agradar a todos da mesma forma.

Se 90% das pessoas gostam de comida apimentada e 10% gostam de comida suave, o chef, ao tentar agradar a "média", acaba servindo uma comida meio apimentada.
Resultado: Os 90% acham que falta tempero, e os 10% acham que está insuportável. O grupo minoritário (os que gostam de comida suave) é ignorado porque a "média" foi puxada pelo grupo maior.

Os autores deste paper, da Apple, criaram uma nova receita chamada P-GRPO (Otimização de Política Relativa de Grupo Personalizada). Vamos entender como funciona com uma analogia simples:

O Problema: A "Média" que Apaga as Vozes

No mundo real, as pessoas são diferentes.

O João adora explicações curtas e diretas.
A Maria ama detalhes técnicos e longos.
O Pedro prefere um tom de voz engraçado.

Se você treina o chef olhando apenas para o grupo todo misturado, ele vai tentar ser "médio". Ele vai dar uma explicação curta, mas com um detalhe técnico e um pouco de humor. Ninguém fica totalmente feliz. O método antigo trata todos os pedidos como se fossem intercambiáveis, o que é injusto para quem tem gostos diferentes.

A Solução: O "Caderno de Preferências" Individual

O P-GRPO muda a regra do jogo. Em vez de olhar para a média de todos os clientes na mesa, ele olha para o histórico específico de cada grupo.

Imagine que o chef agora tem vários cadernos de anotações, um para cada tipo de cliente:

Caderno dos "Curto-Circuitos" (João): O chef olha para o que outros que gostam de coisas curtas acharam bom. Se ele faz uma resposta curta e o João gosta, ele recebe um "ponto de vitória" alto, mesmo que a resposta seja "ruim" para quem gosta de textos longos.
Caderno dos "Detalhistas" (Maria): O chef olha para o que outras pessoas que amam detalhes acharam bom. Se ele escreve um texto longo e a Maria adora, ele ganha pontos, mesmo que os "curto-circuitos" odeiem.

A Mágica:
O P-GRPO diz: "Não compare a resposta do João com a resposta da Maria. Compare a resposta do João com o que os outros 'Joãos' acharam!"

Isso evita que o grupo maior (que geralmente tem mais dados) "esmague" o grupo menor. O chef aprende a ser excelente para o João, excelente para a Maria e excelente para o Pedro, ao mesmo tempo, sem precisar ser "médio" para ninguém.

Por que isso é importante?

Justiça: Garante que os gostos minoritários (como o Pedro, que é único) não sejam ignorados apenas porque são menos numerosos.
Velocidade: O chef aprende mais rápido. Em vez de tentar adivinhar o que a "média" quer, ele foca no que aquele grupo específico valoriza.
Qualidade: O resultado final é um assistente que parece entender você especificamente, e não apenas uma versão genérica de "todos".

Resumo em uma frase

O P-GRPO é como ter um personal trainer que não compara o seu desempenho com o do time todo, mas sim com o seu próprio histórico e com o de pessoas que têm o mesmo nível e objetivos que você, garantindo que você evolua da melhor forma possível, sem ser prejudicado por quem tem um perfil diferente.

O estudo mostrou que, ao usar essa técnica, o modelo aprende mais rápido, fica mais feliz com os usuários (ganha mais "pontos") e continua sendo inteligente em tarefas gerais, sem perder a capacidade de raciocínio. É um passo importante para criar IAs que realmente entendem a diversidade humana.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Viés em Alinhamento de Preferências Heterogêneas

Os Grandes Modelos de Linguagem (LLMs) modernos são frequentemente alinhados com preferências humanas usando métodos de pós-treinamento, como o Reinforcement Learning from Human Feedback (RLHF). No entanto, a maioria desses métodos assume que as preferências humanas são homogêneas ou que podem ser representadas por um único objetivo global.

O artigo identifica uma falha crítica em abordagens de estado da arte, especificamente no Group Relative Policy Optimization (GRPO):

Pressuposto de Troca: O GRPO normaliza as recompensas (calculando vantagens) dentro de um grupo de gerações (batch) simultâneas. Isso assume implicitamente que todas as amostras no grupo são intercambiáveis e provêm da mesma distribuição de preferência.
Viés de Maioria: Em cenários reais, as preferências são heterogêneas (variam entre usuários, culturas e contextos). Quando o GRPO normaliza globalmente dentro do batch, ele tende a "encolher" estatisticamente as recompensas em direção à preferência dominante.
Consequência: Sinais de preferência de minorias ou grupos com recompensas sistematicamente mais baixas (ou mais ruidosas) são suprimidos. O modelo converge para uma política que atende bem à maioria, mas falha em alinhar-se com usuários diversos, criando disparidades na qualidade do serviço.

2. Metodologia: P-GRPO (Personalized GRPO)

Para resolver isso, os autores propõem o P-GRPO, uma modificação do GRPO que desacopla a estimativa de vantagem das estatísticas imediatas do batch de geração.

Conceito Central

Em vez de normalizar a recompensa de uma resposta em relação às outras respostas geradas no mesmo batch (que podem pertencer a usuários com preferências diferentes), o P-GRPO normaliza a recompensa em relação às estatísticas históricas específicas do grupo de preferência do usuário.

Mecanismo Técnico

Agrupamento de Preferências: Assume-se que os usuários podem ser particionados em grupos de preferência distintos ( $p$ ), seja através de identificadores explícitos ou clustering de sinais de interação.
Estatísticas em Tempo Real (Online): Para cada grupo de preferência $p$ $p$ , o algoritmo mantém estatísticas de execução (running statistics) da recompensa:
- Média histórica ( $\mu_p$ )
- Desvio padrão histórico ( $\sigma_p$ )
- Contagem de amostras ( $n_p$ )
Algoritmo de Welford: Para garantir eficiência e estabilidade numérica em treinamento distribuído sem armazenar todo o histórico de recompensas (o que seria $O(N)$ ), o P-GRPO utiliza o Algoritmo de Welford para atualizar a média e a variância incrementalmente com complexidade $O(1)$ .
Cálculo da Vantagem Personalizada:
A vantagem $\tilde{A}$ para uma completude $i$ do grupo $p$ é calculada como:
$\tilde{A}_{i,t}^p = \frac{R_i - \mu_p}{\sigma_p + \epsilon}$
Onde $R_i$ é a recompensa obtida, $\mu_p$ é a média histórica do grupo $p$ e $\sigma_p$ é o desvio padrão histórico.

Diferença Fundamental

GRPO Padrão: Compara a resposta com outras respostas no mesmo batch. Se o batch tem muitos usuários "fáceis" (alta recompensa) e poucos "difíceis", as respostas dos usuários difíceis recebem vantagens negativas injustas.
P-GRPO: Compara a resposta do usuário com o que é esperado para aquele tipo de usuário. Uma resposta "moderada" para um usuário exigente pode receber uma vantagem positiva se estiver acima da média histórica desse grupo, garantindo aprendizado equitativo.

3. Contribuições Chave

Novo Framework de Alinhamento: Introdução do P-GRPO, que é o primeiro método a desacoplar a normalização de vantagem de estatísticas de batch instantâneas em favor de estatísticas de preferência específicas.
Identificação de Viés Estrutural: Demonstração teórica e empírica de que a normalização baseada em grupo no GRPO padrão induz um viés sistemático contra preferências minoritárias ou de difícil satisfação.
Eficiência Computacional: Implementação prática via Algoritmo de Welford, permitindo que o método escale para grandes conjuntos de dados e treinamento distribuído sem sobrecarga de memória.
Validação Abrangente: Avaliação em múltiplas tarefas (recomendação de conteúdo, geração de texto) e modelos (Gemma, Qwen), provando que a personalização não sacrifica capacidades gerais.

4. Resultados Experimentais

Os autores avaliaram o P-GRPO em três cenários principais:

Recomendação de Conteúdo (MovieLens-1M): Previsão do próximo filme baseado em perfil e histórico.
Geração de Texto Personalizada (Synthetic Data, Goodreads, KGRec): Geração de resenhas de livros e músicas com estilos linguísticos e sentimentos específicos de "personas".

Principais Achados:

Convergência Mais Rápida: O P-GRPO atinge recompensas estáveis mais rapidamente do que o GRPO padrão em todas as configurações de modelo (Gemma-2B, Qwen3-1.7B, Qwen3-8B).
Melhor Desempenho Final: O P-GRPO consistentemente alcança recompensas médias mais altas e melhores métricas de avaliação (ROUGE, Cosine Similarity) comparado ao GRPO e a outras baselines como GDPO (Group Distributional Preference Optimization).
Avaliação "LLM-as-Judge": Em testes onde um LLM juiz comparou respostas geradas por GRPO vs. P-GRPO, o P-GRPO venceu com maior frequência em todos os clusters de preferência, indicando melhor alinhamento com objetivos individuais.
Preservação de Capacidades Gerais: Testes no benchmark MMLU mostraram que o ajuste fino com P-GRPO não degrada significativamente a capacidade de raciocínio geral do modelo (diferenças de precisão inferiores a 0.6% em relação ao modelo base).
Importância da Qualidade do Clustering: Experimentos de ablação mostraram que a granularidade e a qualidade do agrupamento de preferências são críticas; agrupamentos aleatórios não trazem benefícios.

5. Significado e Impacto

O trabalho é significativo por abordar uma questão fundamental de equidade e justiça no alinhamento de LLMs:

Democratização do Alinhamento: Garante que usuários com preferências menos comuns ou mais complexas não sejam penalizados pelo sistema de treinamento, evitando que o modelo se torne um "médio" que serve apenas à maioria.
Escalabilidade da Personalização: Oferece uma solução de otimização (nível de função de perda) que é mais eficiente e robusta do que métodos que exigem representações latentes complexas ou dados pareados massivos para cada usuário.
Implicações Sociais: O artigo discute que, embora a personalização melhore a experiência do usuário, ela traz riscos de polarização e bolhas de filtro. Os autores recomendam o uso de privacidade (aprendizado federado), transparência sobre os grupos de preferência e avaliações desagregadas para mitigar esses riscos.

Em resumo, o P-GRPO representa um avanço crucial na capacidade de treinar modelos de IA que respeitam verdadeiramente a diversidade humana, transformando a otimização de RL de um processo de "máximo global" para um processo de "máximo equitativo" entre grupos heterogêneos.

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

O Problema: A "Média" que Apaga as Vozes

A Solução: O "Caderno de Preferências" Individual

Por que isso é importante?

Resumo em uma frase

1. O Problema: Viés em Alinhamento de Preferências Heterogêneas

2. Metodologia: P-GRPO (Personalized GRPO)

Conceito Central

Mecanismo Técnico

Diferença Fundamental

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers