Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

O artigo apresenta o Personalized GRPO (P-GRPO), um novo framework de alinhamento que supera as limitações do GRPO padrão ao normalizar vantagens com base em históricos específicos de grupos de preferência, permitindo assim uma convergência mais rápida e um alinhamento eficaz com preferências humanas heterogêneas sem sacrificar capacidades gerais.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha (o Modelo de Linguagem) que é incrível cozinhar pratos para milhões de pessoas. Ele sabe fazer tudo: desde um bolo simples até uma sopa complexa. O problema é que, quando ele tenta aprender o que as pessoas gostam, ele recebe um "aviso de satisfação" de todos os clientes ao mesmo tempo.

No método antigo (chamado GRPO), o chef olhava para a mesa inteira de clientes, calculava a média de satisfação e tentava agradar a todos da mesma forma.

  • Se 90% das pessoas gostam de comida apimentada e 10% gostam de comida suave, o chef, ao tentar agradar a "média", acaba servindo uma comida meio apimentada.
  • Resultado: Os 90% acham que falta tempero, e os 10% acham que está insuportável. O grupo minoritário (os que gostam de comida suave) é ignorado porque a "média" foi puxada pelo grupo maior.

Os autores deste paper, da Apple, criaram uma nova receita chamada P-GRPO (Otimização de Política Relativa de Grupo Personalizada). Vamos entender como funciona com uma analogia simples:

O Problema: A "Média" que Apaga as Vozes

No mundo real, as pessoas são diferentes.

  • O João adora explicações curtas e diretas.
  • A Maria ama detalhes técnicos e longos.
  • O Pedro prefere um tom de voz engraçado.

Se você treina o chef olhando apenas para o grupo todo misturado, ele vai tentar ser "médio". Ele vai dar uma explicação curta, mas com um detalhe técnico e um pouco de humor. Ninguém fica totalmente feliz. O método antigo trata todos os pedidos como se fossem intercambiáveis, o que é injusto para quem tem gostos diferentes.

A Solução: O "Caderno de Preferências" Individual

O P-GRPO muda a regra do jogo. Em vez de olhar para a média de todos os clientes na mesa, ele olha para o histórico específico de cada grupo.

Imagine que o chef agora tem vários cadernos de anotações, um para cada tipo de cliente:

  1. Caderno dos "Curto-Circuitos" (João): O chef olha para o que outros que gostam de coisas curtas acharam bom. Se ele faz uma resposta curta e o João gosta, ele recebe um "ponto de vitória" alto, mesmo que a resposta seja "ruim" para quem gosta de textos longos.
  2. Caderno dos "Detalhistas" (Maria): O chef olha para o que outras pessoas que amam detalhes acharam bom. Se ele escreve um texto longo e a Maria adora, ele ganha pontos, mesmo que os "curto-circuitos" odeiem.

A Mágica:
O P-GRPO diz: "Não compare a resposta do João com a resposta da Maria. Compare a resposta do João com o que os outros 'Joãos' acharam!"

Isso evita que o grupo maior (que geralmente tem mais dados) "esmague" o grupo menor. O chef aprende a ser excelente para o João, excelente para a Maria e excelente para o Pedro, ao mesmo tempo, sem precisar ser "médio" para ninguém.

Por que isso é importante?

  1. Justiça: Garante que os gostos minoritários (como o Pedro, que é único) não sejam ignorados apenas porque são menos numerosos.
  2. Velocidade: O chef aprende mais rápido. Em vez de tentar adivinhar o que a "média" quer, ele foca no que aquele grupo específico valoriza.
  3. Qualidade: O resultado final é um assistente que parece entender você especificamente, e não apenas uma versão genérica de "todos".

Resumo em uma frase

O P-GRPO é como ter um personal trainer que não compara o seu desempenho com o do time todo, mas sim com o seu próprio histórico e com o de pessoas que têm o mesmo nível e objetivos que você, garantindo que você evolua da melhor forma possível, sem ser prejudicado por quem tem um perfil diferente.

O estudo mostrou que, ao usar essa técnica, o modelo aprende mais rápido, fica mais feliz com os usuários (ganha mais "pontos") e continua sendo inteligente em tarefas gerais, sem perder a capacidade de raciocínio. É um passo importante para criar IAs que realmente entendem a diversidade humana.