Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework

Este artigo propõe um novo framework de aprendizado de preferências fundamentado na teoria da escolha social que alinha políticas à distribuição populacional real dos avaliadores, garantindo axiomas como proporcionalidade e eficiência de Pareto enquanto mitiga viés e manipulação estratégica, validado em tarefas de recomendação e alinhamento de modelos de linguagem.

Kihyun Kim, Jiawei Zhang, Asuman Ozdaglar, Pablo A. Parrilo

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o chef de um restaurante muito famoso e precisa criar um novo prato para o menu. Você pede a opinião de 1.000 clientes.

  • 510 clientes amam Pizza.
  • 490 clientes amam Sushi.

Se você seguir o método tradicional (chamado de RLHF no mundo da tecnologia), você olha para os números, vê que a Pizza tem 51% e o Sushi 49%, e decide: "Ok, 51% é maioria, então o menu terá apenas Pizza". O Sushi desaparece completamente.

O problema? Os 490 fãs de Sushi ficam insatisfeitos, e se a diferença fosse de apenas 1 voto (501 vs 499), você ainda escolheria a Pizza, ignorando quase metade das pessoas. Além disso, se um grupo de clientes mentisse um pouquinho sobre o que gosta, eles poderiam manipular o resultado para ganhar.

Este artigo, escrito por pesquisadores do MIT e da Wisconsin, propõe uma nova maneira de tomar essa decisão. Eles chamam isso de Alinhamento Proporcional à População.

A Ideia Central: "Não é só quem ganha, é quanto cada um ganha"

Em vez de escolher apenas o vencedor (Pizza), a nova regra diz: "Vamos servir Pizza para 51% das pessoas e Sushi para 49% das pessoas".

Isso garante que:

  1. Ninguém é ignorado: Mesmo a minoria tem o que gosta.
  2. É justo: A quantidade de cada prato na mesa reflete exatamente a proporção de pessoas que o pediram.
  3. É difícil de trapacear: Se um grupo tentar mentir para forçar o Sushi a ser o único prato, o sistema é inteligente o suficiente para perceber que eles não são a maioria real e limitar o quanto eles podem ganhar.

Como funciona a "Mágica" (Sem usar matemática chata)

Os autores criaram um sistema baseado em três ideias principais:

1. O Detetive de Preferências (Recuperando a Verdade)

O grande desafio é que, na vida real, não sabemos quem é quem. Temos apenas uma pilha de bilhetes dizendo "Prefiro A a B" ou "Prefiro B a A". Não sabemos se quem escreveu o bilhete é um fã de Pizza ou de Sushi.

O algoritmo deles age como um detetive. Ele olha para todas as comparações e diz: "Ok, com base nessas respostas, é impossível que 90% das pessoas gostem de Sushi, porque ninguém disse que Sushi é melhor que Pizza em nenhuma comparação". Ele cria um "leque de possibilidades" de quem pode ser quem, sem precisar saber os nomes dos grupos.

2. A Regra do "Pior Cenário" (Segurança)

Como o detetive não tem 100% de certeza, ele usa uma estratégia de segurança. Ele pergunta: "Qual é a menor porcentagem de pessoas que poderiam estar pedindo Sushi, mesmo que os dados sejam ambíguos?".

Ele então garante que o prato do Sushi seja servido para, no mínimo, essa porcentagem. Isso protege os grupos menores de serem apagados por um erro de cálculo ou por dados confusos.

3. O Botão de Controle (O "Softmax")

O sistema tem um botão chamado Beta (β).

  • Botão no zero: O sistema é super democrático e proporcional. Se 49% querem Sushi, eles ganham 49% do prato. É justo, mas talvez o "vencedor" (Pizza) não seja escolhido com tanta força.
  • Botão no máximo: O sistema vira um ditador. Ele escolhe apenas o que a maioria absoluta quer (Pizza), ignorando a minoria. Isso é o que os métodos antigos faziam.
  • No meio: Você pode ajustar o botão para ter o equilíbrio perfeito entre ser justo com todos e ainda assim seguir a vontade da maioria.

Por que isso é importante para o Futuro?

Hoje, Inteligências Artificiais (como o ChatGPT) são treinadas para agradar a maioria das pessoas. Isso é ótimo, mas pode ser perigoso se a "maioria" for um grupo específico que domina os dados, enquanto grupos menores (como pessoas com sotaques diferentes, culturas específicas ou opiniões minoritárias) ficam sem voz.

  • Sem esse novo método: A IA pode aprender a ser "racista" ou "excludente" sem querer, apenas porque os dados de treino tinham mais pessoas de um grupo.
  • Com esse novo método: A IA aprende a respeitar a diversidade. Se 30% dos usuários preferem um estilo de resposta "sério" e 70% preferem "divertido", a IA não vai virar 100% divertida. Ela vai ser divertida para 70% das vezes e séria para 30% das vezes, garantindo que todos se sintam representados.

Resumo em uma frase

Este artigo ensina como criar uma Inteligência Artificial que não escolhe apenas o "vencedor" da votação, mas que serve a todos na mesa na proporção exata de quantas pessoas estão sentadas nela, impedindo que a maioria esmague a minoria e tornando o sistema resistente a pessoas tentando trapacear.

É como transformar uma eleição onde só o vencedor leva tudo, em um jantar onde cada um recebe o prato que pediu, na quantidade que pediu.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →