Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o chef de um restaurante muito famoso e precisa criar um novo prato para o menu. Você pede a opinião de 1.000 clientes.

510 clientes amam Pizza.
490 clientes amam Sushi.

Se você seguir o método tradicional (chamado de RLHF no mundo da tecnologia), você olha para os números, vê que a Pizza tem 51% e o Sushi 49%, e decide: "Ok, 51% é maioria, então o menu terá apenas Pizza". O Sushi desaparece completamente.

O problema? Os 490 fãs de Sushi ficam insatisfeitos, e se a diferença fosse de apenas 1 voto (501 vs 499), você ainda escolheria a Pizza, ignorando quase metade das pessoas. Além disso, se um grupo de clientes mentisse um pouquinho sobre o que gosta, eles poderiam manipular o resultado para ganhar.

Este artigo, escrito por pesquisadores do MIT e da Wisconsin, propõe uma nova maneira de tomar essa decisão. Eles chamam isso de Alinhamento Proporcional à População.

A Ideia Central: "Não é só quem ganha, é quanto cada um ganha"

Em vez de escolher apenas o vencedor (Pizza), a nova regra diz: "Vamos servir Pizza para 51% das pessoas e Sushi para 49% das pessoas".

Isso garante que:

Ninguém é ignorado: Mesmo a minoria tem o que gosta.
É justo: A quantidade de cada prato na mesa reflete exatamente a proporção de pessoas que o pediram.
É difícil de trapacear: Se um grupo tentar mentir para forçar o Sushi a ser o único prato, o sistema é inteligente o suficiente para perceber que eles não são a maioria real e limitar o quanto eles podem ganhar.

Como funciona a "Mágica" (Sem usar matemática chata)

Os autores criaram um sistema baseado em três ideias principais:

1. O Detetive de Preferências (Recuperando a Verdade)

O grande desafio é que, na vida real, não sabemos quem é quem. Temos apenas uma pilha de bilhetes dizendo "Prefiro A a B" ou "Prefiro B a A". Não sabemos se quem escreveu o bilhete é um fã de Pizza ou de Sushi.

O algoritmo deles age como um detetive. Ele olha para todas as comparações e diz: "Ok, com base nessas respostas, é impossível que 90% das pessoas gostem de Sushi, porque ninguém disse que Sushi é melhor que Pizza em nenhuma comparação". Ele cria um "leque de possibilidades" de quem pode ser quem, sem precisar saber os nomes dos grupos.

2. A Regra do "Pior Cenário" (Segurança)

Como o detetive não tem 100% de certeza, ele usa uma estratégia de segurança. Ele pergunta: "Qual é a menor porcentagem de pessoas que poderiam estar pedindo Sushi, mesmo que os dados sejam ambíguos?".

Ele então garante que o prato do Sushi seja servido para, no mínimo, essa porcentagem. Isso protege os grupos menores de serem apagados por um erro de cálculo ou por dados confusos.

3. O Botão de Controle (O "Softmax")

O sistema tem um botão chamado Beta (β).

Botão no zero: O sistema é super democrático e proporcional. Se 49% querem Sushi, eles ganham 49% do prato. É justo, mas talvez o "vencedor" (Pizza) não seja escolhido com tanta força.
Botão no máximo: O sistema vira um ditador. Ele escolhe apenas o que a maioria absoluta quer (Pizza), ignorando a minoria. Isso é o que os métodos antigos faziam.
No meio: Você pode ajustar o botão para ter o equilíbrio perfeito entre ser justo com todos e ainda assim seguir a vontade da maioria.

Por que isso é importante para o Futuro?

Hoje, Inteligências Artificiais (como o ChatGPT) são treinadas para agradar a maioria das pessoas. Isso é ótimo, mas pode ser perigoso se a "maioria" for um grupo específico que domina os dados, enquanto grupos menores (como pessoas com sotaques diferentes, culturas específicas ou opiniões minoritárias) ficam sem voz.

Sem esse novo método: A IA pode aprender a ser "racista" ou "excludente" sem querer, apenas porque os dados de treino tinham mais pessoas de um grupo.
Com esse novo método: A IA aprende a respeitar a diversidade. Se 30% dos usuários preferem um estilo de resposta "sério" e 70% preferem "divertido", a IA não vai virar 100% divertida. Ela vai ser divertida para 70% das vezes e séria para 30% das vezes, garantindo que todos se sintam representados.

Resumo em uma frase

Este artigo ensina como criar uma Inteligência Artificial que não escolhe apenas o "vencedor" da votação, mas que serve a todos na mesa na proporção exata de quantas pessoas estão sentadas nela, impedindo que a maioria esmague a minoria e tornando o sistema resistente a pessoas tentando trapacear.

É como transformar uma eleição onde só o vencedor leva tudo, em um jantar onde cada um recebe o prato que pediu, na quantidade que pediu.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O alinhamento de sistemas de Inteligência Artificial (IA) com preferências humanas complexas é um desafio central, especialmente em áreas como Robótica, Sistemas de Recomendação e Grandes Modelos de Linguagem (LLMs). As abordagens atuais, como RLHF (Reinforcement Learning from Human Feedback) e NLHF (Nash Learning from Human Feedback), enfrentam limitações críticas:

Viés de Agregação: Métodos convencionais tendem a priorizar opiniões mais amplamente compartilhadas ou a convergir para um único vencedor (como o Vencedor de Condorcet ou o vencedor do Borda), ignorando a distribuição real da população de avaliadores.
Falta de Representatividade Proporcional: Quando existem grupos com visões distintas (mesmo que minoritários), o RLHF e o NLHF frequentemente falham em refletir a proporção exata desses grupos na política final, resultando em viés contra minorias.
Vulnerabilidade a Manipulação: Esses métodos são suscetíveis a manipulação estratégica, onde um grupo pode alterar suas preferências reportadas para obter uma política desproporcionalmente favorável.
Dependência de Rótulos Explícitos: Abordagens recentes de "alinhamento pluralista" exigem conhecimento explícito dos grupos de avaliadores, o que raramente está disponível no mundo real (os grupos são muitas vezes implícitos).

O objetivo do trabalho é desenvolver um framework de aprendizado de preferências que alinhe a política da IA proporcionalmente à distribuição real da população de avaliadores, sem exigir rótulos de grupo explícitos, garantindo robustez contra manipulação.

2. Metodologia e Framework Teórico

O trabalho propõe uma nova abordagem fundamentada na Teoria da Escolha Social, utilizando uma estrutura axiomática para definir e garantir propriedades desejáveis.

2.1. Fundamentos Teóricos

O problema é formalizado como uma função de escolha social probabilística (PSCF) que mapeia perfis de preferências para políticas (distribuições de probabilidade sobre alternativas). O framework introduz quatro axiomas fundamentais:

Monotonicidade: Melhorar o ranking de uma alternativa não deve diminuir sua probabilidade na política.
Eficiência de Pareto: Se todos preferem $A$ a $B$ , a política deve favorecer $A$ .
Alinhamento Proporcional à População (PPA - Population-Proportional Alignment): A política deve ser fracamente proporcional às cotas populacionais dos grupos. Se um grupo constitui $w$ da população, sua escolha preferida deve ter pelo menos uma probabilidade proporcional a $w$ .
Manipulabilidade Limitada pela População (PBM - Population-Bounded Manipulability): O ganho que um grupo pode obter através de manipulação estratégica é limitado por uma função afim de sua cota populacional real. Isso impede que minorias se tornem majoritárias artificialmente.

2.2. Inferência de Distribuição Populacional

Um dos principais desafios é que a distribuição populacional real ( $w$ ) não é observável diretamente, apenas dados de comparação pareada ( $P$ ) estão disponíveis.

O paper demonstra que é possível inferir o conjunto viável de distribuições populacionais ( $W(P)$ ) diretamente dos dados de comparação pareada.
Eles propõem uma aproximação poliedral externa ( $\bar{W}(P)$ ) para este conjunto, definida por limites superiores $u_i = \min_{y \neq y_i} P(y_i \succ y)$ .
O algoritmo assume uma estratégia conservadora: atribui probabilidades às alternativas baseadas nesses limites superiores conservadores, minimizando o pior caso de desalinhamento.

2.3. O Algoritmo Proposto

O framework define um algoritmo de aprendizado de preferências $F^*$ que mapeia a função de preferência $P$ para uma política $\pi$ :
$\pi(y_i) = \frac{u_i}{\sum_{j=1}^M u_j}$
Onde $u_i$ é o limite inferior conservador da proporção populacional que prefere $y_i$ como primeira escolha.

Para equilibrar o alinhamento proporcional com a consistência de Condorcet (garantir que, se houver um vencedor claro, ele seja escolhido), os autores propõem uma relaxação softmax:
$\pi(y_i) = \frac{u_i \exp(\beta u_i)}{\sum_{j=1}^M u_j \exp(\beta u_j)}$
O parâmetro $\beta$ controla o trade-off:

$\beta = 0$ : Alinhamento estritamente proporcional (PPA máximo).
$\beta \to \infty$ : Convergência para o método Minimax Condorcet (foco no vencedor majoritário).

2.4. Escalabilidade para LLMs

Para aplicar isso a grandes modelos de linguagem, o paper apresenta um algoritmo offline escalável com aproximação de função em duas fases:

Fase 1: Estimação da função $u(y|x)$ (o limite conservador) usando um modelo seletor treinado em dados de comparação pareada.
Fase 2: Treinamento da política final $\pi$ para minimizar a divergência em relação à distribuição softmax derivada de $u$ .

3. Contribuições Principais

Inferência de Distribuição sem Rótulos: Demonstração teórica de que a distribuição populacional viável pode ser inferida apenas a partir de dados de comparação pareada, sem necessidade de identificar explicitamente os grupos de avaliadores.
Novo Framework Axiomático: Introdução e prova de satisfação dos axiomas PPA e PBM, preenchendo uma lacuna entre a teoria da escolha social e o aprendizado de preferências em IA.
Algoritmo com Garantias Teóricas: Desenvolvimento de um algoritmo que satisfaz monotonicidade, eficiência de Pareto, PPA e PBM simultaneamente, algo que métodos como RLHF (Regra de Borda) e NLHF (Loterias Máximas) não conseguem fazer.
Mecanismo de Trade-off Controlado: Proposta de uma relaxação softmax parametrizada por $\beta$ que permite aos praticantes ajustar o equilíbrio entre representatividade proporcional e consistência de Condorcet.
Validação Empírica: Implementação e teste bem-sucedido em tarefas tabulares (recomendação de filmes) e em alta dimensão (fine-tuning de LLMs Qwen2.5-3B).

4. Resultados Experimentais

Os experimentos foram realizados em dois cenários:

A. Tarefa Tabular (Recomendação de Filmes)

Dados: 1.297 rankings de avaliadores sobre 20 filmes (MovieLens).
Resultados:
- RLHF e NLHF: Alcançaram altas taxas de vitória (win rate) contra uma política uniforme, mas tiveram PPA = 0 (não representaram grupos minoritários) e foram altamente manipuláveis.
- Algoritmo Proposto ( $F_\beta$ ): Mostrou um trade-off claro. À medida que $\beta$ aumentava, a taxa de vitória subia e o PPA caía. Com $\beta$ baixo, o algoritmo manteve um PPA significativo (cerca de 0.48) enquanto ainda superava a política uniforme.
- Robustez: O algoritmo proposto reduziu drasticamente o ganho de manipulação (PBM) em comparação com as bases (RLHF/NLHF).

B. Experimento em Grande Escala (LLMs)

Dados: Fine-tuning do modelo Qwen2.5-3B-Instruct em datasets sintéticos (preferência de cores) e Alpaca-GPT4 (categorias de expertise e estilo).
Resultados:
- O algoritmo demonstrou ser escalável para espaços de alta dimensão.
- No dataset sintético, o trade-off entre win rate e PPA foi claramente observado, validando a teoria.
- No dataset Alpaca-GPT4, o trade-off foi menos pronunciado devido ao ruído na classificação de grupos (feita por outro LLM), mas o método ainda conseguiu manter níveis de alinhamento proporcional superiores às bases, sem necessidade de rótulos de grupo explícitos durante o treinamento.

5. Significado e Impacto

Este trabalho representa um avanço significativo na teoria de alinhamento de IA:

Mudança de Paradigma: Desloca o foco de apenas maximizar a "taxa de vitória" (win rate) ou encontrar um vencedor de Condorcet para garantir justiça proporcional na representação de diversas opiniões humanas.
Robustez Estratégica: Ao introduzir o axioma PBM, o trabalho oferece uma garantia teórica contra a manipulação de sistemas de IA por grupos organizados, um risco crescente em aplicações democráticas ou de recomendação.
Aplicabilidade Prática: Ao não depender de rótulos de grupo explícitos, o método é viável para cenários do mundo real onde a demografia ou as preferências dos usuários são implícitas e difíceis de categorizar.
Conexão Teórica: Fortalece a ponte entre a Teoria da Escolha Social (um campo clássico da economia e ciência política) e o Aprendizado por Reforço, oferecendo novas diretrizes axiomáticas para o desenvolvimento de sistemas de IA éticos e robustos.

Em resumo, o paper propõe uma solução matematicamente fundamentada para o problema de "quem é ouvido" na IA, garantindo que a política final reflita a diversidade da população de avaliadores de forma proporcional e resistente a manipulações.