Diverging Preferences: When do Annotators Disagree and do Models Know?

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a dois chefs diferentes para fazerem o mesmo prato: um "macarrão com molho de tomate".

Chef A faz um molho vermelho, brilhante e cheio de manjericão fresco.
Chef B faz um molho vermelho, mas mais escuro, com um toque de pimenta e alho.

Agora, imagine que você tem um juiz (um terceiro chef ou um robô) que precisa decidir qual prato é o "melhor" para servir a todos.

Se o juiz disser: "O prato do Chef A é o vencedor!", ele está ignorando que o Chef B também fez algo delicioso, apenas com um estilo diferente. Se o juiz for um robô treinado apenas para seguir regras rígidas, ele pode achar que qualquer prato que não seja exatamente como o "padrão" é ruim.

Este é o problema central do artigo "Diverging Preferences" (Preferências Divergentes). Os autores mostram que, ao treinar Inteligências Artificiais (como o ChatGPT) para serem úteis, estamos cometendo um erro grave: estamos tratando as opiniões diferentes dos humanos como "erros" ou "ruído", quando na verdade elas são apenas gostos diferentes.

Aqui está a explicação do artigo, dividida em partes simples:

1. O Grande Mal-Entendido: Erro vs. Gosto

Quando pedimos para várias pessoas avaliarem respostas de uma IA, elas frequentemente discordam.

A visão antiga: "Ah, essa pessoa errou na avaliação. Vamos ignorar e seguir a maioria."
A descoberta deste artigo: A maioria das discordâncias não é erro. É apenas que as pessoas têm gostos diferentes!
- Algumas preferem respostas longas e detalhadas (como um livro).
- Outras preferem respostas curtas e diretas (como um tweet).
- Algumas gostam de um tom formal; outras preferem algo descontraído.

O artigo criou um "mapa" (uma taxonomia) para classificar por que as pessoas discordam. As razões vão desde "o pedido foi vago" até "gosto pessoal pela forma como a resposta foi escrita".

2. O Problema do "Juiz" (Reward Models)

Para treinar IAs, usamos modelos de recompensa (chamados de Reward Models). Pense neles como juízes de um concurso de culinária.

O problema: Os juízes atuais são treinados para sempre apontar um único vencedor. Se 50% das pessoas gostam do Prato A e 50% gostam do Prato B, o juiz atual é forçado a dizer: "O Prato A é o melhor".
A consequência: A IA aprende a ser um "camaleão" que tenta agradar apenas a maioria, ignorando os gostos minoritários. Ela perde a capacidade de ser pluralista (de atender a todos os tipos de pessoas). Se você pedir algo ambíguo, a IA pode dar uma resposta arriscada em vez de perguntar "o que você quer dizer?", porque o "juiz" penalizou a pergunta.

3. A Solução: O "Juiz" que Entende de Diversidade

Os autores propõem uma nova maneira de treinar esses juízes. Em vez de dar uma nota única (ex: "8 pontos"), eles sugerem dar uma distribuição de notas.

Analogia: Em vez de dizer "Este prato é um 8", o novo juiz diz: "Este prato é um 8 para quem gosta de pimenta, mas um 4 para quem não gosta. A média é 6, mas a variação é alta".
O benefício: Ao entender essa "variação" (a discordância), a IA aprende que, às vezes, não existe uma resposta certa única. Ela aprende a identificar quando as opiniões estão divididas e pode agir com mais cuidado (por exemplo, pedindo esclarecimentos ao usuário em vez de chutar uma resposta).

4. O Perigo dos "Benchmarks" (Testes de Avaliação)

O artigo também critica como testamos as IAs hoje. Muitos testes usam um "IA como Juiz" (LLM-as-Judge) para decidir qual resposta é melhor.

O viés: Esses juízes automáticos tendem a favorecer respostas que são longas, bem formatadas ou que obedecem cegamente a pedidos perigosos (em vez de recusá-los por segurança).
O resultado: IAs que são treinadas para serem éticas e seguras (dizendo "não" a pedidos perigosos) são punidas nesses testes e parecem "piores" do que realmente são.

5. O Que Fazer Agora?

Os autores sugerem duas coisas principais:

Usar novos modelos de recompensa: Que consigam detectar quando as opiniões estão divididas e não forçar uma decisão única.
Limpar os testes: Remover do banco de dados de testes aquelas perguntas onde as pessoas naturalmente discordam. Assim, avaliamos a IA apenas em situações onde todos concordam sobre o que é "bom", evitando punir IAs que tentam ser seguras ou pluralistas.

Resumo Final

Este artigo nos diz: Pare de tratar opiniões diferentes como erros.

As pessoas são diferentes. Uma IA que serve a todos não deve tentar ser a "melhor" para uma única pessoa, mas sim entender que existem muitos "melhores" possíveis, dependendo de quem está perguntando. Se os nossos juízes (os modelos de recompensa) não entenderem essa diversidade, estaremos criando IAs que são boas apenas para um tipo de pessoa, ignorando o resto do mundo.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O alinhamento de Grandes Modelos de Linguagem (LLMs) com preferências humanas, geralmente realizado através de Aprendizado por Reforço com Feedback Humano (RLHF), assume frequentemente que as discordâncias entre anotadores são apenas "ruído" ou erros de anotação. O artigo desafia essa premissa fundamental, argumentando que as preferências divergentes são comuns e, na maioria das vezes, resultam de predileções individuais legítimas dos usuários (como estilo de resposta, complexidade ou interpretação de tarefas ambíguas) e não de erros.

O problema central é que os métodos padrão de modelagem de recompensa (como Bradley-Terry) e as técnicas de avaliação "LLM-as-Judge" tratam essas divergências como ruído, forçando o modelo a aprender uma única preferência decisiva. Isso leva a:

Falhas no Alinhamento Pluralista: Modelos treinados ignoram perspectivas minoritárias válidas, atendendo apenas à maioria.
Viés na Avaliação: Métodos de avaliação penalizam injustamente modelos que adotam políticas consistentes para lidar com ambiguidades (ex: pedir esclarecimentos) ou que se recusam a responder a solicitações inseguras, mesmo quando humanos discordam sobre a resposta ideal.

2. Metodologia

Dados e Taxonomia

Os autores introduzem dois conjuntos de dados focados em discordâncias: MultiPref (10k pares de preferência) e HelpSteer2-Disagreements (12k pares). Eles desenvolveram uma taxonomia de fontes de discordância dividida em quatro classes principais e 10 categorias:

Especificação da Tarefa: Ambiguidade no prompt (ex: interpretações válidas diferentes).
Estilo de Resposta:
- Verbosidade: Preferência por respostas longas vs. curtas.
- Formato: Preferência por listas, parágrafos ou cabeçalhos.
- Complexidade: Nível de profundidade técnica ou adaptação ao conhecimento do usuário.
- Gosto Estético: Preferências subjetivas em escrita criativa.
Recusas (Refusals): Discordâncias sobre quando recusar uma solicitação (segurança vs. capacidade) e como fazê-lo (recusa dura vs. suave, ou oferecer ajuda).
Erros: Alucinações ou saídas degeneradas (menos frequentes como causa de divergência principal).

Análise Empírica

Frequência: Mais de 30% dos exemplos em ambos os datasets mostram preferências divergentes entre anotadores.
Causa: Mais de 75% das discordâncias são influenciadas por fatores como complexidade, verbosidade ou prompts mal especificados, e não por erros de anotação.

Abordagens de Modelagem

Os autores comparam métodos padrão com novas abordagens distribucionais:

Métodos Padrão: Bradley-Terry (votação majoritária) e Regressão MSE (pontuação única). Eles agregam rótulos e predizem um valor escalar único.
Modelos de Recompensa Distribucionais (Propostos):
- Mean-Var (KL): Modela a recompensa de uma resposta como uma distribuição normal $N(\mu, \sigma^2)$ . O modelo aprende a média ( $\mu$ ) da preferência e a variância ( $\sigma^2$ ) que representa a "divisividade" (discordância) entre os anotadores.
- Classificação (KL): Usa a distribuição completa das pontuações Likert (1-5) para prever a probabilidade de cada rótulo.

Avaliação de "LLM-as-Judge"

Os autores testam como avaliadores automáticos (LLMs) se comportam em casos de alta concordância vs. alta discordância, analisando viéses em categorias como "Cumprir vs. Recusar" e "Tarefa Ambígua".

3. Contribuições Principais

Taxonomia e Evidência Empírica: Demonstram que a divergência de preferências é um fenômeno estrutural e comum (30%+ dos dados), impulsionado por preferências individuais e não por ruído aleatório.
Crítica aos Modelos Atuais: Mostram que modelos de recompensa padrão falham em distinguir entre casos de alta concordância e casos divergentes, predizendo recompensas decisivas (alta confiança) mesmo quando os humanos discordam.
Novos Modelos de Recompensa Distribucionais: Propõem e validam modelos que aprendem a variância das preferências. Esses modelos conseguem identificar quando as preferências divergem (alta variância) e quando concordam (baixa variância), superando os modelos de valor único.
Identificação de Viés em Benchmarks: Revelam que benchmarks de "LLM-as-Judge" (como WildBench) penalizam sistematicamente respostas que pedem esclarecimentos em prompts ambíguos ou que recusam solicitações inseguras, favorecendo respostas que "cumpram" a solicitação de forma cega.
Solução Prática: Propõem o uso de modelos de recompensa distribucionais para identificar e remover exemplos "divisivos" de benchmarks de avaliação, garantindo que a avaliação de capacidades gerais do modelo seja feita apenas em casos onde há consenso humano.

4. Resultados

Desempenho de Modelos de Recompensa:
- Modelos padrão (Bradley-Terry, MSE) obtêm um AUROC próximo de 0.5 (aleatório) na tarefa de identificar preferências divergentes, indicando que não conseguem distinguir discordância de concordância.
- O modelo proposto Mean-Var (KL) alcança um AUROC de 0.615 (MultiPref) e 0.582 (HelpSteer2) na identificação de divergências, com uma melhoria de 0.16 sobre os modelos padrão.
- O modelo de classificação (KL) também superou os sistemas de valor único, alcançando 0.648 de AUROC.
Comportamento do LLM-as-Judge:
- Em casos de preferência divergente, o LLM-as-Judge identifica um "vencedor" em 73.8% dos casos (MultiPref), uma taxa similar à de casos de alta concordância. Isso mostra que o avaliador força uma decisão onde deveria haver empate ou incerteza.
- Viés de Recusa: Em comparações de "Cumprir vs. Recusar", o avaliador favorece a resposta que cumpre a solicitação em 68% dos casos, mesmo quando a recusa é motivada por segurança.
- Viés de Ambiguidade: Respostas que fornecem múltiplas interpretações (Overton) são preferidas (8.48/10) em relação a respostas que pedem esclarecimentos (6.94/10), penalizando modelos que interagem para resolver ambiguidades.
Aplicação em WildBench: Ao aplicar o modelo distribucional para filtrar o benchmark WildBench, os autores identificaram que 42% dos exemplos mais divisivos envolviam conflitos "Cumprir vs. Recusar" e 16% envolviam ambiguidade de tarefa.

5. Significado e Impacto

Este trabalho é fundamental para o futuro do alinhamento de LLMs, pois:

Promove o Alinhamento Pluralista: Reconhece que diferentes usuários têm necessidades e gostos legítimos e diferentes. Modelos que aprendem a variância das preferências podem servir melhor a uma base de usuários diversificada, em vez de otimizar apenas para a "média" ou a maioria.
Melhora a Avaliação de Modelos: Demonstra que os benchmarks atuais podem estar medindo incorretamente a capacidade de modelos que seguem políticas de segurança robustas ou que são interativos (pedindo esclarecimentos). A remoção de exemplos divisivos dos benchmarks é crucial para uma avaliação justa.
Mudança de Paradigma no Treinamento: Sugere que o treinamento de RLHF deve evoluir de modelos de recompensa pontuais para modelos distribucionais, permitindo que os sistemas aprendam não apenas o que é preferido, mas quão controversa é uma preferência.

Em suma, o artigo fornece as ferramentas teóricas e práticas para lidar com a complexidade das preferências humanas, movendo-se além da visão simplista de que "discordância é erro" para uma visão onde a discordância é um sinal de diversidade de perspectivas que deve ser preservada e gerenciada.