Diverging Preferences: When do Annotators Disagree and do Models Know?

Este artigo propõe uma taxonomia para as fontes de divergência nas preferências humanas, demonstrando que elas vão além do ruído simples e afetam negativamente o treinamento e a avaliação de modelos de linguagem, ao mesmo tempo em que desenvolve métodos para identificar e mitigar essas divergências.

Michael JQ Zhang, Zhilin Wang, Jena D. Hwang, Yi Dong, Olivier Delalleau, Yejin Choi, Eunsol Choi, Xiang Ren, Valentina Pyatkin

Publicado 2026-03-04
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a dois chefs diferentes para fazerem o mesmo prato: um "macarrão com molho de tomate".

  • Chef A faz um molho vermelho, brilhante e cheio de manjericão fresco.
  • Chef B faz um molho vermelho, mas mais escuro, com um toque de pimenta e alho.

Agora, imagine que você tem um juiz (um terceiro chef ou um robô) que precisa decidir qual prato é o "melhor" para servir a todos.

Se o juiz disser: "O prato do Chef A é o vencedor!", ele está ignorando que o Chef B também fez algo delicioso, apenas com um estilo diferente. Se o juiz for um robô treinado apenas para seguir regras rígidas, ele pode achar que qualquer prato que não seja exatamente como o "padrão" é ruim.

Este é o problema central do artigo "Diverging Preferences" (Preferências Divergentes). Os autores mostram que, ao treinar Inteligências Artificiais (como o ChatGPT) para serem úteis, estamos cometendo um erro grave: estamos tratando as opiniões diferentes dos humanos como "erros" ou "ruído", quando na verdade elas são apenas gostos diferentes.

Aqui está a explicação do artigo, dividida em partes simples:

1. O Grande Mal-Entendido: Erro vs. Gosto

Quando pedimos para várias pessoas avaliarem respostas de uma IA, elas frequentemente discordam.

  • A visão antiga: "Ah, essa pessoa errou na avaliação. Vamos ignorar e seguir a maioria."
  • A descoberta deste artigo: A maioria das discordâncias não é erro. É apenas que as pessoas têm gostos diferentes!
    • Algumas preferem respostas longas e detalhadas (como um livro).
    • Outras preferem respostas curtas e diretas (como um tweet).
    • Algumas gostam de um tom formal; outras preferem algo descontraído.

O artigo criou um "mapa" (uma taxonomia) para classificar por que as pessoas discordam. As razões vão desde "o pedido foi vago" até "gosto pessoal pela forma como a resposta foi escrita".

2. O Problema do "Juiz" (Reward Models)

Para treinar IAs, usamos modelos de recompensa (chamados de Reward Models). Pense neles como juízes de um concurso de culinária.

  • O problema: Os juízes atuais são treinados para sempre apontar um único vencedor. Se 50% das pessoas gostam do Prato A e 50% gostam do Prato B, o juiz atual é forçado a dizer: "O Prato A é o melhor".
  • A consequência: A IA aprende a ser um "camaleão" que tenta agradar apenas a maioria, ignorando os gostos minoritários. Ela perde a capacidade de ser pluralista (de atender a todos os tipos de pessoas). Se você pedir algo ambíguo, a IA pode dar uma resposta arriscada em vez de perguntar "o que você quer dizer?", porque o "juiz" penalizou a pergunta.

3. A Solução: O "Juiz" que Entende de Diversidade

Os autores propõem uma nova maneira de treinar esses juízes. Em vez de dar uma nota única (ex: "8 pontos"), eles sugerem dar uma distribuição de notas.

  • Analogia: Em vez de dizer "Este prato é um 8", o novo juiz diz: "Este prato é um 8 para quem gosta de pimenta, mas um 4 para quem não gosta. A média é 6, mas a variação é alta".
  • O benefício: Ao entender essa "variação" (a discordância), a IA aprende que, às vezes, não existe uma resposta certa única. Ela aprende a identificar quando as opiniões estão divididas e pode agir com mais cuidado (por exemplo, pedindo esclarecimentos ao usuário em vez de chutar uma resposta).

4. O Perigo dos "Benchmarks" (Testes de Avaliação)

O artigo também critica como testamos as IAs hoje. Muitos testes usam um "IA como Juiz" (LLM-as-Judge) para decidir qual resposta é melhor.

  • O viés: Esses juízes automáticos tendem a favorecer respostas que são longas, bem formatadas ou que obedecem cegamente a pedidos perigosos (em vez de recusá-los por segurança).
  • O resultado: IAs que são treinadas para serem éticas e seguras (dizendo "não" a pedidos perigosos) são punidas nesses testes e parecem "piores" do que realmente são.

5. O Que Fazer Agora?

Os autores sugerem duas coisas principais:

  1. Usar novos modelos de recompensa: Que consigam detectar quando as opiniões estão divididas e não forçar uma decisão única.
  2. Limpar os testes: Remover do banco de dados de testes aquelas perguntas onde as pessoas naturalmente discordam. Assim, avaliamos a IA apenas em situações onde todos concordam sobre o que é "bom", evitando punir IAs que tentam ser seguras ou pluralistas.

Resumo Final

Este artigo nos diz: Pare de tratar opiniões diferentes como erros.

As pessoas são diferentes. Uma IA que serve a todos não deve tentar ser a "melhor" para uma única pessoa, mas sim entender que existem muitos "melhores" possíveis, dependendo de quem está perguntando. Se os nossos juízes (os modelos de recompensa) não entenderem essa diversidade, estaremos criando IAs que são boas apenas para um tipo de pessoa, ignorando o resto do mundo.