Preference Leakage: A Contamination Problem in LLM-as-a-judge

Este trabalho identifica e demonstra empiricamente o "vazamento de preferências", um problema de contaminação e viés em que modelos de linguagem atuando como juízes tendem a favorecer modelos geradores de dados sintéticos com os quais compartilham relação de origem, família ou identidade.

Dawei Li, Renliang Sun, Yue Huang, Ming Zhong, Bohan Jiang, Jiawei Han, Xiangliang Zhang, Wei Wang, Huan Liu

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está organizando um grande concurso de culinária para encontrar o melhor chef do mundo. Para isso, você precisa de duas coisas:

  1. Os Alunos: Chefs que estão aprendendo e precisam praticar.
  2. O Juiz: Um crítico gastronômico famoso e muito experiente para avaliar os pratos.

Neste cenário moderno, em vez de usar humanos para tudo, usamos Inteligências Artificiais (IAs) para fazer o trabalho.

O Problema: "Vazamento de Preferência" (Preference Leakage)

A descoberta principal deste artigo é como um problema sutil, mas perigoso, chamado "Vazamento de Preferência", pode estragar a competição.

A Analogia do "Filho do Chef":

  1. O Mestre (Gerador de Dados): Imagine que o crítico famoso (o Juiz) decide ajudar os alunos a estudar. Ele escreve receitas e dicas para eles praticarem. Vamos chamar esse crítico de "Mestre".
  2. O Aluno (Modelo de IA): Os alunos copiam as receitas do Mestre e praticam. Eles aprendem não apenas a cozinhar bem, mas também a imitar o estilo do Mestre (como ele escreve, como ele usa vírgulas, qual tom de voz ele adora).
  3. O Juiz (Avaliador): Agora, chega o dia da prova. O mesmo "Mestre" (ou alguém muito parecido com ele) volta para julgar os pratos dos alunos.

O que acontece?
O Juiz não está julgando apenas se o prato está gostoso. Ele está, sem perceber, viciado no estilo que ele mesmo ensinou. Quando ele vê um prato escrito exatamente como ele gosta (porque o aluno copiou o estilo dele), ele pensa: "Uau, isso é perfeito!". Mas, na verdade, o aluno só copiou a "cara" do prato, não necessariamente a qualidade real.

Isso é o Vazamento de Preferência. O Juiz "vaza" suas preferências pessoais para o aluno através do material de estudo, e depois, ao julgar, ele favorece injustamente esse aluno, inflando a nota dele.

As Três Formas de "Parentesco"

Os autores do estudo descobriram que isso acontece de três formas principais, como se fossem graus de parentesco:

  1. O Mesmo Modelo (Gêmeos Idênticos): O Juiz e o Mestre são a mesma IA. É como se o juiz fosse o próprio pai que ensinou o filho. É óbvio que ele vai favorecer o filho.
  2. Relação de Herança (Pai e Filho): O Juiz foi criado a partir do Mestre (ou vice-versa). É como se o filho tivesse herdado os gostos e vícios do pai. O pai (Mestre) ensina, e o filho (Juiz) continua amando o que o pai gosta.
  3. Mesma Família (Primos): O Juiz e o Mestre são da mesma "família" de IAs (ex: ambos são da família GPT ou LLaMA). Eles cresceram com a mesma educação e têm gostos muito parecidos, mesmo que não sejam idênticos.

Por que isso é perigoso?

  • É invisível: Diferente de um juiz que aceita um suborno (que é óbvio), esse viés é sutil. O Juiz acha que está sendo justo, mas ele está apenas reconhecendo o "sotaque" que ele mesmo criou.
  • Funciona mesmo com pouco: O estudo mostrou que mesmo que o aluno use apenas um pouco de material do Mestre, o viés já aparece.
  • Piora com modelos menores: Curiosamente, os alunos menores (IAs menos inteligentes) são os que mais sofrem com isso. Eles copiam o "estilo" superficial (como a formatação do texto) porque não conseguem aprender a profundidade do conteúdo, e o Juiz adora esse estilo familiar.

O Que os Autores Fizeram?

Eles criaram um "teste de realidade". Eles pegaram IAs famosas (como GPT-4 e Gemini), usaram uma para ensinar a outra e depois usaram a primeira para julgar a segunda.

O resultado foi assustador:

  • As IAs davam notas muito mais altas para os alunos que foram treinados com seus próprios dados.
  • Isso distorce os rankings de IAs que vemos na internet. Um modelo pode parecer o "melhor do mundo" apenas porque o juiz que está avaliando ele foi o mesmo que o treinou.

A Solução?

O artigo sugere que precisamos ter cuidado. Não podemos usar a mesma IA para ensinar e para julgar. É como se, num concurso de música, o mesmo professor que deu as aulas fosse o único juiz da final.

Eles testaram algumas formas de corrigir isso, como:

  • Reescrever as respostas: Tentar tirar o "sotaque" do texto antes de julgar.
  • Calibração: Ajustar a nota do juiz para compensar o viés.

Resumo em uma frase

Este artigo nos alerta que, quando usamos IAs para julgar outras IAs, precisamos ter certeza de que elas não são "parentes" ou que uma não ensinou a outra, senão a competição vira uma farsa onde o juiz só nota o que ele mesmo criou.