Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Each language version is independently generated for its own context, not a direct translation.

Imagine que você contratou cinco juízes diferentes para avaliar a qualidade de respostas de um assistente virtual. Você dá a eles a mesma pergunta e a mesma resposta, esperando que todos deem a mesma nota.

O que este estudo descobriu é surpreendente e um pouco assustador: esses juízes (que são Inteligências Artificiais) não concordam entre si e, às vezes, nem com eles mesmos.

Aqui está a explicação do artigo, traduzida para uma linguagem simples e cheia de analogias:

1. O Cenário: O "Juiz" que é um Assistente

Hoje em dia, empresas usam Inteligências Artificiais (como o GPT-4, Gemini e Claude) para julgar se as respostas de outros robôs são boas. Isso é chamado de "LLM como Juiz".

A analogia: Imagine que você tem uma fábrica de bolos. Em vez de ter um padeiro humano provando cada bolo para ver se está gostoso, você contrata um "Robô Degustador" para dar uma nota de 0 a 10. O problema é: e se o robô der nota 10 hoje e nota 2 amanhã para o mesmo bolo?

2. O Problema Principal: A Inconsistência

O estudo testou 5 modelos famosos de IA com perguntas reais de uma empresa. Eles pediram para os robôs avaliarem três coisas:

Relevância: A resposta atende à pergunta?
Precisão: A informação é verdadeira?
Completude: A resposta cobre tudo o que era necessário?

O que aconteceu?
Mesmo quando os pesquisadores pediram para os robôs serem "determinísticos" (ou seja, agirem como máquinas perfeitas, sem sorte), eles ainda mudavam de ideia.

A analogia: É como se você pedisse para um amigo escrever o número "5" dez vezes seguidas. Você espera cinco "5"s iguais. Mas, na verdade, ele escreve um "5", depois um "4", depois um "6", e às vezes um "5" de novo. Para uma máquina que deveria ser perfeita, isso é um erro grave.

3. Os "Temperamentos" (Temperatura)

Na IA, existe um botão chamado "Temperatura".

Temperatura Alta (1.0): A IA é criativa, arriscada e "maluca". É como um pintor que decide mudar a cor da parede no meio da pintura.
Temperatura Baixa (0.0): A IA deve ser séria, lógica e repetitiva. É como um engenheiro seguindo um manual.

A descoberta:
Mesmo com a "Temperatura" no zero (o modo mais sério), os robôs ainda não foram consistentes!

Alguns modelos (como o da Google, Gemini) ficaram muito mais estáveis quando a temperatura foi baixada.
Outros (como os da Anthropic, Claude) continuaram mudando de nota mesmo no modo "super sério".
A lição: Baixar a temperatura ajuda, mas não é uma "pílula mágica" que conserta tudo.

4. A "Injustiça" entre os Modelos

Não é só que eles mudam de nota; eles também discordam uns dos outros.

O Cenário: Você dá a mesma resposta para o Robô A e para o Robô B.
O Resultado: O Robô A diz: "Ótimo! Nota 10". O Robô B diz: "Péssimo! Nota 2".
A Analogia: Imagine que você vai a dois restaurantes diferentes pedir a mesma sopa. No primeiro, o garçom diz: "A melhor sopa do mundo!". No segundo, o garçom diz: "Isso é água com sal". Ambos estão julgando a mesma sopa, mas com critérios totalmente diferentes.

Um exemplo do estudo: Uma resposta que explicava que o robô não podia fazer um desenho técnico.

O Gemini disse: "Nota 10! Explicou perfeitamente o limite."
O GPT disse: "Nota 5. Falta sugerir alternativas."
O Claude disse: "Nota 0. A resposta não ajudou o usuário."

5. Por que isso é perigoso para as empresas?

Muitas empresas usam essas notas para tomar decisões automáticas.

Se a nota for alta, o cliente é atendido por um humano.
Se a nota for baixa, o cliente é rejeitado ou recebe um e-mail automático.

O Risco:
Se o mesmo cliente fizer a mesma pergunta duas vezes, e o robô der notas diferentes, ele pode ser tratado de forma injusta.

Analogia: Imagine um semáforo que fica verde para você hoje, mas vermelho amanhã para o mesmo carro, sem motivo. Isso causa caos no trânsito. No mundo dos negócios, isso causa clientes frustrados e decisões erradas.

6. Conclusão: O que fazer?

O estudo nos diz que não podemos confiar cegamente nesses juízes robôs.

Não basta olhar a média: Não adianta dizer "o robô dá nota média 8". Se ele dá 8 hoje e 2 amanhã, é inútil.
Solução: As empresas precisam usar uma mistura de humanos e robôs, ou usar vários robôs ao mesmo tempo para tirar uma média, e sempre verificar se o robô está "estável" antes de confiar nele.

Resumo em uma frase:
Usar Inteligência Artificial para julgar outras IAs é como contratar juízes que às vezes esquecem as regras, mudam de opinião sem motivo e discordam entre si; para funcionar bem, precisamos de supervisão humana e muita cautela.

Each language version is independently generated for its own context, not a direct translation.

Título: Mesmo Input, Diferentes Pontuações: Um Estudo Multi-Modelo sobre a Inconsistência de Julgadores LLM

1. O Problema

O uso de Grandes Modelos de Linguagem (LLMs) como avaliadores automáticos ("LLM-as-a-judge") tornou-se onipresente em ambientes de pesquisa e corporativos, substituindo ou complementando a avaliação humana devido à sua escalabilidade e custo reduzido. Enquanto estudos anteriores focaram na precisão, viés e alinhamento com preferências humanas, há uma lacuna crítica no conhecimento sobre a consistência desses modelos ao atribuir pontuações numéricas.

O problema central identificado é que, mesmo com o mesmo prompt e configurações supostamente deterministas (como temperatura = 0), os LLMs frequentemente geram pontuações diferentes para a mesma entrada em execuções repetidas. Essa instabilidade é particularmente preocupante em fluxos de trabalho empresariais onde pontuações são usadas para lógica de roteamento, triagem, gatekeeping e verificações de qualidade. A falta de reprodutibilidade coloca em risco a justiça, a confiabilidade operacional e a auditabilidade desses sistemas.

2. Metodologia

O estudo realizou uma avaliação sistemática da estabilidade de pontuação baseada em critérios qualitativos.

Dados: O conjunto de dados consistiu em pares reais de perguntas e respostas extraídos de um sistema de Geração Aumentada por Recuperação (RAG) de uma empresa. Isso garantiu diversidade de categorias e evitou contaminação de benchmarks públicos.
Modelos Avaliados: Cinco modelos amplamente utilizados em ambientes corporativos, representando três famílias principais:
- OpenAI: GPT-4o e GPT-4o-mini.
- Google: Gemini-2.5-Flash.
- Anthropic: Claude-Haiku-4.5 e Claude-Sonnet-4.5.
Configurações Experimentais:
- Cada modelo foi executado em duas configurações de temperatura: $T=0$ (supostamente determinista) e $T=1$ (mais estocástico).
- Cada par de (pergunta, resposta) foi avaliado 10 vezes por cada configuração de modelo.
Critérios de Avaliação: Os modelos foram instruídos a atribuir pontuações de 0 a 1 para três métricas:
1. Relevância: Se a resposta aborda diretamente a pergunta.
2. Precisão (Accuracy): Se as informações são factualmente corretas.
3. Completude: Se a resposta cobre todas as informações necessárias (critério crucial para sistemas RAG).
Prompt: Um prompt fixo foi utilizado para todos os modelos, solicitando justificativa textual e pontuação estruturada.

3. Principais Contribuições e Resultados

O estudo responde a três perguntas de pesquisa (RQs) e apresenta descobertas significativas:

RQ1: Quão consistente é a pontuação de um modelo para a mesma pergunta?

Inconsistência Generalizada: Mesmo sob a configuração $T=0$ , os modelos não exibiram comportamento totalmente determinista na prática.
Variabilidade por Métrica: A métrica de Completude apresentou a maior variabilidade (maior desvio padrão) entre todos os modelos e configurações. Relevância e Precisão foram mais estáveis, mas ainda apresentaram flutuações.
Padrões de Instabilidade: O modelo Claude (família Anthropic) mostrou picos notáveis de inconsistência em $T=0$ , especialmente na completude. O Gemini, por outro lado, mostrou alta consistência na maioria das perguntas, exceto em casos específicos onde oscilava entre 0 e 1.

RQ2: Como diferentes modelos pontuam a mesma pergunta?

Divergência Sistemática: Existem diferenças fundamentais na "rigor" e na interpretação entre famílias de modelos.
Exemplo de Divergência: Em uma pergunta específica, os modelos Claude atribuíram pontuação próxima de zero, interpretando a resposta como desalinhada com a intenção do usuário, enquanto GPT e Gemini atribuíram pontuações altas.
Interpretação de Completude: O Gemini tendeu a ser mais generoso na atribuição de completude, enquanto o GPT-4o foi mais rigoroso, exigindo sugestões de follow-up para considerar uma resposta "completa".
Implicação: A escolha do modelo pode alterar drasticamente o resultado de um fluxo de trabalho (ex: uma resposta pode ser roteada para um humano ou descartada dependendo do modelo escolhido).

RQ3: Até que ponto a temperatura afeta a consistência?

Efeito Heterogêneo: A redução da temperatura ( $T=0$ $T = 0$ ) não garante estabilidade uniforme.
- GPT e Gemini: Beneficiaram-se significativamente da redução de temperatura, com o Gemini mostrando uma redução drástica na variância (quase zero em alguns casos).
- Anthropic (Claude): Mostrou redução marginal ou, em alguns casos (como Claude na métrica de completude), a variabilidade aumentou ligeiramente em $T=0$ em comparação com $T=1$ .
Conclusão: A não-determinidade não é apenas uma função da estocasticidade de amostragem, mas reflete diferenças arquiteturais ou de decodificação mais profundas.

Outras Descobertas Técnicas:

Inconsistência de Formatação: Mesmo quando as pontuações eram similares, os modelos frequentemente falhavam em seguir o formato de saída exigido (ex: regex falhando), levando a erros de parsing e pontuações inválidas no pipeline.

4. Significado e Implicações

O estudo oferece um alerta crítico para a indústria e pesquisadores:

Risco Operacional: A dependência de pontuações LLM para decisões automatizadas (roteamento, triagem) é arriscada devido à instabilidade intrínseca. Um mesmo input pode gerar ações diferentes em momentos distintos.
Definição de Confiabilidade: O artigo redefine a confiabilidade de um modelo não apenas pela sua média de acerto, mas pela sua variância. Um modelo que é "consistentemente errado" é mais gerenciável do que um que é "inconsistentemente correto/errado".
Recomendações para Produção:
- Monitoramento Contínuo: É necessário monitorar o desvio padrão das pontuações, não apenas a média.
- Estratégias de Mitigação: O uso de temperatura zero não é uma solução mágica.
- Parsing Robusto: É essencial usar agentes de extração ou parsers secundários para lidar com falhas de formatação.
- Abordagem Híbrida: Recomenda-se a combinação de avaliação LLM com supervisão humana ou múltiplos modelos para validação cruzada.

Em suma, o trabalho demonstra que a não-determinidade dos LLMs é uma fonte prática de instabilidade que deve ser medida, monitorada e mitigada antes que esses modelos sejam integrados em sistemas críticos de produção.

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

1. O Cenário: O "Juiz" que é um Assistente

2. O Problema Principal: A Inconsistência

3. Os "Temperamentos" (Temperatura)

4. A "Injustiça" entre os Modelos

5. Por que isso é perigoso para as empresas?

6. Conclusão: O que fazer?

Título: Mesmo Input, Diferentes Pontuações: Um Estudo Multi-Modelo sobre a Inconsistência de Julgadores LLM

1. O Problema

2. Metodologia

3. Principais Contribuições e Resultados

4. Significado e Implicações

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers