Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um professor de medicina tentando corrigir as provas de seus alunos. O problema? Você tem centenas de provas, mas apenas um dia para corrigi-las. Você precisa de ajuda.

Aqui entra a ideia deste artigo: usar uma Inteligência Artificial (IA) para corrigir as provas dos alunos. Mas há um grande "mas": como saber se a IA está corrigindo bem, se ela mesma é uma máquina que pode errar?

Este estudo é como um teste de qualidade para esses "corretores de IA", focado especificamente em perguntas e respostas médicas em francês.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: A "Tradução" Médica é Difícil

Na medicina, não basta a resposta estar "parecida" com a do livro. Se um aluno diz "o coração bate rápido" e o livro diz "taquicardia", a IA precisa entender que são a mesma coisa. Métricas antigas de IA (que contam quantas palavras são iguais) falham nisso, como tentar medir a qualidade de um prato de comida apenas contando os ingredientes, sem provar o sabor.

2. A Solução Proposta: O "Juiz IA"

Os autores testaram várias IAs para ver quem consegue julgar se a resposta de um aluno é semanticamente equivalente (tem o mesmo significado médico) à resposta correta de um especialista humano.

Eles compararam três tipos de "juízes":

Os Gigantes Gerais: IAs famosas e poderosas (como GPT-5 ou Gemini), que sabem de tudo, mas não são especialistas em medicina.
Os Especialistas: IAs treinadas especificamente com livros de medicina.
Os Pequenos e Rápidos: IAs menores e mais baratas, que precisam ser "ensinadas" a julgar.

3. A Grande Descoberta: O "Viés do Professor"

A descoberta mais interessante é que o juiz muda de opinião dependendo de quem escreveu a resposta.

A Analogia do Sotaque: Imagine um juiz que adora alunos que falam muito e usam palavras difíceis, mas rejeita alunos que são diretos e vão ao ponto.
O que aconteceu: As IAs "Gigantes" tendiam a rejeitar respostas curtas e diretas (mesmo que corretas) e aceitar respostas longas e verbosas (mesmo que com erros). Já as IAs "Especialistas" foram mais justas, entendendo que um médico experiente pode ser breve e preciso.
Conclusão: Você não pode confiar cegamente em um juiz se ele tiver um "gosto" específico pelo estilo de escrita de um determinado aluno.

4. O Truque Mágico: Ensinar o Pequeno a Ser Grande

Os autores queriam saber: "E se usarmos uma IA pequena e barata? Ela consegue julgar bem?"
Inicialmente, a IA pequena (Phi-3.5) era um pouco "bonzinho demais": ela dizia que quase tudo estava certo (alta precisão, mas baixa qualidade).

Eles usaram duas técnicas de treinamento para "afinar" essa IA:

SFT (Aulas Particulares): Eles mostraram exemplos de respostas certas e erradas para a IA aprender.
GRPO (Treino de Reforço): É como um jogo onde a IA ganha pontos quando acerta e perde quando erra, forçando-a a melhorar suas decisões.

O Resultado Surpreendente:
Com esse treino leve, a IA pequena deixou de ser "bonzinha demais" e começou a julgar com a mesma precisão das IAs gigantes e especializadas. Foi como pegar um estudante universitário e, com um pouco de mentoria focada, transformá-lo em um avaliador tão bom quanto um professor sênior.

5. Por que isso importa?

Economia: Não precisamos de supercomputadores caros para avaliar respostas médicas; modelos pequenos e bem treinados funcionam.
Justiça: Precisamos criar sistemas que não tenham "sotaque" ou preferência por um tipo de resposta.
Segurança: Em medicina, um erro de avaliação pode ser perigoso. O estudo mostra que, embora as IAs ajudem, elas ainda não substituem o médico humano. Elas são ótimas para triagem e escala, mas o especialista humano deve sempre dar o veredito final.

Resumo em uma frase:

Este estudo nos ensina que, para avaliar respostas médicas, não basta ter uma IA inteligente; precisamos de uma IA que entenda o contexto médico e que seja treinada para não ter preconceitos contra o estilo de escrita de quem responde, e que até modelos pequenos podem se tornar excelentes juízes com o treinamento certo.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A avaliação automática de Sistemas de Resposta a Perguntas Abertas (OEQA) em domínios especializados, como a medicina, permanece um desafio significativo. Métricas tradicionais baseadas em sobreposição lexical (BLEU, ROUGE) ou similaridade de embeddings (BERTScore) falham em capturar a fidelidade semântica, a precisão factual e a relevância clínica necessárias para validar respostas médicas.

Atualmente, a avaliação depende pesadamente de anotações manuais por especialistas, o que é caro e difícil de escalar. Embora o paradigma de "LLM como Juiz" (LLM-as-a-Judge) tenha surgido como uma alternativa escalável, existem lacunas críticas no contexto médico, especialmente em francês:

A confiabilidade dos LLMs como juízes em cenários médicos especializados.
A sensibilidade desses juízes ao modelo que gerou a resposta (viés de gerador).
A capacidade de modelos compactos serem alinhados para atuar como avaliadores confiáveis com supervisão limitada.

2. Metodologia

O estudo propõe uma investigação sistemática sobre a avaliação de equivalência semântica binária (0 ou 1) entre uma resposta gerada e uma referência de especialista em francês.

Conjuntos de Dados:
- Treinamento (Alinhamento): 100 instâncias de OEQA médico francês, aumentadas para 184 exemplos (incluindo pares contrastivos e paráfrases) para treinar um modelo compacto.
- Avaliação: 500 instâncias (100 perguntas × 5 respostas geradas por diferentes modelos). As respostas foram geradas por cinco LLMs distintos (Gemma-3, LLaMA-13B adaptado, MedGemma-4B, Qwen-4B e Qwen-3) e anotadas por um médico especialista em neurovasculatura.
Modelos Avaliados como Juízes:
- Proprietários e Gerais: GPT-5.1, Gemini-2.5-Pro, Qwen3-Next-80B.
- Domínio Médico: MedGemma-27B.
- Compacto e Adaptado: Phi-3.5-mini (Base, com Ajuste Fino Supervisionado - SFT, e com Otimização de Política Relativa em Grupo - GRPO).
Protocolo de Avaliação:
- Os juízes LLM recebem a pergunta, a resposta de referência e a resposta candidata, devendo classificar a equivalência semântica.
- O prompt foi mantido em inglês para garantir consistência, pois os modelos são treinados majoritariamente em inglês.
- Alinhamento do Modelo Compacto: O Phi-3.5-mini foi submetido a SFT (5 épocas) e posteriormente a GRPO (2 épocas) para aprender as decisões binárias dos especialistas, utilizando dados estritamente separados do conjunto de teste.
Métricas e Análise Estatística:
- Métricas principais: Acurácia, F1-score, Precisão, Recall e Correlação de Pearson.
- Testes de significância: Teste exato de McNemar (para acurácia) e testes de bootstrap e permutação pareados (para F1 e correlação).

3. Principais Contribuições

Avaliação Sistemática no Francês: Primeira investigação abrangente sobre o uso de LLMs como juízes para OEQA médico em francês, preenchendo uma lacuna linguística e cultural importante.
Descoberta de Viés Dependente do Gerador: Evidência empírica de que os juízes LLM não são invariantes ao gerador. A precisão, o recall e o F1 variam significativamente dependendo de qual modelo gerou a resposta sendo avaliada, indicando que a "estilo" da resposta influencia a avaliação.
Viabilidade de Modelos Compactos Adaptados: Demonstração de que modelos pequenos (3.8B parâmetros) podem ser transformados em avaliadores confiáveis através de adaptação leve (SFT + GRPO), alcançando desempenho comparável a modelos muito maiores e especializados, mesmo com poucos dados de treinamento.

4. Resultados Chave

Desempenho dos Juízes:
- Os modelos MedGemma-27B (especializado) e Qwen-80B (geral, mas grande) apresentaram o melhor equilíbrio e maior alinhamento com os especialistas (F1 ~60% e correlação mais alta).
- Modelos proprietários de ponta como GPT-5.1 e Gemini-2.5-Pro tiveram alta precisão, mas recall muito baixo (tendência conservadora de rejeitar equivalência), resultando em F1 inferior aos modelos adaptados.
- O modelo base Phi-3.5-mini apresentou recall extremamente alto (98%) e precisão baixa, tendendo a marcar tudo como equivalente.
Impacto do Alinhamento (SFT + GRPO):
- O SFT corrigiu parcialmente o viés de superprevisão do Phi-3.5-mini.
- O GRPO trouxe melhorias substanciais, equilibrando precisão e recall, elevando a acurácia de 47% (base) para 71.4% (GRPO), superando GPT-5.1 e Gemini-2.5-Pro em acurácia geral.
- Testes de McNemar confirmaram que as melhorias do GRPO sobre o SFT e sobre o modelo base são estatisticamente significativas ( $p < 0.05$ ).
Viés de Gerador:
- Juízes como o Qwen-80B mostraram desempenho superior ao avaliar respostas geradas por modelos da mesma família (Qwen).
- Modelos adaptados ao domínio (MedGemma) mostraram menor sensibilidade a variações de estilo entre geradores.
- O modelo Phi-3.5 adaptado reduziu sua variabilidade entre diferentes geradores após o GRPO.
Métricas Tradicionais: Métricas como BLEU e ROUGE-L mostraram correlação muito fraca com as anotações humanas, confirmando sua inadequação para avaliação médica.

5. Significado e Conclusão

O estudo conclui que a avaliação automática de OEQA médico não pode ser tratada como um problema de "tamanho único".

Consciência do Gerador: É crucial considerar o modelo gerador ao avaliar respostas, pois os juízes LLM possuem vieses sistemáticos relacionados ao estilo e à família do modelo gerador.
Escalabilidade em Recursos Limitados: A adaptação leve de modelos compactos (via SFT e GRPO) oferece um caminho viável e economicamente eficiente para criar avaliadores robustos em cenários de baixo recurso (poucos dados anotados), reduzindo a dependência de modelos massivos ou proprietários.
Cuidado Ético: Embora promissores, os juízes LLM ainda não devem ser usados como avaliadores autônomos em contextos clínicos críticos devido a erros residuais e vieses. Eles devem servir como ferramentas de suporte para triagem ou avaliação em larga escala, sempre com supervisão humana final.

Em suma, o trabalho estabelece que modelos pequenos, devidamente adaptados, podem superar modelos grandes e gerais em tarefas de avaliação médica específica, desde que o processo de avaliação seja consciente dos vieses de geração.

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

1. O Problema: A "Tradução" Médica é Difícil

2. A Solução Proposta: O "Juiz IA"

3. A Grande Descoberta: O "Viés do Professor"

4. O Truque Mágico: Ensinar o Pequeno a Ser Grande

5. Por que isso importa?

Resumo em uma frase:

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Conclusão

Mais como este

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis