Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un examen de medicina muy difícil, escrito en francés. En lugar de preguntas de opción múltiple (A, B, C, D), los estudiantes deben escribir respuestas largas y libres, como si estuvieran explicando un diagnóstico a un paciente.

El problema es que corregir estos exámenes manualmente es agotador. Necesitas a un médico experto para leer cada respuesta y decir: "¿Es esta respuesta correcta o no?". Como hay miles de exámenes, los médicos no pueden corregirlos todos.

Entonces, surge una idea: ¿Podemos usar una Inteligencia Artificial (IA) para corregir los exámenes de otra IA? A esto los autores le llaman "La IA como Juez".

Aquí tienes la explicación de lo que hicieron en este estudio, usando analogías sencillas:

1. El Gran Problema: ¿Quién vigila al vigilante?

Los autores querían saber si una IA (el Juez) podía decir si la respuesta de otra IA (el Estudiante) era médicamente correcta.

La analogía: Imagina que tienes un árbitro de fútbol que nunca ha jugado al fútbol (una IA general) y otro que es un ex-futbolista profesional (una IA médica). ¿Quién juzgará mejor si un gol es válido?
Lo que descubrieron:
- Las IAs "generales" (como GPT o Gemini) a veces son demasiado estrictas o demasiado relajadas. A veces rechazan una respuesta correcta solo porque está escrita de forma diferente a la que ellos esperan.
- Las IAs "médicas" (entrenadas específicamente en medicina) funcionan mejor, pero tienen un sesgo extraño: Si el "Estudiante" que escribe la respuesta es de la misma "familia" que el "Juez", el Juez tiende a ser más amable. Es como si un árbitro de la selección francesa tuviera más simpatía por un jugador francés que por uno alemán, incluso si el juego es igual.

2. El Experimento: Probando a los Jueces

Los investigadores crearon un pequeño banco de pruebas con 100 preguntas médicas en francés.

Los Estudiantes: Usaron 5 IAs diferentes para generar respuestas (algunas pequeñas, algunas grandes, algunas médicas, otras generales).
Los Jueces: Usaron varias IAs para corregir esas respuestas.
El Referente: Un médico real corrigió todo para tener la "verdad absoluta".

El resultado: Ningún juez fue perfecto. Todos cometieron errores, pero los errores dependían de quién había escrito la respuesta. Si la respuesta era muy corta, algunos jueces la marcaban como incorrecta aunque el contenido médico fuera correcto.

3. La Solución Mágica: Entrenando al "Juez Pequeño"

Aquí viene la parte más interesante. Tenían una IA pequeña y barata (llamada Phi-3.5), que al principio era un mal juez: marcaba todo como "correcto" (tenía una "conciencia" demasiado permisiva).

Los investigadores la entrenaron de dos formas:

SFT (Aprendizaje Supervisado): Le mostraron ejemplos de un médico diciendo "esto está bien" o "esto está mal". Fue como darle un libro de reglas. Mejoró un poco, pero seguía siendo torpe.
GRPO (Optimización por Política Relativa): Esto es como un entrenador deportivo. No solo le dicen la respuesta correcta, sino que le hacen jugar "partidos" contra sí mismo, premiándolo cuando acierta y castigándolo cuando falla, para que aprenda a equilibrar su criterio.

El resultado final:
La IA pequeña, después de este entrenamiento especial, se convirtió en un juez tan bueno como las IAs gigantes y costosas.

La analogía: Imagina a un niño pequeño (la IA pequeña) que aprende a ser un árbitro de fútbol tan bueno como un veterano de la selección, solo con un poco de entrenamiento inteligente y sin necesidad de ser un gigante.

4. ¿Por qué es importante esto?

Ahorro de dinero y tiempo: No necesitas una supercomputadora cara para evaluar respuestas médicas. Una IA pequeña, bien entrenada, puede hacer el trabajo.
Justicia: Aprendimos que no podemos confiar ciegamente en una IA para corregir a otra. El "Juez" puede tener prejuicios dependiendo de quién escribió la respuesta.
Idioma: Esto se hizo en francés, lo cual es vital porque la medicina en Francia es diferente a la de EE. UU. o Reino Unido. Necesitamos jueces que entiendan el contexto local.

En resumen

Este estudio nos dice que:

Las IAs pueden corregir exámenes médicos, pero no son perfectas y a veces se dejan influir por quién escribió la respuesta.
Las IAs médicas especializadas son mejores, pero son caras.
La buena noticia: Podemos tomar una IA pequeña y barata, darle un "entrenamiento de élite" (GRPO) y convertirla en un juez excelente, capaz de trabajar en hospitales o universidades con pocos recursos.

Es como decir: "No necesitas ser un genio para corregir exámenes; si tienes el método de entrenamiento correcto, cualquiera puede hacerlo bien".

Each language version is independently generated for its own context, not a direct translation.

A continuación presento un resumen técnico detallado del artículo "Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA", estructurado según los puntos solicitados.

1. El Problema

La evaluación automática de sistemas de Preguntas y Respuestas Abiertas (OEQA) en el dominio médico es un desafío crítico. Las métricas tradicionales basadas en similitud léxica o de embeddings (como BLEU, ROUGE o BERTScore) fallan en capturar la fidelidad semántica, la precisión factual y la relevancia clínica, ya que una respuesta médicamente correcta puede diferir significativamente en su formulación superficial de la referencia.

Actualmente, la evaluación depende de anotaciones manuales por expertos, lo cual es costoso y no escalable. Aunque el paradigma "LLM como Juez" (LLM-as-a-Judge) ofrece una alternativa escalable, existen dudas sobre:

Su fiabilidad en entornos médicos especializados.
Su sensibilidad al modelo que generó la respuesta (sesgo del generador).
Su aplicabilidad en idiomas distintos al inglés, específicamente en francés, donde la terminología y las prácticas clínicas difieren de las de EE. UU./Reino Unido.
Si modelos compactos pueden ser alineados eficazmente con supervisión experta limitada.

2. Metodología

El estudio se centra en la evaluación de la equivalencia semántica binaria (0 o 1) entre una respuesta generada por un LLM y una respuesta de referencia experta en francés.

Datos:
- Conjunto de Entrenamiento (Alineación): 184 instancias (100 originales + 84 aumentadas mediante contraste y paráfrasis) anotadas por un médico especialista en neurovascular.
- Conjunto de Evaluación: 500 instancias derivadas de 100 preguntas, donde cada pregunta tiene 5 respuestas generadas por diferentes LLMs (Gemma-3, LLaMA-13B SFT, MedGemma-4B, SFT-Qwen-4B, Qwen3-4B).
Modelos Evaluados (Jueces):
- Cerrados/Propietarios: GPT-5.1, Gemini-2.5-Pro.
- Open Source/General: Qwen3-Next-80B.
- Dominio Médico: MedGemma-27B.
- Modelo Compacto: Phi-3.5-mini (3.8B parámetros).
Estrategias de Alineación (para Phi-3.5-mini):
1. SFT (Fine-Tuning Supervisado): 5 épocas sobre los datos de expertos.
2. GRPO (Optimización de Política Relativa de Grupo): 2 épocas adicionales para refinar la alineación mediante optimización por refuerzo.
Métricas: Precisión, Recall, F1, Correlación de Pearson con las etiquetas humanas y pruebas de significancia estadística (McNemar, Bootstrap, Permutación).

3. Contribuciones Clave

Evaluación Sistemática en Francés: Primer estudio exhaustivo del paradigma "LLM como Juez" para OEQA médica en francés, demostrando cómo diferentes familias de modelos (cerrados, open-source, biomédicos) se alinean con juicios expertos.
Análisis de Sesgo del Generador: Evidencia empírica de que los jueces LLM no son invariantes al generador. La precisión y el recall varían significativamente dependiendo de qué modelo generó la respuesta, revelando sesgos hacia estilos de respuesta específicos (ej. verbosidad) o familias de modelos.
Alineación Eficiente de Modelos Pequeños: Demostración de que un modelo compacto (Phi-3.5-mini) puede transformarse en un evaluador fiable mediante SFT y GRPO con muy pocos datos (184 ejemplos), superando a modelos grandes no adaptados y reduciendo la sensibilidad al generador.

4. Resultados Principales

Limitaciones de Métricas Tradicionales: Las métricas como ROUGE-L y BLEU mostraron una correlación muy baja con los juicios de expertos, confirmando que la similitud superficial no es un indicador de validez clínica.
Rendimiento de los Jueces:
- Los modelos MedGemma-27B (adaptado al dominio) y Qwen-80B (generalista grande) lograron el mejor equilibrio (F1 ~60-60.5%) y la mayor correlación con los expertos.
- Los modelos de acceso cerrado (GPT-5.1, Gemini-2.5-Pro) mostraron alta precisión pero un recall muy bajo (tendencia conservadora a rechazar equivalencias), especialmente con respuestas concisas de modelos ajustados (Llama/Qwen).
- El modelo base Phi-3.5-mini mostró un sesgo extremo hacia predecir "equivalencia" (Recall 98%, Precisión baja).
Impacto de la Alineación (SFT + GRPO):
- La adaptación ligera de Phi-3.5-mini mejoró drásticamente su rendimiento. El modelo GRPO-Phi-3.5-mini alcanzó un F1 de 57.06% y una precisión del 71.40%, superando a GPT-5.1 y Gemini-2.5-Pro en términos de equilibrio general.
- Pruebas de Significancia: La prueba de McNemar confirmó que las mejoras de GRPO sobre la versión base y SFT son estadísticamente significativas ( $p < 0.05$ ), aunque las mejoras en la detección de la clase positiva (equivalencia) no fueron significativas en las pruebas de bootstrap/permutación.
Sensibilidad al Generador: Todos los jueces mostraron variabilidad en su rendimiento según el modelo generador. Los modelos adaptados al dominio (MedGemma) mostraron menor sensibilidad a la variación superficial que los modelos generales.

5. Significancia y Conclusiones

El estudio concluye que la evaluación automática de QA médica en francés es viable pero requiere un diseño consciente del generador.

No se puede confiar ciegamente en modelos generales de gran tamaño (como GPT-5.1) para tareas de evaluación médica específica sin adaptación, ya que pueden ser excesivamente conservadores o sesgados.
Los modelos pequeños adaptados (mediante SFT y GRPO) representan una ruta viable y económica para la evaluación escalable en entornos de recursos limitados, logrando un rendimiento comparable a modelos mucho más grandes y especializados.
Advertencia Ética: Los autores enfatizan que, aunque los LLM jueces mejoran la escalabilidad, su acuerdo con los expertos es moderado. No deben usarse como evaluadores autónomos en entornos clínicos críticos, sino como herramientas de apoyo para la exploración a gran escala, donde la revisión humana sigue siendo indispensable.

Este trabajo sienta las bases para futuros marcos de evaluación más robustos, multilingües y específicos del dominio en el campo de la IA médica.

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

1. El Gran Problema: ¿Quién vigila al vigilante?

2. El Experimento: Probando a los Jueces

3. La Solución Mágica: Entrenando al "Juez Pequeño"

4. ¿Por qué es importante esto?

En resumen

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significancia y Conclusiones

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models