Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

Este estudio demuestra que, aunque los modelos de lenguaje grandes pueden evaluar respuestas médicas abiertas en francés, su precisión depende del generador de la respuesta y se optimiza significativamente mediante la adaptación supervisada de modelos compactos, ofreciendo así una solución escalable para entornos médicos con recursos limitados.

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils, Richard Dufour, Benoit Favre

Publicado 2026-03-05
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un examen de medicina muy difícil, escrito en francés. En lugar de preguntas de opción múltiple (A, B, C, D), los estudiantes deben escribir respuestas largas y libres, como si estuvieran explicando un diagnóstico a un paciente.

El problema es que corregir estos exámenes manualmente es agotador. Necesitas a un médico experto para leer cada respuesta y decir: "¿Es esta respuesta correcta o no?". Como hay miles de exámenes, los médicos no pueden corregirlos todos.

Entonces, surge una idea: ¿Podemos usar una Inteligencia Artificial (IA) para corregir los exámenes de otra IA? A esto los autores le llaman "La IA como Juez".

Aquí tienes la explicación de lo que hicieron en este estudio, usando analogías sencillas:

1. El Gran Problema: ¿Quién vigila al vigilante?

Los autores querían saber si una IA (el Juez) podía decir si la respuesta de otra IA (el Estudiante) era médicamente correcta.

  • La analogía: Imagina que tienes un árbitro de fútbol que nunca ha jugado al fútbol (una IA general) y otro que es un ex-futbolista profesional (una IA médica). ¿Quién juzgará mejor si un gol es válido?
  • Lo que descubrieron:
    • Las IAs "generales" (como GPT o Gemini) a veces son demasiado estrictas o demasiado relajadas. A veces rechazan una respuesta correcta solo porque está escrita de forma diferente a la que ellos esperan.
    • Las IAs "médicas" (entrenadas específicamente en medicina) funcionan mejor, pero tienen un sesgo extraño: Si el "Estudiante" que escribe la respuesta es de la misma "familia" que el "Juez", el Juez tiende a ser más amable. Es como si un árbitro de la selección francesa tuviera más simpatía por un jugador francés que por uno alemán, incluso si el juego es igual.

2. El Experimento: Probando a los Jueces

Los investigadores crearon un pequeño banco de pruebas con 100 preguntas médicas en francés.

  • Los Estudiantes: Usaron 5 IAs diferentes para generar respuestas (algunas pequeñas, algunas grandes, algunas médicas, otras generales).
  • Los Jueces: Usaron varias IAs para corregir esas respuestas.
  • El Referente: Un médico real corrigió todo para tener la "verdad absoluta".

El resultado: Ningún juez fue perfecto. Todos cometieron errores, pero los errores dependían de quién había escrito la respuesta. Si la respuesta era muy corta, algunos jueces la marcaban como incorrecta aunque el contenido médico fuera correcto.

3. La Solución Mágica: Entrenando al "Juez Pequeño"

Aquí viene la parte más interesante. Tenían una IA pequeña y barata (llamada Phi-3.5), que al principio era un mal juez: marcaba todo como "correcto" (tenía una "conciencia" demasiado permisiva).

Los investigadores la entrenaron de dos formas:

  1. SFT (Aprendizaje Supervisado): Le mostraron ejemplos de un médico diciendo "esto está bien" o "esto está mal". Fue como darle un libro de reglas. Mejoró un poco, pero seguía siendo torpe.
  2. GRPO (Optimización por Política Relativa): Esto es como un entrenador deportivo. No solo le dicen la respuesta correcta, sino que le hacen jugar "partidos" contra sí mismo, premiándolo cuando acierta y castigándolo cuando falla, para que aprenda a equilibrar su criterio.

El resultado final:
La IA pequeña, después de este entrenamiento especial, se convirtió en un juez tan bueno como las IAs gigantes y costosas.

  • La analogía: Imagina a un niño pequeño (la IA pequeña) que aprende a ser un árbitro de fútbol tan bueno como un veterano de la selección, solo con un poco de entrenamiento inteligente y sin necesidad de ser un gigante.

4. ¿Por qué es importante esto?

  • Ahorro de dinero y tiempo: No necesitas una supercomputadora cara para evaluar respuestas médicas. Una IA pequeña, bien entrenada, puede hacer el trabajo.
  • Justicia: Aprendimos que no podemos confiar ciegamente en una IA para corregir a otra. El "Juez" puede tener prejuicios dependiendo de quién escribió la respuesta.
  • Idioma: Esto se hizo en francés, lo cual es vital porque la medicina en Francia es diferente a la de EE. UU. o Reino Unido. Necesitamos jueces que entiendan el contexto local.

En resumen

Este estudio nos dice que:

  1. Las IAs pueden corregir exámenes médicos, pero no son perfectas y a veces se dejan influir por quién escribió la respuesta.
  2. Las IAs médicas especializadas son mejores, pero son caras.
  3. La buena noticia: Podemos tomar una IA pequeña y barata, darle un "entrenamiento de élite" (GRPO) y convertirla en un juez excelente, capaz de trabajar en hospitales o universidades con pocos recursos.

Es como decir: "No necesitas ser un genio para corregir exámenes; si tienes el método de entrenamiento correcto, cualquiera puede hacerlo bien".