MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation

Este artículo audita el benchmark MedCalc-Bench, revelando errores en su implementación y demostrando que el rendimiento de los modelos mejora drásticamente con un enfoque de "libro abierto", lo que sugiere que la métrica actual evalúa principalmente la memorización de fórmulas y el uso de herramientas en lugar del razonamiento clínico.

Artus Krohn-Grimberghe

Publicado 2026-03-04
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que el MedCalc-Bench es como un examen de matemáticas muy estricto para médicos inteligentes (en este caso, Inteligencias Artificiales). El objetivo del examen es que la IA calcule riesgos de salud usando fórmulas médicas complejas, como si fuera una calculadora humana.

El problema es que, hasta ahora, estas IAs estaban "reprochando" el examen. Incluso las más avanzadas apenas lograban un 35% de aciertos. La comunidad científica pensaba: "¡Wow! Estas IAs son muy malas razonando clínicamente".

Pero este paper, escrito por Artus Krohn-Grimberghe, llega y dice: "Esperen un momento. No es que las IAs sean malas; es que el examen está mal diseñado".

Aquí tienes la explicación sencilla, con analogías para entenderlo mejor:

1. El Examen de "Memoria de Elefante" vs. "Uso de Herramientas"

Imagina que le pides a un médico que calcule la dosis de un medicamento.

  • El método antiguo (Lo que hacía el examen): Le decías al médico: "No te permito llevar tu libreta de notas ni tu calculadora. Tienes que memorizar la fórmula exacta, recordar cada número y hacer las matemáticas en tu cabeza".
    • Resultado: El médico se equivoca porque se le olvidó un número o hizo mal una multiplicación. El examen dice: "Este médico es incompetente".
  • La realidad: En la vida real, ningún médico memoriza fórmulas complejas. Usan una calculadora o una app. Lo importante no es la memoria, sino saber qué datos meter en la calculadora.

El paper demuestra que el MedCalc-Bench estaba midiendo la memoria de la IA, no su capacidad de razonamiento clínico.

2. La "Auditoría": Encontrando los errores en el propio examen

El autor no solo criticó el examen, sino que lo revisó de arriba a abajo (como un inspector de calidad). Descubrió que el propio "libro de respuestas" del examen estaba lleno de errores:

  • Había 20 errores en las fórmulas oficiales.
  • Algunos números estaban mal escritos (como un error de dedo en una calculadora).
  • Algunas reglas estaban incompletas.
  • Analogía: Es como si el examen de matemáticas tuviera las respuestas correctas escritas con tinta que se borra o con errores de cálculo. ¡Claro que nadie podía sacar un 100%!

3. La Solución Mágica: "Examen Abierto" (Open-Book)

El autor probó una idea simple: ¿Qué pasa si le damos a la IA la fórmula escrita en el examen?

  • En lugar de pedirle que memorice, le dijimos: "Aquí tienes la fórmula, aquí tienes los datos del paciente. Solo tienes que leer, entender y calcular".
  • El resultado: ¡La IA saltó del 35% al 85%!
  • La moraleja: No necesitaban entrenar a la IA durante meses ni usar superordenadores. Solo necesitaban dejarla usar "sus apuntes". Esto demuestra que la IA sabe razonar, pero el examen le estaba poniendo trabas artificiales.

4. El Límite Superior: ¿Podrían sacar un 100%?

El autor usó la IA más potente del mundo (GPT-5.2) para ver cuánto podían mejorar si arreglaban también los errores del examen.

  • Descubrieron que, si se arreglan los errores de las respuestas y se les da la fórmula, la IA podría acertar casi todo (entre un 95% y 97%).
  • Los pocos errores que quedaban no eran por falta de inteligencia, sino porque las preguntas del examen eran ambiguas o confusas (como un problema de matemáticas mal redactado).

5. ¿Qué significa esto para el futuro?

El paper concluye que debemos cambiar la forma de evaluar a las IAs en medicina:

  • Antes: "¿Puedes memorizar esta fórmula compleja?" (Prueba de memoria).
  • Ahora: "¿Puedes leer la historia de un paciente, elegir la herramienta correcta y usarla bien?" (Prueba de uso de herramientas).

En resumen:
Este paper es como si un maestro de escuela se diera cuenta de que sus alumnos no son malos en matemáticas, sino que el examen les prohíbe usar calculadoras y tiene errores en las respuestas. Al quitar esas prohibiciones y corregir los errores, los alumnos (las IAs) demuestran que son genios.

El autor nos dice: "Dejemos de probar la memoria de las IAs y empecemos a probar cómo usan sus herramientas, que es como funcionan los médicos reales".

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →