Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass… — Explicación divulgativa

Autores originales: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

Publicado 2026-05-13

📖 5 min de lectura🧠 Análisis profundo

Ver en medRxiv ↗PDF ↗

CC BY 4.0

Autores originales: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

Artículo original bajo licencia CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Esta es una explicación generada por IA de un preprint que no ha sido revisado por pares. No es consejo médico. No tome decisiones de salud basándose en este contenido. Leer descargo de responsabilidad completo

Imagina un examen final de alto riesgo para médicos que se especializan en observar imágenes del corazón utilizando trazadores radiactivos especiales. Este es el "Examen de Certificación en Cardiología Nuclear". Durante años, la Inteligencia Artificial (IA) ha intentado presentarse a esta prueba, pero seguía fallando, obteniendo puntuaciones inferiores al promedio del estudiante de medicina.

Este artículo narra cómo dos nuevos modelos de IA, extremadamente inteligentes, finalmente aprobaron la prueba con honores, superando al estudiante humano promedio.

El Escenario: El Examen y la "Chuleta"

El examen consta de 168 preguntas. Algunas son solo texto (como un cuestionario de cultura general), pero unas 27 requieren observar imágenes médicas complejas de corazones.

En el pasado, cuando la IA intentaba presentarse al examen "en frío" (sin ninguna ayuda), lo mejor que podía lograr era acertar aproximadamente el 63% de las preguntas. Eso es una calificación reprobatoria. El estudiante de medicina promedio (un "médico en formación") obtuvo una puntuación del 78%.

Para este nuevo estudio, los investigadores proporcionaron a la IA una "chuleta" masiva. Esto no fue simplemente una búsqueda rápida en Google; fue un sistema de Generación Aumentada por Recuperación (RAG). Imagínalo como proporcionar a la IA una biblioteca digital perfecta y searchable que contiene los libros de texto oficiales, los atlas y las guías médicas de cardiología nuclear. Cuando la IA ve una pregunta, se sumerge instantáneamente en esta biblioteca, encuentra la página exacta con la respuesta y la utiliza para formular su respuesta.

Los Competidores

Los investigadores probaron dos nuevos modelos de IA de próxima generación:

Claude Opus 4.7: Un modelo que utiliza un sistema de búsqueda local y transparente (como un bibliotecario que te muestra exactamente qué libros ha sacado de la estantería).
GPT-5.5: Un modelo que utiliza un sistema de búsqueda basado en la nube (como un bibliotecario que encuentra los libros por ti pero no te muestra el proceso).

Los Resultados: La IA Supera al Estudiante Promedio

Cuando estas dos IAs presentaron el examen cinco veces cada una, los resultados fueron sorprendentes:

Las Puntuaciones: Ambos modelos obtuvieron puntuaciones alrededor del 86% al 87%.
La Comparación: Esto es significativamente superior a la puntuación promedio del estudiante humano del 78%. De hecho, si se alinearan los 13 estudiantes humanos y las 2 IAs, las IAs se clasificarían entre las 5 primeras, superando a 8 o 9 de los humanos.
La Velocidad del Progreso: Este es un salto masivo. Hace solo 18 meses, la mejor IA obtuvo un 63%. Ahora, con la "chuleta" (RAG), saltaron 23 puntos porcentuales.

Las Dos Debilidades

Aunque las IAs ganaron, tuvieron dos luchas específicas:

El Problema de la "Imagen": Las IAs fueron excelentes en preguntas de texto (obteniendo casi un 89%), pero tropezaron en las preguntas de imágenes. Obtuvieron aproximadamente entre un 73% y un 77% de aciertos en imágenes. Los humanos seguían siendo mejores en esto, con una puntuación del 81,5%.
- Analogía: Imagina que la IA es un brillante profesor que puede recitar todo el libro de texto de memoria, pero aún se confunde al mirar una radiografía borrosa. Conoce la teoría perfectamente, pero aún está aprendiendo a "ver" la imagen.
El "Glitch" de Seguridad (solo GPT-5.5): GPT-5.5 se negó a responder aproximadamente el 7% de las preguntas. Diría: "Lo siento, no puedo ayudarte con eso", aunque las preguntas fueran simplemente preguntas estándar de examen médico sobre fármacos cardíacos o seguridad radiológica.
- Analogía: Es como un bibliotecario muy cauteloso que se niega a entregarte un libro sobre "cómo construir una bomba" incluso si estás preguntando a un estudiante de física una pregunta de examen legítima sobre energía nuclear. Los filtros de seguridad de la IA eran demasiado sensibles, provocando que perdiera puntos. Claude Opus 4.7 no tuvo este problema; respondió a todo.

Lo Que los Autores Realmente Dicen (y No Dicen)

El artículo es muy cuidadoso sobre lo que esto significa:

Lo Que ES: Demuestra que, con los materiales de referencia adecuados, la IA puede aprender los hechos y las reglas de la cardiología nuclear mejor que el residente promedio. Los autores sugieren que estas herramientas podrían utilizarse como ayudas educativas para ayudar a los estudiantes a estudiar o como herramientas de referencia para verificar hechos en una sala de lectura.
Lo Que NO ES: Los autores declaran explícitamente que aprobar un examen de opción múltiple no significa que la IA esté lista para ser médico. La medicina real implica hablar con pacientes, manejar la incertidumbre y tomar decisiones de juicio complejas que un examen de opción múltiple no puede medir. La IA es un libro de referencia poderoso, no un reemplazo para un médico humano.

La Conclusión

En el lapso de un año y medio, la IA ha pasado de reprobar el examen de certificación en cardiología nuclear a superar al estudiante humano promedio, siempre que tenga acceso a los libros de texto adecuados. Sin embargo, aún lucha con la interpretación de imágenes médicas, y uno de los modelos es demasiado "miedoso" para responder ciertas preguntas legítimas. Aunque es un gran salto adelante para las herramientas de educación médica, el artículo concluye que estas máquinas son asistentes, no reemplazos, para los médicos humanos.

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

El Escenario: El Examen y la "Chuleta"

Los Competidores

Los Resultados: La IA Supera al Estudiante Promedio

Las Dos Debilidades

Lo Que los Autores Realmente Dicen (y No Dicen)

La Conclusión

Resumen Técnico: LLMs con Aumento por Recuperación Superan el Rendimiento Humano en Exámenes de Certificación de Cardiología Nuclear

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

El Escenario: El Examen y la "Chuleta"

Los Competidores

Los Resultados: La IA Supera al Estudiante Promedio

Las Dos Debilidades

Lo Que los Autores Realmente Dicen (y No Dicen)

La Conclusión

Resumen Técnico: LLMs con Aumento por Recuperación Superan el Rendimiento Humano en Exámenes de Certificación de Cardiología Nuclear

Más como este