Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Este artículo presenta PubHealthBench, un nuevo conjunto de datos con más de 8000 preguntas derivadas de la información de salud pública del gobierno del Reino Unido, que revela que aunque los modelos de lenguaje más avanzados superan a los humanos en pruebas de opción múltiple, su rendimiento disminuye significativamente en respuestas de texto libre, lo que subraya la necesidad de salvaguardas adicionales para su uso seguro en este ámbito.

Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz

Publicado 2026-03-05
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Título: ¿Son los "Cerebros Digitales" Expertos en Salud Pública? Un Examen de Choque

Imagina que los Modelos de Lenguaje Grandes (LLMs), como los chatbots que usamos hoy, son como estudiantes universitarios muy inteligentes que han leído millones de libros. Pero, ¿qué pasa si les pedimos que den consejos sobre la salud pública del Reino Unido? ¿Son realmente expertos o solo están adivinando?

Este documento es como un examen sorpresa diseñado por la Agencia de Seguridad Sanitaria del Reino Unido (UKHSA) para poner a prueba a 24 de estos "estudiantes digitales".

Aquí tienes la explicación de lo que descubrieron, usando analogías sencillas:

1. El Problema: ¿Confianza o Alucinación?

La salud pública es como un manual de instrucciones de emergencia. Si un médico o un ciudadano lee algo incorrecto sobre vacunas, virus o seguridad alimentaria, las consecuencias pueden ser graves.
El problema es que estos chatbots a veces "alucinan": inventan información que suena muy real pero que es falsa. El Reino Unido necesitaba saber: ¿Podemos confiar en estos robots para darnos consejos de salud actualizados?

2. La Prueba: "PubHealthBench" (El Gran Examen)

Para responder, crearon un examen gigante llamado PubHealthBench.

  • La Fuente: Tomaron más de 600 documentos oficiales del gobierno (PDFs y webs) que contienen las reglas reales de salud.
  • El Método: Usaron un robot para leer esos documentos y crear automáticamente más de 8,000 preguntas de opción múltiple. Es como si un profesor creara un examen de 8,000 preguntas basándose estrictamente en el libro de texto oficial.
  • Dos Tipos de Prueba:
    1. Opción Múltiple (MCQA): Como un examen de test. "¿Cuál es la respuesta correcta: A, B o C?".
    2. Respuesta Libre (Free Form): Como una entrevista. "Explícame qué debo hacer si tengo fiebre". Aquí no hay pistas ni opciones para elegir.

3. Los Resultados: ¿Quién aprobó?

En el examen de Opción Múltiple (El Test):

¡Fue un éxito rotundo para los modelos más potentes!

  • Los modelos más avanzados (como GPT-4.5 y o1) obtuvieron más del 90% de aciertos.
  • La analogía: Imagina que les das un test de 10 preguntas sobre el manual de salud. Ellos aciertan 9 o 10. Incluso superaron a personas normales que usaban Google para buscar las respuestas en menos de 2 minutos.
  • Conclusión: Si solo necesitas elegir una opción de una lista, estos robots son excelentes "bibliotecarios" que conocen el manual de memoria.

En la Respuesta Libre (La Entrevista):

Aquí es donde las cosas se ponen difíciles.

  • Cuando se les pidió explicar las cosas con sus propias palabras (sin opciones A, B, C), el rendimiento cayó drásticamente. Ningún modelo superó el 75%.
  • El problema: En lugar de dar la respuesta exacta del manual, a veces añadían información extra que no estaba en la guía oficial, omitían pasos importantes o, peor aún, daban consejos contradictorios.
  • La analogía: Es como pedirle a un chef experto que cocine un plato siguiendo una receta exacta. En el test de opción múltiple, sabe identificar los ingredientes. Pero cuando le pides que cocine el plato a mano, a veces añade sal de más o se olvida de un paso crucial.

4. ¿Qué aprendimos de esto?

  • Los "Gigantes" vs. Los "Pequeños": Los modelos más grandes y caros (propiedad de empresas como OpenAI) funcionan muy bien. Pero los modelos más pequeños y abiertos (como versiones gratuitas) suelen fallar mucho más, especialmente cuando tienen que inventar una respuesta libre. A veces fallan hasta un 60% más que en el test de opción múltiple.
  • El Sesgo del Público: Curiosamente, los robots sabían más sobre las guías dirigidas al público general que sobre las guías técnicas para médicos. Esto es bueno, porque son las personas comunes las que más usan los chatbots para buscar información de salud.
  • El Peligro de la "Alucinación": El mayor riesgo no es que el robot no sepa la respuesta, sino que invente una respuesta que suena convincente pero es peligrosa (por ejemplo, sugerir tomar un medicamento en el momento equivocado).

5. La Conclusión Final: ¿Podemos confiar en ellos?

El estudio dice: "Sí, pero con precaución".

  • La buena noticia: La tecnología ha avanzado tanto que los mejores modelos saben casi todo lo que dice el gobierno sobre salud. Son herramientas poderosas.
  • La mala noticia: Cuando hablan libremente, a veces se salen del guion. No son perfectos.

La recomendación: No deberíamos usar estos chatbots como si fueran doctores que deciden tu tratamiento sin supervisión. Necesitamos herramientas de seguridad (como un "supervisor humano" o un sistema que verifique que lo que dice el robot coincide exactamente con el documento oficial) antes de dejar que den consejos de salud a la gente.

En resumen: Los robots son estudiantes brillantes que sacan un 9 en los tests, pero a veces sacan un 6 en los trabajos prácticos. Por ahora, es mejor que un humano revise su tarea antes de enviarla al mundo.