Sample Size Calculations for Developing Clinical Prediction Models: Overview and pmsims R package

Este artículo presenta un marco conceptual y el paquete de software R de código abierto `pmsims` para calcular tamaños de muestra en modelos de predicción clínica mediante un enfoque de simulación que integra curvas de aprendizaje y optimización, ofreciendo soluciones flexibles y eficientes que superan las limitaciones de los métodos existentes.

Diana Shamsutdinova, Felix Zimmer, Oyebayo Ridwan Olaniran, Sarah Markham, Daniel Stahl, Gordon Forbes, Ewan Carr

Publicado 2026-03-02
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres construir una máquina del tiempo o un oráculo médico muy inteligente. Este "oráculo" (que en realidad es un modelo de inteligencia artificial) debe mirar los datos de un paciente (su edad, peso, historial, etc.) y predecir si tendrá una enfermedad en el futuro.

El problema es: ¿Cuántos pacientes necesitas "entrenar" a este oráculo antes de que sea lo suficientemente bueno para usarlo en la vida real?

Si le das muy pocos datos, el oráculo se vuelve un memorizador (se aprende de memoria los casos que vio, pero falla con los nuevos). Si le das demasiados, estás desperdiciando tiempo y dinero.

Este artículo presenta una nueva herramienta llamada pmsims (un paquete de software) que ayuda a los científicos a calcular exactamente cuántos datos necesitan. Aquí te lo explico con analogías sencillas:

1. El problema: ¿Cuántos estudiantes para un examen perfecto?

Imagina que eres un profesor y quieres crear un examen que sea justo y difícil.

  • El método viejo (Regla del 10): Antes, los científicos decían: "Si tienes 10 preguntas, necesitas 100 estudiantes". Era una regla simple, como decir "ponle 100 gramos de harina a cualquier pastel". Pero a veces el pastel se queda crudo o se quema porque no todos los ingredientes son iguales.
  • El problema real: La medicina es compleja. A veces los síntomas están muy mezclados, a veces hay "ruido" (datos falsos). Una regla simple no funciona bien para modelos de Inteligencia Artificial modernos.

2. Dos formas de pensar en el éxito

El artículo explica que hay dos maneras de decidir cuándo un modelo está listo:

  • El promedio (La media): "Si entrenamos al modelo 100 veces, en promedio funcionará bien".
    • Analogía: Es como decir: "Si tiro una moneda 100 veces, saldrán 50 caras". Pero en la vida real, podrías tener una mala racha y sacar solo 30 caras. El modelo podría fallar estrepitosamente en tu caso específico.
  • La garantía (Assurance): "Quiero estar 80% seguro de que, sin importar qué datos use, el modelo funcionará bien".
    • Analogía: Es como un ingeniero de puentes. No le importa si el puente promedio aguanta el tráfico; le importa que casi siempre (el 80% de las veces) no se caiga, incluso si llueve mucho o hay viento. Esta es la forma más segura y la que usa su nueva herramienta.

3. La solución: pmsims (El entrenador virtual)

En lugar de hacer miles de experimentos reales (que son caros y lentos), pmsims crea un mundo virtual.

  • Cómo funciona:
    1. Crea una simulación: El software inventa miles de pacientes virtuales con características realistas (como un videojuego de simulación de vida).
    2. Entrena al modelo: Le enseña al modelo con 10 pacientes, luego con 100, luego con 1,000...
    3. Dibuja una curva de aprendizaje: Imagina una gráfica donde la línea sube a medida que el modelo aprende. Al principio sube rápido, luego se hace plana.
    4. Usa un "GPS" inteligente (Gaussian Processes): En lugar de probar todos los números uno por uno (lo cual tardaría años), el software usa matemáticas avanzadas para "adivinar" dónde está el punto exacto donde la curva se estabiliza y el modelo se vuelve fiable. Es como usar un GPS que te dice: "No necesitas conducir hasta el kilómetro 100, el destino está en el 45".

4. ¿Por qué es importante?

Los autores probaron su herramienta comparándola con otras 7 métodos antiguos.

  • Resultado: ¡Los números variaban muchísimo! Un método decía que necesitabas 200 pacientes, otro decía 20,000.
  • La ventaja de pmsims: Es flexible. Funciona igual de bien si estás usando una fórmula matemática simple o una Inteligencia Artificial compleja (como redes neuronales). Además, permite al usuario decir: "Quiero que mi modelo sea bueno para predecir diabetes" o "Quiero que sea bueno para predecir cáncer", y calcula el número exacto para ese objetivo.

En resumen

Este artículo es como un manual de instrucciones para no desperdiciar recursos.

Antes, los científicos adivinaban cuántos datos necesitaban, como si cocinaran sin receta. Ahora, con pmsims, tienen una receta precisa que les dice exactamente cuántos ingredientes (datos) necesitan para que el pastel (el modelo médico) salga perfecto y seguro para los pacientes, evitando que el modelo sea un "memorizador" inútil o que se caiga como un puente mal construido.

Es una herramienta que hace que la medicina de precisión sea más eficiente, más barata y, sobre todo, más segura para todos nosotros.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →