Estimands and the Choice of Non-Inferiority Margin under ICH E9(R1)

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres abrir una nueva cafetería en tu ciudad. Para tener éxito, necesitas saber si tu café es tan bueno como el de la cafetería más famosa y establecida de la zona. No necesitas que tu café sea mejor que el de ellos, solo necesitas demostrar que no es significativamente peor. A esto se le llama un "ensayo de no inferioridad".

Pero aquí está el problema: ¿Cómo decides qué tan "peor" es aceptable? ¿Es aceptable que tu café tenga un 5% menos de sabor? ¿O un 10%? Esa línea imaginaria que defines como "el límite aceptable" es lo que los científicos llaman margen de no inferioridad.

Este artículo trata sobre cómo dibujar esa línea de manera justa y precisa, especialmente cuando las reglas del juego han cambiado recientemente gracias a una nueva guía internacional (ICH E9(R1)).

Aquí te lo explico con analogías sencillas:

1. El problema de la "Lupa" (El Estimando)

Antes, cuando los científicos querían medir el efecto de un medicamento (o de tu café), simplemente miraban el resultado final promedio. Pero ahora, con las nuevas reglas, debemos definir exactamente qué estamos midiendo y qué hacemos si algo sale mal durante el experimento. A esta definición precisa se le llama estimando.

Imagina que estás midiendo la velocidad de un corredor:

Escenario A (Política de tratamiento): Mides la velocidad del corredor tal como fue, incluso si se tropezó, se cayó o tuvo que parar a atarse los zapatos. El resultado incluye todos esos tropiezos.
Escenario B (Estrategia hipotética): Mides la velocidad del corredor como si nunca se hubiera tropezado ni se hubiera atado los zapatos. Es decir, "¿qué tan rápido habría corrido si todo hubiera salido perfecto?".

La lección clave del artículo: El margen de no inferioridad (tu límite de "aceptable") depende totalmente de qué lupa estés usando.

Si usas la lupa del "Escenario A" (con tropiezos), el margen será uno.
Si usas la lupa del "Escenario B" (sin tropiezos), el margen será otro, porque el rendimiento "perfecto" es diferente al rendimiento "real".

El artículo advierte: No puedes usar el mismo margen para dos preguntas diferentes. Sería como comparar la velocidad de un corredor profesional en una pista de atletismo con la velocidad de un corredor amateur en un camino de tierra y esperar que el límite de "aceptable" sea el mismo. ¡No tiene sentido!

2. La Trampa de los "Viajeros del Tiempo" (Datos Históricos)

Para saber si tu nueva cafetería es buena, miras los datos históricos de la cafetería famosa. Pero, ¿qué pasa si esos datos antiguos fueron tomados con reglas diferentes?

El artículo usa dos ejemplos (como dos historias diferentes) para ilustrar esto:

Ejemplo 1 (El caso de los datos perfectos): Imagina que la cafetería famosa (el tratamiento de referencia) tiene un registro histórico muy detallado donde saben exactamente qué preguntas hacían y cómo manejaban los tropiezos.
- El problema: Tu nueva cafetería quiere hacer una pregunta ligeramente diferente (quizás quieres ignorar los tropiezos, mientras que los datos antiguos los incluían).
- La solución: Tienes que ser muy cuidadoso. No puedes simplemente copiar el margen antiguo. Tienes que calcular un nuevo margen que se ajuste a tu pregunta específica, incluso si eso significa que el margen cambia un poco. Es como ajustar la receta de tu café porque ahora usas una taza diferente, aunque el grano sea el mismo.
Ejemplo 2 (El caso de los datos borrosos): Imagina que la cafetería famosa tiene registros antiguos donde no escribieron bien qué hacían cuando alguien se caía. No hay una definición clara.
- El problema: Tienes que adivinar (con mucha prudencia) qué significaban esos datos antiguos. ¿Incluían los tropiezos o no?
- La solución: Tienes que revisar viejos diarios, mapas y testimonios (protocolos antiguos, diagramas de flujo) para reconstruir la historia. Tienes que hacer suposiciones transparentes: "Asumimos que en el pasado hacían X, por lo tanto, nuestro margen será Y". Si no haces esto, podrías estar comparando manzanas con naranjas y engañarte a ti mismo.

3. La Analogía de la "Sensibilidad de la Prueba"

El artículo habla de "sensibilidad del ensayo". Imagina que tienes una balanza muy sensible para pesar oro.

Si la balanza está calibrada para medir oro puro (datos antiguos), pero tú intentas medir una aleación de oro y cobre (tu nuevo estudio con reglas diferentes), la balanza podría fallar.
Si las reglas cambian demasiado (por ejemplo, si en el pasado la gente tomaba un medicamento de rescate y ahora no, o viceversa), la "historia" del medicamento de referencia deja de ser válida para tu nuevo estudio. Es como intentar usar un mapa de la ciudad de hace 50 años para navegar hoy; las calles han cambiado y el mapa ya no sirve.

Conclusión: ¿Qué nos dice esto?

No hay una regla única: No puedes elegir un margen de no inferioridad (el límite de "aceptable") sin primero definir exactamente qué estás preguntando (el estimando).
La historia importa: Para saber si tu nuevo tratamiento es bueno, necesitas mirar los datos antiguos. Pero esos datos antiguos deben haber sido medidos con la misma "lupa" que tú usas hoy. Si no, tienes que ajustar la comparación.
Transparencia total: Si los datos antiguos son confusos (como en el Ejemplo 2), debes ser honesto y decir: "Estamos asumiendo esto porque no tenemos más información". No puedes ocultar las suposiciones.
Colaboración: Los estadísticos y los médicos deben trabajar juntos. Los médicos entienden el "sabor del café" (el contexto clínico) y los estadísticos entienden cómo medirlo sin equivocarse.

En resumen: Este artículo es una guía para evitar que los científicos se equivoquen al comparar tratamientos nuevos con los antiguos. Nos dice que, para que la comparación sea justa, debemos definir muy claramente las reglas del juego antes de empezar, y asegurarnos de que las reglas de hoy sean compatibles con las reglas de ayer. Si no lo hacemos, podríamos aprobar un medicamento que en realidad no es tan bueno como creemos, o rechazar uno que sí lo es.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Estimandos y la Elección del Margen de No Inferioridad bajo ICH E9(R1)

1. Planteamiento del Problema

Desde la publicación del adendo ICH E9(R1) sobre estimandos en ensayos clínicos, su aplicación ha recibido mucha atención en estudios de superioridad, pero ha sido significativamente menos explorada en ensayos de no inferioridad (NI).

La brecha regulatoria: Las guías regulatorias actuales para la derivación del margen de no inferioridad (como las de la FDA de 2016 y la EMA de 2000) fueron publicadas antes de ICH E9(R1). Por lo tanto, no reflejan cómo la elección del estimando (específicamente las estrategias para manejar eventos intercurrentes) influye en la evidencia histórica y en la suposición de constancia necesarias para derivar el margen.
El conflicto central: El margen de no inferioridad ( $M_2$ ) depende de la magnitud del efecto histórico del tratamiento de referencia frente al placebo ( $M_1$ ). Sin embargo, el efecto histórico ( $M_1$ ) es específico de un estimando. Si el ensayo de no inferioridad planificado utiliza un estimando diferente al de los estudios históricos (debido a diferentes estrategias para eventos intercurrentes como la discontinuación del tratamiento o el uso de otras intervenciones), el margen derivado podría ser inválido o inapropiado.
Riesgo de sensibilidad del ensayo (Assay Sensitivity): Si el estimando del ensayo histórico difiere del del ensayo actual, la suposición de que el tratamiento de referencia tiene un efecto conocido y constante se ve comprometida, poniendo en riesgo la capacidad del ensayo para distinguir un tratamiento efectivo de uno ineficaz.

2. Metodología

Los autores emplearon un enfoque mixto que combina simulaciones estadísticas y dos estudios de caso prácticos en el ámbito de la gestión del peso (obesidad).

Simulación de Viajes de Pacientes:
- Se generaron trayectorias de pacientes bajo un tratamiento de referencia y placebo en un escenario de gestión de peso.
- Se modeló un evento intercurrente único (irreversible) con diferentes frecuencias de ocurrencia.
- Se compararon dos estrategias de estimando: Política de Tratamiento (incluye el efecto de los eventos) vs. Hipotético (excluye el efecto, asumiendo que el evento no ocurrió).
- Objetivo: Cuantificar cómo la frecuencia del evento intercurrente y la estrategia elegida alteran el tamaño del efecto estimado y, por ende, el margen $M_1$ .
Estudio de Caso 1: Marco de Estimandos Explícito (Programa STEP):
- Contexto: Derivar el margen para un nuevo tratamiento de peso comparado con semaglutida (referencia).
- Datos: Se utilizaron resultados del programa de ensayos clínicos STEP (semaglutida), donde los estimandos están claramente definidos (Política de Tratamiento e Hipotético).
- Desafío: El ensayo planificado combina estrategias (Política para discontinuación, Hipotético para otras intervenciones), pero ningún ensayo histórico de STEP tiene exactamente esa combinación.
- Análisis: Se realizó un meta-análisis bayesiano de los ensayos STEP seleccionados para estimar $M_1$ bajo diferentes estrategias y se compararon los resultados.
Estudio de Caso 2: Marco de Estimandos No Explícito (Programa SCALE):
- Contexto: Derivar el margen para un nuevo tratamiento comparado con liraglutida (referencia).
- Datos: Se utilizaron ensayos históricos del programa SCALE (publicados antes de ICH E9(R1), 2013-2020), donde los estimandos no estaban explícitamente definidos.
- Desafío: Reconstruir retrospectivamente los estimandos probables basándose en protocolos, planes de análisis y diagramas de flujo CONSORT.
- Análisis: Se evaluó cómo se manejaban los datos post-evento (ej. LOCF, MMRM) para inferir si se alineaban con estrategias de política de tratamiento o hipotéticas, y se realizó un meta-análisis con las estimaciones más relevantes.

3. Contribuciones Clave

Dependencia del Estimando en el Margen: Demostración cuantitativa de que el margen de no inferioridad no es un valor fijo, sino que varía significativamente según la estrategia de manejo de eventos intercurrentes.
Impacto de la Frecuencia de Eventos: En la simulación, se mostró que incluso bajo una estrategia de "política de tratamiento", el tamaño del efecto estimado cambia a medida que varía la frecuencia del evento intercurrente. Esto implica que meta-análisis de estudios con diferentes tasas de eventos pueden no ser directamente comparables.
Guía para la Reconstrucción Retrospectiva: Proporciona un marco metodológico para inferir los estimandos en estudios históricos antiguos (pre-ICH E9(R1)) cuando la información no está explícita, analizando el manejo de datos faltantes y los criterios de población.
Identificación de la Violación de la Constancia: Ilustra cómo cambios en la definición de eventos intercurrentes (ej. el uso de otras intervenciones anti-obesidad que antes no se consideraban eventos) pueden violar la suposición de constancia, afectando la validez del margen.

4. Resultados Principales

Resultados de la Simulación:
- El efecto del tratamiento de referencia vs. placebo difiere sustancialmente entre el estimando hipotético y el de política de tratamiento.
- Para un estimando de política de tratamiento, el efecto estimado disminuye a medida que aumenta la frecuencia del evento intercurrente (ya que más pacientes "comportan" como el grupo placebo tras el evento).
- Conclusión: $M_1$ es específico del estimando. Un margen derivado de un estimando hipotético no es aplicable directamente a un ensayo con estimando de política de tratamiento.
Estudio de Caso 1 (STEP - Semaglutida):
- Meta-análisis de Política de Tratamiento: Efecto medio estimado de -10.9% (IC 95%: -13, -8.85). Margen $M_1$ sugerido: 8.85%.
- Meta-análisis Hipotético: Efecto medio estimado de -12.6% (IC 95%: -14.8, -10.3). Margen $M_1$ sugerido: 10.3%.
- Hallazgo: Dado que el ensayo planificado tiene un estimando híbrido, el efecto real de referencia se situaría entre ambos valores. Usar un único margen común para diferentes estimandos es inapropiado.
Estudio de Caso 2 (SCALE - Liraglutida):
- La reconstrucción retrospectiva reveló que los ensayos históricos utilizaban principalmente estrategias alineadas con la política de tratamiento (usando LOCF o análisis de intención de tratar con datos recuperados).
- Meta-análisis: El efecto estimado fue de -5.04% (IC 95%: -6.87, -2.94).
- Desafío: La falta de datos sobre la frecuencia de eventos intercurrentes en el pasado y el cambio en el contexto clínico (mayor disponibilidad de otras intervenciones hoy) introducen incertidumbre en la constancia. El margen derivado (-2.94%) es considerablemente más pequeño que en el caso de semaglutida, reflejando diferencias en los datos históricos y la población.

5. Significado y Recomendaciones

El artículo concluye que la determinación del margen de no inferioridad es tan sólida como la claridad de la evidencia histórica sobre la cual se basa.

Necesidad de Colaboración Funcional: La selección de ensayos históricos y la definición del margen deben involucrar una colaboración estrecha entre clínicos y estadísticos para asegurar que los estimandos históricos y actuales sean comparables.
Transparencia y Documentación:
- Los patrocinadores deben documentar explícitamente las suposiciones hechas al inferir estimandos en estudios históricos.
- Se debe realizar un análisis de sensibilidad para evaluar la robustez del margen frente a diferentes interpretaciones de los eventos intercurrentes.
Interacción Regulatoria: Es crucial discutir y acordar el margen con las agencias reguladoras antes de iniciar el ensayo, especialmente cuando se utilizan datos históricos antiguos o estimandos híbridos.
Actualización de Guías: Se insta a que las guías regulatorias y los manuales de síntesis de evidencia (como el de Cochrane) integren el marco de ICH E9(R1) para evitar la combinación de efectos de tratamiento definidos bajo estrategias implícitas diferentes.
Evitar Conservadurismo Automático: Asumir un margen conservador (basado en el peor escenario) sin justificación puede llevar a márgenes de no inferioridad irrazonablemente pequeños, haciendo que los ensayos sean imprácticos. La justificación debe ser razonada y transparente.

En resumen, el papel establece que el margen de no inferioridad debe ser derivado específicamente para el estimando del ensayo planificado, reconociendo que los cambios en la definición de eventos intercurrentes alteran fundamentalmente la evidencia histórica y la viabilidad del ensayo.

Estimands and the Choice of Non-Inferiority Margin under ICH E9(R1)

1. El problema de la "Lupa" (El Estimando)

2. La Trampa de los "Viajeros del Tiempo" (Datos Históricos)

3. La Analogía de la "Sensibilidad de la Prueba"

Conclusión: ¿Qué nos dice esto?

Resumen Técnico: Estimandos y la Elección del Margen de No Inferioridad bajo ICH E9(R1)

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado y Recomendaciones

Más como este

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM