Estimands and the Choice of Non-Inferiority Margin under ICH E9(R1)

Each language version is independently generated for its own context, not a direct translation.

🍎 Der große Abnehm-Wettbewerb: Warum die Messlatte genau eingestellt werden muss

Stellen Sie sich vor, Sie wollen einen neuen, besseren Abnehm-Tee entwickeln. Sie wissen, dass es bereits einen sehr erfolgreichen Tee gibt (nennen wir ihn „Semaglutid-Tee"). Ihr Ziel ist es nicht, den alten Tee zu schlagen (das wäre ein „Überlegenheits-Test"), sondern nur zu beweisen, dass Ihr neuer Tee mindestens genauso gut ist wie der alte. Das nennt man einen „Non-Inferiority"-Test (Nicht-Unterlegenheits-Test).

Aber wie stellen Sie sicher, dass Ihr neuer Tee wirklich gut ist? Sie müssen eine Messlatte ziehen. Wenn Ihr Tee nur 1 % schlechter ist als der alte, ist das okay? Oder muss er 10 % schlechter sein, damit man sagt: „Nein, das ist zu viel Unterschied"?

Dieser Artikel dreht sich genau um diese Frage: Wie hoch darf diese Messlatte (der „Nicht-Unterlegenheits-Margin") eigentlich sein?

1. Das Problem: Die Messlatte hängt von der Frage ab

Früher dachte man: „Die Messlatte ist fest." Aber die Autoren sagen: Nein, die Messlatte hängt davon ab, was genau Sie messen wollen.

Stellen Sie sich vor, Sie messen den Erfolg eines Abnehm-Programms.

Szenario A (Die „Was-wäre-wenn"-Frage): Wir messen nur, wie viel Gewicht die Leute verlieren, wenn sie den Tee bis zum Ende trinken und nichts anderes tun. (Das nennt man im Artikel „hypothetische Strategie").
Szenario B (Die „Realitäts"-Frage): Wir messen, wie viel Gewicht die Leute verlieren, auch wenn sie den Tee abbrechen oder zwischendurch noch andere Pillen nehmen. (Das nennt man „Behandlungs-Politik-Strategie").

Die Analogie:
Stellen Sie sich vor, Sie testen ein neues Auto.

Im Szenario A messen Sie nur die Höchstgeschwindigkeit auf einer perfekten Rennstrecke ohne Stau.
Im Szenario B messen Sie die Durchschnittsgeschwindigkeit im echten Berufsverkehr, inklusive Staus und roten Ampeln.

Der Unterschied zwischen den beiden Geschwindigkeiten ist riesig! Wenn Sie nun einen neuen Motor testen wollen, müssen Sie wissen: Wollen wir wissen, ob er auf der Rennstrecke mithält (Szenario A) oder ob er im Stau mithält (Szenario B)? Die „Messlatte" für den neuen Motor muss sich daran orientieren, welche Frage wir stellen.

2. Der historische Rückblick: Alte Daten sind oft unklar

Um die Messlatte für Ihren neuen Tee zu bestimmen, schauen Sie sich an, wie gut der alte Tee in der Vergangenheit funktioniert hat. Hier liegt das Problem:

Bei neuen Studien (wie den STEP-Studien): Die Forscher haben genau festgelegt, wie sie mit „Störungen" umgehen (z. B. wenn jemand den Tee absetzt). Sie haben zwei verschiedene Messergebnisse: eines für die „perfekte Welt" und eines für die „echte Welt".
Bei alten Studien (wie den SCALE-Studien): Diese wurden vor der neuen Regel (ICH E9(R1)) gemacht. Die Forscher haben oft nicht genau geschrieben, ob sie die „perfekte Welt" oder die „echte Welt" gemessen haben. Es ist wie ein Kochrezept von vor 20 Jahren, bei dem steht: „Etwas Salz hinzufügen." Wie viel? Ein Messlöffel? Eine Prise?

Das Dilemma:
Wenn Sie versuchen, die alte Messlatte für Ihren neuen Test zu berechnen, aber die alten Daten unklar sind, landen Sie in einer Grauzone.

Nehmen wir den alten „perfekten" Wert: Dann ist die Messlatte sehr hoch (der neue Tee muss fast genauso gut sein wie der alte in der perfekten Welt). Das ist sehr schwer zu erreichen.
Nehmen wir den alten „echten" Wert: Dann ist die Messlatte niedriger (der neue Tee darf etwas schlechter sein, weil er auch Staus mitmacht). Das ist leichter zu erreichen.

Der Artikel zeigt: Wenn Sie die falsche Messlatte wählen, weil Sie die alte Studie falsch interpretiert haben, können Sie entweder einen schlechten Tee durchwinken (zu niedrige Latte) oder einen guten Tee ablehnen (zu hohe Latte).

3. Die Lösung: Genau hinsehen und gemeinsam entscheiden

Die Autoren schlagen vor, dass wir nicht einfach blind auf alte Zahlen schauen dürfen. Wir müssen wie Detektive arbeiten:

Die Frage klären: Was wollen wir eigentlich messen? (Die „perfekte Welt" oder die „echte Welt"?)
Die alten Daten prüfen: Können wir aus den alten Studien herausfinden, was sie eigentlich gemessen haben? Oft müssen wir Annahmen treffen („Wir gehen davon aus, dass sie die echte Welt gemessen haben, weil...").
Vorsicht bei Annahmen: Wenn wir Annahmen treffen müssen, müssen wir diese offenlegen. Es ist wie beim Bauen eines Hauses: Wenn Sie nicht genau wissen, wie fest der Boden ist, müssen Sie vorsichtig sein und vielleicht ein Fundament bauen, das für beide Fälle reicht.

4. Die wichtigsten Erkenntnisse in Kürze

Keine Einheitsgröße: Es gibt nicht die eine richtige Messlatte für alle Abnehm-Studien. Die Latte ändert sich je nachdem, wie man mit Unterbrechungen (z. B. wenn Patienten die Studie abbrechen) umgeht.
Vergangenheit ist unklar: Viele alte Studien haben diese Feinheiten nicht dokumentiert. Das macht es schwierig, die richtige Messlatte für neue Studien zu finden.
Transparenz ist alles: Forscher und Behörden (wie die EMA oder FDA) müssen genau besprechen: „Wir nehmen diese Messlatte, weil wir annehmen, dass die alten Studien so und so gemessen haben."
Kein „Sicherheits-Schuss": Man sollte nicht einfach immer die „konservativste" (strengste) Messlatte wählen, nur um auf Nummer sicher zu gehen. Das könnte dazu führen, dass gute neue Medikamente abgelehnt werden, weil die Messlatte zu hoch gesetzt wurde.

Fazit

Dieser Artikel ist im Grunde eine Warnung und eine Anleitung: Seien Sie nicht blind bei der Suche nach Vergleichen.

Wenn Sie einen neuen Abnehm-Tee testen wollen, müssen Sie genau wissen, was Sie messen. Und wenn Sie auf alte Daten zurückgreifen, um zu wissen, wie gut der alte Tee war, müssen Sie genau prüfen, unter welchen Bedingungen diese Daten entstanden sind. Nur so können Sie eine faire Messlatte ziehen, die sicherstellt, dass nur wirklich gute neue Medikamente auf den Markt kommen.

Kurz gesagt: Die Messlatte ist kein festes Lineal, sondern ein verstellbares Lineal, das Sie je nach Fragestellung neu einstellen müssen. Und wenn Sie alte Messungen nutzen, müssen Sie genau wissen, wie die alten Leute ihr Lineal eingestellt haben.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des vorliegenden Papiers auf Deutsch:

Titel

Estimands und die Wahl der Nicht-Unterlegenheitsmarge unter ICH E9(R1)

1. Problemstellung

Seit der Veröffentlichung des ICH E9(R1)-Addendums zu „Estimands" (Schätzziele) und Sensitivitätsanalysen in klinischen Studien hat die Anwendung dieses Rahmens in Studien zur Nicht-Unterlegenheit (Non-Inferiority, NI) deutlich weniger Aufmerksamkeit erhalten als in Studien zur Überlegenheit.

Ein zentrales Problem besteht darin, dass die aktuellen regulatorischen Leitlinien zur Herleitung der Nicht-Unterlegenheitsmarge (z. B. FDA 2016, EMA 2000) vor ICH E9(R1) erstellt wurden. Sie berücksichtigen nicht, wie das gewählte Estimand die historische Evidenz und die Konstanzannahme (Constancy Assumption) beeinflusst, die für die Bestimmung der Marge entscheidend sind.

Die Nicht-Unterlegenheitsmarge ( $M$ $M$ ) setzt sich aus zwei Komponenten zusammen:
- $M_1$ : Der historische Effekt des Referenzpräparats gegenüber Placebo (basierend auf Meta-Analysen historischer Studien).
- $M_2$ : Der klinisch akzeptable Verlust des Effekts des Testpräparats gegenüber dem Referenzpräparat.
Kernkonflikt: Der historische Effekt ( $M_1$ ) hängt stark davon ab, wie in den historischen Studien mit interkurrenten Ereignissen (z. B. Therapieabbruch, Nutzung anderer Medikamente) umgegangen wurde. Da verschiedene Strategien (z. B. „Treatment Policy" vs. „Hypothetical") zu unterschiedlichen Effektgrößen führen, ist die Wahl der Marge ohne Berücksichtigung des spezifischen Estimands des geplanten NI-Tests irreführend.

2. Methodik

Die Autoren untersuchen den Einfluss des Estimands auf die Marge durch drei Hauptansätze:

Simulationen:
- Ein Szenario aus dem Bereich Gewichtsmanagement wurde simuliert (150.000 Patienten pro Arm).
- Es wurde ein interkurrentes Ereignis modelliert, dessen Wahrscheinlichkeit variiert wurde.
- Untersucht wurden zwei Strategien:
  - Treatment Policy: Das Ereignis wird im Effekt berücksichtigt (Realwelt-Szenario).
  - Hypothetical: Das Szenario „wäre das Ereignis nicht eingetreten" wird geschätzt.
- Ziel war es zu zeigen, wie sich die Häufigkeit des Ereignisses und die gewählte Strategie auf den geschätzten Behandlungseffekt auswirken.
Fallbeispiel 1: Historische Studien mit definiertem Estimand (STEP-Studien):
- Analyse des STEP-Programms (Semaglutid 2,4 mg) zur Gewichtsreduktion.
- Die historischen Studien definierten explizit zwei Estimands (Treatment Policy und Hypothetical).
- Eine geplante neue NI-Studie hat jedoch ein gemischtes Estimand (Therapieabbruch: Treatment Policy; Nutzung anderer Anti-Adipositas-Mittel: Hypothetical).
- Es wurde eine Bayes'sche Meta-Analyse durchgeführt, um $M_1$ für beide historischen Estimands zu berechnen und die Diskrepanz zum Ziel-Estimand der neuen Studie zu quantifizieren.
Fallbeispiel 2: Historische Studien ohne definiertes Estimand (SCALE-Studien):
- Analyse historischer Studien zu Liraglutid 3,0 mg, die vor ICH E9(R1) durchgeführt wurden.
- Da die Estimands nicht explizit definiert waren, wurde ein Prozess zur retrospektiven Rekonstruktion entwickelt.
- Dazu wurden Protokolle, statistische Analysepläne, CONSORT-Diagramme und die Art der Behandlung fehlender Daten (z. B. LOCF vs. MMRM) analysiert, um die wahrscheinlich zugrunde liegende Strategie abzuleiten.

3. Wichtige Beiträge und Ergebnisse

A. Simulationsergebnisse

Die Simulationen zeigten, dass der Behandlungseffekt (Referenz vs. Placebo) stark von der Häufigkeit interkurrenter Ereignisse abhängt, wenn eine Treatment-Policy-Strategie verwendet wird.
Bei einer Hypothetical-Strategie bleibt der Effekt unabhängig von der Ereignishäufigkeit konstant (da das Szenario „ohne Ereignis" simuliert wird).
Fazit: Selbst wenn Studien formal ähnliche Fragen stellen, können unterschiedliche Häufigkeiten interkurrenter Ereignisse zu unterschiedlichen $M_1$ -Werten führen. Die Marge ist also estimandspezifisch.

B. Fallbeispiel 1 (STEP-Studien)

Die Meta-Analyse der STEP-Studien ergab signifikant unterschiedliche $M_1$ $M_{1}$ -Werte:
- Für das Treatment-Policy-Estimand: $M_1 \approx 8,85\%$ (unteres 95%-Credible-Interval).
- Für das Hypothetical-Estimand: $M_1 \approx 10,3\%$ .
Da die geplante NI-Studie ein gemischtes Estimand hat, liegt der wahre historische Effekt wahrscheinlich zwischen diesen Werten.
Erkenntnis: Die Wahl der Marge hängt direkt davon ab, welches Estimand in der historischen Evidenz und im neuen Trial definiert ist. Ein pauschaler Wert ist nicht haltbar.

C. Fallbeispiel 2 (SCALE-Studien)

Bei historischen Studien ohne explizites Estimand ist die Rekonstruktion schwierig, aber notwendig.
Durch Analyse der statistischen Methoden (z. B. LOCF impliziert oft Treatment Policy, MMRM ohne Off-Treatment-Daten impliziert oft Hypothetical) konnten plausible Annahmen getroffen werden.
Die Meta-Analyse basierend auf den rekonstruierten Treatment-Policy-Ergebnissen ergab eine $M_1$ von ca. $2,94%$.
Herausforderung: Änderungen im klinischen Umfeld (z. B. Verfügbarkeit anderer Anti-Adipositas-Mittel heute vs. damals) verletzen die Konstanzannahme. Dies muss bei der Festlegung von $M_2$ (klinische Akzeptanz) berücksichtigt werden.

D. Allgemeine Schlussfolgerungen

Die Assay Sensitivity (Fähigkeit des Tests, einen wirksamen von einem unwirksamen Effekt zu unterscheiden) ist gefährdet, wenn das Estimand in historischen Studien nicht mit dem des neuen NI-Trials übereinstimmt.
Eine konservative Annahme (z. B. immer den kleinsten historischen Effekt wählen) ist nicht immer ratsam, da sie zu unrealistisch kleinen Margen und damit zu undurchführbaren Studien führen kann.
Die Transparenz bei der Dokumentation der Annahmen über historische Estimands ist entscheidend.

4. Signifikanz und Empfehlungen

Das Papier liefert einen methodischen Rahmen, um die Lücke zwischen dem ICH E9(R1)-Rahmenwerk und der praktischen Bestimmung von Nicht-Unterlegenheitsmargen zu schließen.

Wichtige Empfehlungen der Autoren:

Verknüpfung: Die Nicht-Unterlegenheitsmarge ( $M_2$ ) muss explizit mit dem primären Estimand verknüpft werden, da $M_1$ estimandabhängig ist.
Interdisziplinäre Zusammenarbeit: Statistiker und Kliniker müssen gemeinsam historische Studien identifizieren und deren Relevanz für das neue Estimand bewerten.
Sensitivitätsanalysen: Es müssen Sensitivitätsanalysen durchgeführt werden, um die Robustheit der Meta-Analyse gegenüber Unsicherheiten in den historischen Estimands zu prüfen.
Dokumentation: Alle Annahmen zur Rekonstruktion historischer Estimands (insbesondere bei alten Studien) müssen transparent dokumentiert werden.
Regulatorische Abstimmung: Die Wahl der Marge sollte vor Studienbeginn mit den Aufsichtsbehörden (z. B. EMA, FDA) diskutiert und vereinbart werden.
Zukunft: Historische Studien sollten in Zukunft so berichtet werden, dass die Estimands und die Verteilung interkurrenter Ereignisse klar ersichtlich sind, um zukünftige NI-Studien zu erleichtern.

Zusammenfassend zeigt das Paper, dass die Nicht-Unterlegenheitsmarge kein statischer, universeller Wert ist, sondern dynamisch von der Definition des klinischen Ziels (Estimand) und der historischen Evidenzbasis abhängt. Die Ignorierung dieses Zusammenhangs kann zu falschen Schlussfolgerungen über die Wirksamkeit neuer Therapien führen.