Estimands and the Choice of Non-Inferiority Margin under ICH E9(R1)

Each language version is independently generated for its own context, not a direct translation.

🏃‍♂️ 비유: "달리기 대회와 새로운 신발"

가상 상황을 상상해 보세요. 여러분은 **새로운 운동화 (새로운 약)**가 기존에 유명한 **브랜드 운동화 (기존 약)**보다 발이 아프지 않거나, 적어도 비슷하게 잘 달린다는 것을 증명해야 합니다.

1. 문제: "어떤 상황에서의 달리기인가?" (Estimand, 추정 대상)

연구를 할 때, 우리는 단순히 "달린 거리"만 재면 안 됩니다. 어떤 조건에서 달렸는지가 중요합니다.

상황 A (가상 시나리오): "비 오는 날, 신발 끈이 풀려도 상관없이, 다른 신발을 신지 않고 끝까지 달린 결과"를 재는 것. (치료 중단이나 다른 약 사용 없이 순수하게 신발의 성능만 본다는 뜻)
상황 B (현실 정책): "비 오는 날, 신발 끈이 풀려도 다시 묶어서 계속 달리고, 만약 너무 힘들면 다른 신발을 신어도 괜찮은, 실제 현실에서 어떻게 달렸는지"를 재는 것.

논문은 **"이 두 가지 상황 (시나리오) 은 완전히 다른 결과"**를 낸다고 말합니다.

만약 '상황 A'를 기준으로 기존 약의 성능을 봤다면, 그 성능은 매우 뛰어날 것입니다.
하지만 '상황 B'를 기준으로 봤다면, 신발 끈 풀림이나 다른 신발 사용으로 인해 평균 성능은 조금 떨어질 수 있습니다.

2. 핵심 발견: "기준선 (마진) 은 상황에 따라 달라진다"

이제 새로운 운동화를 기존 운동화와 비교할 때, **"얼마나 나빠도 괜찮은가?"**라는 기준선 (Non-inferiority Margin) 을 정해야 합니다.

과거의 연구 (역사적 증거): 과거에 기존 운동화를 테스트할 때, 어떤 상황 (A 또는 B) 을 기준으로 했는지 명확하지 않거나, 기준이 달랐다면 문제가 생깁니다.
논문의 경고: 만약 과거 연구가 '상황 A(이상적인 조건)'로 기존 운동화의 성능을 측정했는데, 우리가 새로운 연구를 '상황 B(현실적인 조건)'로 진행한다면, 과거의 기준선을 그대로 가져와서는 안 됩니다.
- 마치 "프로 선수가 이상적인 날씨에 기록한 세계 기록을 기준으로, 일반인이 비 오는 날에 달릴 때의 허용 오차를 정하는 것"과 같습니다. 이는 너무 가혹하거나, 반대로 너무 관대할 수 있습니다.

3. 두 가지 사례 연구 (논문 속 예시)

저자들은 실제 비만 치료제 (체중 감량 약) 개발 상황을 예로 들었습니다.

사례 1: 과거 연구가 명확한 경우 (STEP 연구)
- 과거 연구들이 "어떤 조건 (실제 사용 vs 이상적 조건)"으로 약을 테스트했는지 명확히 기록되어 있었습니다.
- 결과: 조건이 다르면 약의 효과 (기존 약이 위약보다 얼마나 잘 먹혔는지) 가 다르게 나왔습니다. 따라서 새로운 약을 평가할 때도, 우리가 정한 조건 (실제 사용 조건인지 이상적 조건인지) 에 맞는 과거 데이터를 골라야 기준선을 정확히 잡을 수 있었습니다.
사례 2: 과거 연구가 불명확한 경우 (SCALE 연구)
- 과거 연구들은 ICH E9(R1) 이라는 새로운 규칙이 생기기 전에 진행되어, "어떤 조건으로 측정했는지"가 명확하지 않았습니다.
- 문제: 마치 "과거의 달리기 기록지가 '어떤 날씨에 달렸는지' 적혀 있지 않은 것"과 같습니다.
- 해결: 연구자들은 과거 기록지를 꼼꼼히 뒤져 (논문, 임상시험 등록 정보 등), "아마도 이런 조건이었을 것이다"라고 **추측 (가정)**해야 했습니다. 이 추정이 잘못되면, 새로운 약이 실제로는 효과가 좋은데도 "비열등성"을 인정받지 못하거나, 반대로 효과가 없는 약이 승인받는 치명적인 오류가 날 수 있습니다.

💡 이 논문이 우리에게 주는 교훈

단순한 숫자가 아니다: 약의 효과를 숫자로만 비교하는 게 아니라, **"어떤 상황 (조건) 에서 그 숫자가 나왔는지"**를 먼저 정의해야 합니다. (이를 'Estimand'라고 합니다.)
과거는 과거다: 과거의 연구 데이터를 가져와서 새로운 기준을 정할 때, 과거 연구가 어떤 조건을 기준으로 했는지 확인하지 않으면 기준선 (마진) 이 엉망이 됩니다.
명확한 기록의 중요성: 앞으로는 임상시험을 할 때, "우리가 어떤 조건 (실제 사용 vs 이상적 조건) 으로 약을 평가했는지"를 명확하게 기록해야 합니다. 그래야 나중에 새로운 약을 개발할 때 그 데이터를 신뢰할 수 있기 때문입니다.

📝 한 줄 요약

"새로운 약이 기존 약보다 나쁘지 않다고 증명하려면, 과거의 기준선 (마진) 을 정할 때 '어떤 상황 (조건) 에서 측정했는지'를 반드시 맞춰야 한다. 그렇지 않으면 기준이 흔들려 잘못된 결론에 도달할 수 있다."

이 논문은 의약품 개발자들이 과거 데이터를 사용할 때 더 신중하고, 연구 설계 시 '조건'을 명확히 해야 함을 강력하게 주장하고 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

배경: ICH E9(R1) 부록 (Estimands) 이 도입된 이후, 우월성 (Superiority) 시험에서는 추정량 (Estimand) 프레임워크의 적용에 대한 논의가 활발했으나, 비열등성 (Non-Inferiority, NI) 시험에서는 상대적으로 간과되어 왔습니다.
핵심 쟁점: Lynggaard 등 (2024) 의 연구에 따르면 "비열등성 마진 (Non-inferiority margin) 의 선택은 선택된 추정량에 반영되어야 한다"는 결론이 나왔습니다. 그러나 현재 FDA 및 EMA 의 비열등성 마진 도출에 관한 규제 가이드라인은 ICH E9(R1) 이전의 것으로, 추정량 (특히 간섭 사건 처리 전략) 이 역사적 증거와 일관성 가정 (Constancy assumption) 에 미치는 영향을 고려하지 않고 있습니다.
구체적 문제:
- 역사적 시험 (참조 치료제 vs 위약) 에서 도출된 치료 효과 ( $M_1$ ) 는 특정 추정량에 의존적입니다.
- 간섭 사건 (Intercurrent Events, IE) 처리 전략 (예: 치료 정책 vs 가설적) 이 다르면 추정된 치료 효과 크기가 달라지며, 이는 최종 비열등성 마진 ( $M_2$ ) 에 직접적인 영향을 미칩니다.
- 과거 시험들이 추정량 프레임워크를 명시적으로 사용하지 않았거나, 새로운 시험의 추정량과 역사적 시험의 추정량이 일치하지 않을 경우, 적절한 마진을 설정하기가 매우 어렵습니다.

2. 방법론 (Methodology)

이 논문은 시뮬레이션과 두 가지 실제 사례 (Weight Management, 체중 감량) 를 통해 추정량과 비열등성 마진 간의 관계를 규명했습니다.

A. 시뮬레이션 (Section 2)

설계: 체중 감량 치료제를 가정하여 참조 치료제와 위약군의 환자 궤적을 시뮬레이션했습니다.
변수:
- 간섭 사건 (IE): "다른 비만 치료제 사용" 또는 "치료 중단".
- 처리 전략: 치료 정책 (Treatment Policy) vs 가설적 (Hypothetical).
- IE 발생 빈도 변화에 따른 치료 효과의 변동을 관찰했습니다.
목적: IE 처리 전략과 빈도가 추정량 (Treatment effect) 에 어떻게 영향을 미치는지 정량화하여, $M_1$ (역사적 치료 효과) 가 추정량에 따라 달라짐을 입증했습니다.

B. 사례 연구 1: 역사적 시험이 추정량 프레임워크를 적용한 경우 (Section 3)

대상: STEP 임상 시험 프로그램 (Semaglutide 2.4mg vs 위약).
상황: 새로운 비열등성 시험의 추정량은 '치료 중단은 치료 정책으로, 다른 비만 치료제 사용은 가설적 (사용하지 않은 것으로 가정) 으로' 처리합니다.
분석:
- STEP 시험들은 두 가지 추정량 (모두 치료 정책, 모두 가설적) 을 보고했습니다.
- 새로운 시험의 추정량과 정확히 일치하는 역사적 데이터가 없으므로, 메타분석을 통해 두 가지 추정량 ( $M_1$ ) 을 각각 도출하고 비교했습니다.
- Bayesian 메타분석을 사용하여 각 추정량별 평균 치료 효과와 신뢰 구간을 산출했습니다.

C. 사례 연구 2: 역사적 시험이 추정량 프레임워크를 적용하지 않은 경우 (Section 4)

대상: SCALE 임상 시험 프로그램 (Liraglutide 3.0mg vs 위약, ICH E9(R1) 이전 수행).
상황: 새로운 시험의 추정량 (치료 정책 + 가설적) 을 설정하려 하지만, 역사적 시험의 추정량이 명시되지 않거나 불완전합니다.
분석:
- 공개된 논문, 프로토콜, CONSORT 도표, 통계 분석 계획서 (SAP) 를 심층 검토하여 과거 시험의 추정량을 역추정 (Retrospective estimation) 했습니다.
- 결측치 처리 방법 (LOCF, MMRM 등) 과 간섭 사건 (치료 중단 등) 을 어떻게 다뤘는지 추론하여, 어떤 추정량 전략에 가장 근접한지 판단했습니다.
- 이를 바탕으로 메타분석에 포함할 데이터와 $M_1$ 값을 선정했습니다.

3. 주요 기여 (Key Contributions)

추정량 의존성 입증: 비열등성 마진 ( $M_1$ ) 은 고정된 값이 아니라, 선택된 추정량 (특히 간섭 사건 처리 전략) 에 따라 달라진다는 것을 시뮬레이션과 실제 데이터를 통해 명확히 증명했습니다.
마진 도출 프로세스 제안:
- 역사적 시험이 추정량을 명시한 경우: 새로운 시험의 추정량과 가장 근접한 역사적 추정량을 선택하거나, 불일치 시 보수적 접근 (예: 더 작은 $M_1$ 선택) 을 제안했습니다.
- 역사적 시험이 추정량을 명시하지 않은 경우: 프로토콜, 분석 방법, 간섭 사건 빈도 등을 종합적으로 검토하여 추정량을 역추정하고, 이를 메타분석에 반영하는 구체적인 절차를 제시했습니다.
규제 가이드라인과의 연계: 2025 년 EMA 초안 가이드라인이 추정량을 고려하도록 권고하고 있음을 언급하며, 규제 기관과의 사전 합의를 통해 마진을 결정해야 함을 강조했습니다.
메타분석의 함의: Cochrane 리뷰 등 기존 메타분석이 서로 다른 추정량 전략을 혼합하여 사용할 경우, 비열등성 마진 도출에 오류를 초래할 수 있음을 지적했습니다.

4. 주요 결과 (Results)

시뮬레이션 결과: 간섭 사건 발생 빈도가 증가할수록 치료 정책 (Treatment Policy) 추정량의 치료 효과 크기는 감소하는 반면, 가설적 (Hypothetical) 추정량은 일정하게 유지되었습니다. 이는 동일한 치료라도 처리 전략에 따라 $M_1$ 값이 달라질 수 있음을 보여줍니다.
STEP 시험 (사례 1) 결과:
- 치료 정책 추정량 기반 $M_1$ : -10.9% (95% CI: -13, -8.85)
- 가설적 추정량 기반 $M_1$ : -12.6% (95% CI: -14.8, -10.3)
- 결론: 새로운 시험의 추정량은 두 전략의 혼합 형태이므로, 실제 $M_1$ 은 두 값 사이 (-10.3 ~ -8.85) 에 위치할 가능성이 높습니다. 보수적으로 접근할 경우 더 작은 값 (-8.85) 을 마진 설정에 사용할 수 있습니다.
SCALE 시험 (사례 2) 결과:
- 과거 시험의 분석 방법 (LOCF, MMRM 등) 을 분석하여 치료 정책 전략에 해당하는 결과를 도출했습니다.
- 메타분석 결과, 치료 정책 기반 $M_1$ 은 -5.04% (95% CI: -6.87, -2.94) 로 산출되었습니다.
- 도전 과제: 과거 시험에서는 '다른 비만 치료제 사용'을 간섭 사건으로 간주하지 않았으나, 새로운 시험에서는 이를 고려해야 하므로 일관성 가정 (Constancy assumption) 위반 가능성이 제기되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

핵심 메시지: 비열등성 마진의 강도는 역사적 증거의 명확성에 달려 있습니다. 역사적 시험의 추정량이 불명확하거나 일관되지 않으면, 그 불확실성을 인정하고 민감도 분석 (Sensitivity analysis) 을 통해 대응해야 합니다.
실무적 권고:
1. 비열등성 마진 ( $M_2$ ) 은 반드시 주 추정량 (Primary Estimand) 과 명시적으로 연결되어야 합니다.
2. 임상가와 통계학자가 협력하여 역사적 시험의 추정량을 재구성하고, 메타분석에 적합한 데이터를 선정해야 합니다.
3. 역사적 시험의 추정량 불일치로 인한 한계와 가정 (Assumptions) 을 프로토콜에 투명하게 문서화해야 합니다.
4. 시험 시작 전 규제 기관과 마진 설정에 대해 합의 (Agreement) 를 이루어야 합니다.
미래 전망: ICH E9(R1) 프레임워크가 메타분석 및 증거 종합 방법론 (예: Cochrane 핸드북) 에 완전히 통합될 때까지, 연구자들은 추정량과 간섭 사건 처리 전략의 차이를 구분하여 데이터를 해석하는 데 각별한 주의가 필요합니다.

이 논문은 ICH E9(R1) 시대에서 비열등성 시험을 설계할 때, 단순한 통계적 계산이 아닌 추정량의 개념적 정합성이 마진 설정의 핵심 요소임을 강조하며, 이를 위한 체계적인 접근법을 제시했다는 점에서 큰 의의를 가집니다.