Estimands and the Choice of Non-Inferiority Margin under ICH E9(R1)

본 논문은 ICH E9(R1) 에 따른 추정량 (estimand) 의 선택이 비열등성 마진 결정에 미치는 영향을 시뮬레이션과 사례를 통해 분석하며, 특히 과거 임상시험의 추정량과 현재 연구의 추정량이 일치하지 않거나 추정량 프레임워크가 적용되지 않았을 때 마진 설정이 직면하는 도전 과제를 조명합니다.

Tobias Mütze, Helle Lynggaard, Sunita Rehal, Oliver N. Keene, Marian Mitroiu, David Wright

게시일 Thu, 12 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏃‍♂️ 비유: "달리기 대회와 새로운 신발"

가상 상황을 상상해 보세요. 여러분은 **새로운 운동화 (새로운 약)**가 기존에 유명한 **브랜드 운동화 (기존 약)**보다 발이 아프지 않거나, 적어도 비슷하게 잘 달린다는 것을 증명해야 합니다.

1. 문제: "어떤 상황에서의 달리기인가?" (Estimand, 추정 대상)

연구를 할 때, 우리는 단순히 "달린 거리"만 재면 안 됩니다. 어떤 조건에서 달렸는지가 중요합니다.

  • 상황 A (가상 시나리오): "비 오는 날, 신발 끈이 풀려도 상관없이, 다른 신발을 신지 않고 끝까지 달린 결과"를 재는 것. (치료 중단이나 다른 약 사용 없이 순수하게 신발의 성능만 본다는 뜻)
  • 상황 B (현실 정책): "비 오는 날, 신발 끈이 풀려도 다시 묶어서 계속 달리고, 만약 너무 힘들면 다른 신발을 신어도 괜찮은, 실제 현실에서 어떻게 달렸는지"를 재는 것.

논문은 **"이 두 가지 상황 (시나리오) 은 완전히 다른 결과"**를 낸다고 말합니다.

  • 만약 '상황 A'를 기준으로 기존 약의 성능을 봤다면, 그 성능은 매우 뛰어날 것입니다.
  • 하지만 '상황 B'를 기준으로 봤다면, 신발 끈 풀림이나 다른 신발 사용으로 인해 평균 성능은 조금 떨어질 수 있습니다.

2. 핵심 발견: "기준선 (마진) 은 상황에 따라 달라진다"

이제 새로운 운동화를 기존 운동화와 비교할 때, **"얼마나 나빠도 괜찮은가?"**라는 기준선 (Non-inferiority Margin) 을 정해야 합니다.

  • 과거의 연구 (역사적 증거): 과거에 기존 운동화를 테스트할 때, 어떤 상황 (A 또는 B) 을 기준으로 했는지 명확하지 않거나, 기준이 달랐다면 문제가 생깁니다.
  • 논문의 경고: 만약 과거 연구가 '상황 A(이상적인 조건)'로 기존 운동화의 성능을 측정했는데, 우리가 새로운 연구를 '상황 B(현실적인 조건)'로 진행한다면, 과거의 기준선을 그대로 가져와서는 안 됩니다.
    • 마치 "프로 선수가 이상적인 날씨에 기록한 세계 기록을 기준으로, 일반인이 비 오는 날에 달릴 때의 허용 오차를 정하는 것"과 같습니다. 이는 너무 가혹하거나, 반대로 너무 관대할 수 있습니다.

3. 두 가지 사례 연구 (논문 속 예시)

저자들은 실제 비만 치료제 (체중 감량 약) 개발 상황을 예로 들었습니다.

  • 사례 1: 과거 연구가 명확한 경우 (STEP 연구)

    • 과거 연구들이 "어떤 조건 (실제 사용 vs 이상적 조건)"으로 약을 테스트했는지 명확히 기록되어 있었습니다.
    • 결과: 조건이 다르면 약의 효과 (기존 약이 위약보다 얼마나 잘 먹혔는지) 가 다르게 나왔습니다. 따라서 새로운 약을 평가할 때도, 우리가 정한 조건 (실제 사용 조건인지 이상적 조건인지) 에 맞는 과거 데이터를 골라야 기준선을 정확히 잡을 수 있었습니다.
  • 사례 2: 과거 연구가 불명확한 경우 (SCALE 연구)

    • 과거 연구들은 ICH E9(R1) 이라는 새로운 규칙이 생기기 전에 진행되어, "어떤 조건으로 측정했는지"가 명확하지 않았습니다.
    • 문제: 마치 "과거의 달리기 기록지가 '어떤 날씨에 달렸는지' 적혀 있지 않은 것"과 같습니다.
    • 해결: 연구자들은 과거 기록지를 꼼꼼히 뒤져 (논문, 임상시험 등록 정보 등), "아마도 이런 조건이었을 것이다"라고 **추측 (가정)**해야 했습니다. 이 추정이 잘못되면, 새로운 약이 실제로는 효과가 좋은데도 "비열등성"을 인정받지 못하거나, 반대로 효과가 없는 약이 승인받는 치명적인 오류가 날 수 있습니다.

💡 이 논문이 우리에게 주는 교훈

  1. 단순한 숫자가 아니다: 약의 효과를 숫자로만 비교하는 게 아니라, **"어떤 상황 (조건) 에서 그 숫자가 나왔는지"**를 먼저 정의해야 합니다. (이를 'Estimand'라고 합니다.)
  2. 과거는 과거다: 과거의 연구 데이터를 가져와서 새로운 기준을 정할 때, 과거 연구가 어떤 조건을 기준으로 했는지 확인하지 않으면 기준선 (마진) 이 엉망이 됩니다.
  3. 명확한 기록의 중요성: 앞으로는 임상시험을 할 때, "우리가 어떤 조건 (실제 사용 vs 이상적 조건) 으로 약을 평가했는지"를 명확하게 기록해야 합니다. 그래야 나중에 새로운 약을 개발할 때 그 데이터를 신뢰할 수 있기 때문입니다.

📝 한 줄 요약

"새로운 약이 기존 약보다 나쁘지 않다고 증명하려면, 과거의 기준선 (마진) 을 정할 때 '어떤 상황 (조건) 에서 측정했는지'를 반드시 맞춰야 한다. 그렇지 않으면 기준이 흔들려 잘못된 결론에 도달할 수 있다."

이 논문은 의약품 개발자들이 과거 데이터를 사용할 때 더 신중하고, 연구 설계 시 '조건'을 명확히 해야 함을 강력하게 주장하고 있습니다.