Estimands and the Choice of Non-Inferiority Margin under ICH E9(R1)

本文通过模拟研究阐述了在 ICH E9(R1) 框架下,非劣效性试验中非劣效界值的选择必须反映目标估计量(estimand),并指出由于历史试验与当前试验在估计量定义或处理中断事件策略上的差异,可能导致基于历史证据推导的界值存在挑战。

Tobias Mütze, Helle Lynggaard, Sunita Rehal, Oliver N. Keene, Marian Mitroiu, David Wright

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常专业但至关重要的问题:在药物临床试验中,如何设定一个公平的“及格线”(非劣效性边界),特别是当我们要证明新药“不比旧药差”的时候。

为了让你轻松理解,我们可以把整个研究过程想象成**“选拔长跑运动员”**的故事。

1. 核心背景:什么是“非劣效性试验”?

想象一下,你是一家运动品牌(药企),研发了一款新跑鞋(新药)。你想证明它和市场上最火的旧款跑鞋(旧药/参考药)一样好,甚至更好。你不需要证明新鞋比旧鞋快很多(那是“优效性”),你只需要证明它**“没有比旧鞋慢太多”**。

这个“慢多少是可以接受的”界限,就是论文里说的**“非劣效性边界”(Non-Inferiority Margin)**。

  • 旧药 vs. 安慰剂(假药): 首先,我们要知道旧药到底比假药快多少。假设旧药比假药快 10 秒。
  • 设定边界: 如果新药只比旧药慢 1 秒,大家都能接受;但如果慢 5 秒,可能就不行了。这个"5 秒”就是我们要设定的边界。

2. 论文的核心发现:边界不是固定的,它取决于“怎么算”

这篇论文指出了一个以前被忽视的盲点:这个“及格线”(边界)并不是一个死数字,它完全取决于你如何定义“比赛规则”(即统计学上的“估计量 Estimand")。

比喻:不同的比赛规则,不同的成绩

想象我们要比较两支队伍(新药队 vs. 旧药队)的跑步成绩。但在跑步过程中,会发生一些意外(论文里叫**“伴随事件”**,Intercurrent Events),比如:

  • 事件 A: 运动员鞋带散了,停下来系鞋带(治疗中断)。
  • 事件 B: 运动员看到路边有更快的鞋店,跑去试穿别人的鞋(使用了其他抗肥胖药物)。

这时候,统计学家有两种处理这些意外的方法(策略):

  1. 策略一:不管发生什么,都算(治疗策略 Treatment Policy)

    • 规则: 就算你鞋带散了、或者中途去试了别人的鞋,只要最后冲过终点,你的时间都算数。
    • 结果: 这种算出来的成绩,反映了药物在真实世界中的效果(包含各种意外干扰)。
    • 论文发现: 如果按这个规则,旧药比假药快 8.85 秒
  2. 策略二:假设意外没发生(假设策略 Hypothetical)

    • 规则: 我们假设“如果鞋带没散”或者“如果没去试别人的鞋”,运动员本来能跑多快?我们要算的是这个“理想状态”下的成绩。
    • 结果: 这种算出来的成绩,反映了药物本身的潜力。
    • 论文发现: 如果按这个规则,旧药比假药快 10.3 秒

关键点来了:
你会发现,“及格线”变了!

  • 如果你用策略一,及格线可能是 8.85 秒。
  • 如果你用策略二,及格线可能是 10.3 秒。

论文结论: 如果你在设计新药试验时,没有明确说明你是按“策略一”还是“策略二”来算账,然后直接拿旧药的历史数据来定边界,那这个边界就是错的!就像用“理想状态”的成绩去定“真实世界”的及格线,要么太严,要么太松。

3. 论文的两个主要案例(减肥药的故事)

作者用两个真实的减肥药案例(Semaglutide 和 Liraglutide)来演示这个问题:

案例一:历史数据很完美,但规则对不上

  • 情境: 我们想测试一种新减肥药,参考药是 Semaglutide。
  • 问题: 过去的历史研究(STEP 试验)里,旧药的数据有两种算法(策略一和策略二)。但我们新试验的规则是混合的(一部分按策略一,一部分按策略二)。
  • 困境: 历史数据里没有直接对应我们新规则的“完美答案”。
  • 解决: 作者通过模拟和计算,发现新规则下的旧药效果应该介于 8.85 和 10.3 之间。最后,为了保险起见,他们选了一个更保守的数字(8.85)作为参考,并建议必须和监管机构(如药监局)商量好。

案例二:历史数据很模糊(像侦探破案)

  • 情境: 我们想测试另一种新减肥药,参考药是 Liraglutide。
  • 问题: 这些旧药的研究是几年前做的,那时候还没有“估计量”这个概念。现在的论文里根本没说清楚当时是怎么处理“鞋带散了”或“试穿别人鞋”的。
  • 侦探工作: 作者不得不像侦探一样,去翻旧论文、看流程图、查当时的统计方法,试图**“倒推”**出当年的规则。
    • 他们发现,有些研究虽然没明说,但用了某种统计方法,其实相当于“不管发生什么”(策略一)。
    • 有些研究可能相当于“假设没发生”(策略二)。
  • 结论: 即使拼凑出了大概的规则,不确定性依然很大。这就像用模糊的老照片去定新比赛的规则,必须非常小心,并且要承认这种模糊性。

4. 这篇论文想告诉我们什么?(简单总结)

  1. 没有“万能”的及格线: 以前大家可能觉得,只要参考药比假药好,定个固定的边界(比如旧药效果的 50%)就行。现在发现,这个边界必须和你具体的“比赛规则”(估计量)严格匹配。
  2. 规则变了,历史数据可能就不适用了: 如果新药试验的规则(比如怎么处理中途停药)和历史旧试验不一样,直接拿旧数据来定边界就是“张冠李戴”。
  3. 需要跨部门合作: 医生(懂临床)、统计师(懂算数)和监管机构(懂规则)必须坐在一起,把“比赛规则”和“及格线”在试验开始前就彻底谈清楚。
  4. 透明化很重要: 未来的临床试验报告必须把“规则”写得清清楚楚,不能像以前那样含糊其辞,否则后人(或监管机构)就没法判断这个药到底行不行。

一句话总结

这篇论文是在提醒药企和监管机构:在证明新药“不比旧药差”时,不能只看旧药跑得多快,还要看你们是用什么“规则”在跑。规则不同,成绩不同,及格线自然也不同。如果不统一规则,定出来的及格线就是不公平的。