Beyond Consistency: Inference for the Relative risk functional in Deep Nonparametric Cox Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个在医学统计和人工智能交叉领域的大难题：如何让我们用“黑盒”般的深度学习模型（Deep Neural Networks）来预测疾病风险时，不仅能给出预测结果，还能像传统统计方法一样，自信地告诉医生“这个预测有多准”以及“误差有多大”。

为了让你轻松理解，我们可以把这篇论文的故事拆解成几个生动的场景：

1. 背景：医生、黑盒与“盲人摸象”

想象一下，医生需要预测癌症病人的生存时间。

传统方法（Cox 模型）：像是一个经验丰富的老中医，他有一个固定的公式（比如：年龄 + 吸烟量=风险）。虽然公式简单，但他能清楚地告诉你：“这个预测有 95% 的把握是对的，误差范围是 X。”
深度学习方法（DNN）：像是一个天才但神秘的“黑盒”AI。它通过观察海量数据，自己学会了极其复杂的规律（比如：年龄和吸烟量在特定组合下会产生意想不到的化学反应）。它的预测通常更准（因为它能发现非线性规律），但问题是：它是个“黑盒”，没人知道它是怎么算出来的，也没法直接算出它的误差范围。 医生不敢用，因为如果 AI 说“这人能活 10 年”，医生不知道是“稳如泰山”还是“纯属瞎蒙”。

这篇论文的目标：就是给这个“黑盒”AI 装上一个“透明仪表盘”，让它既能保持高智商（高预测精度），又能像老中医一样给出可信的误差范围（统计推断）。

2. 核心难题：三个拦路虎

作者指出，给 AI 做“体检”（统计推断）有三个巨大的困难：

训练误差的“蝴蝶效应”：AI 是通过不断试错（梯度下降）来学习的，它学到的答案往往不是“完美答案”，而是一个“近似答案”。这个微小的“不完美”在复杂的数学世界里会被放大，导致我们算不准它的最终风险。
偏差控制：AI 有时候为了拟合数据，会“过度学习”（过拟合），导致它在某些点上预测得偏了。如果不把这种“偏见”修正掉，算出来的置信区间就是错的。
不确定性量化：怎么知道 AI 的预测是稳的？传统的“自助法”（Bootstrap，即重复抽样）在 AI 这种高维模型里计算量太大，而且效果不好。

3. 解决方案：三个“魔法道具”

作者提出了一套名为 ESM（集成子采样学习器） 的新方法，用了三个巧妙的策略：

道具一：建立“优化 - 风险”的桥梁

比喻：想象你在爬一座山（寻找最优解）。传统的理论假设你必须爬到山顶（完美解）才能算出高度。但 AI 训练时往往只爬到半山腰的一个小平台（近似解）。
做法：作者证明，即使你只爬到了半山腰（存在优化误差），只要这个误差在可控范围内，它对你最终预测风险的影响也是有限的。他们建立了一个公式，把“爬山的误差”和“最终预测的误差”联系了起来，告诉我们：只要爬得够近，半山腰的景色也能代表山顶。

道具二：给 AI 戴上“紧箍咒”（偏差校准）

比喻：AI 有时候太“聪明”了，会记住数据里的噪音（比如把某个病人的偶然特征当成规律）。这就像学生死记硬背了考题，但换个题目就不会了。
做法：作者设计了一种特殊的网络结构，并故意让网络“稍微欠拟合”一点（Undersmoothing）。这就好比故意让 AI 少背一点题，多留点余地。虽然这会让它在训练数据上稍微“笨”一点点，但能确保它在面对新病人时，不会因为死记硬背而产生巨大的偏差。这是为了换取更准确的统计推断。

道具三：组建“专家委员会”（子采样集成）

比喻：这是最精彩的部分。与其让一个 AI 独自做决定，不如找 1000 个 AI 专家，每个人只给它们看一小部分病人的数据（子采样），让它们分别给出预测，然后取平均值。
- 这就好比陪审团制度：每个陪审员只看到部分证据，最后大家投票。
- 因为每个人看到的数据有重叠（有的病人被多个人看到了），但又不是完全一样，这种“部分重叠”的结构非常特殊。
做法：作者利用这种结构，发明了一种叫**“无穷小刀切法”（Infinitesimal Jackknife）** 的数学工具。它能像手术刀一样，精准地切分出每个数据点对最终结果的影响，从而计算出非常准确的“误差条”（置信区间）。

4. 实验结果：真的好用吗？

作者做了两件事来验证：

模拟实验：他们制造了各种复杂的“假病人”数据（有的规律简单，有的像迷宫一样复杂）。
- 结果发现：传统的线性模型在复杂数据面前“翻车”了（预测不准）；普通的 AI 虽然预测准了，但给出的误差范围要么太宽（没用），要么太窄（误导）。
- ESM 方法：既保持了 AI 的高精度，又给出了像传统统计那样靠谱的误差范围。
真实数据：他们拿波士顿肺癌病人的真实数据来测试。
- 结果：ESM 方法在预测生存率（C-index）和区分度（AUC）上都表现最好，而且给出的置信区间最窄（意味着最精准）。

5. 总结：这对我们意味着什么？

这篇论文就像是在**“高智商 AI"和“严谨统计学”**之间架起了一座桥。

以前：医生要么用简单但不够准的模型，要么用准但不知道靠不靠谱的 AI。
现在：有了这套方法，医生可以放心地使用复杂的深度学习模型来分析癌症风险，并且能拿着报告自信地说：“根据模型，这位 70 岁的吸烟者比 50 岁的非吸烟者死亡风险高 20%，我们有 95% 的把握这个结论是真实的。”

一句话概括：作者发明了一套新数学工具，让“黑盒”AI 在预测疾病风险时，不仅能算得准，还能像传统医生一样，把“心里没底”的地方清清楚楚地展示出来。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心挑战：
尽管基于深度神经网络（DNN）的高复杂度估计器在统计任务中取得了成功，但在**统计推断（Statistical Inference）方面仍存在显著的理论缺口，特别是在处理删失生存数据（Censored Survival Data）**的非参数 Cox 比例风险模型时。现有的研究主要集中在风险一致性（Consistency）和近似保证上，但缺乏对以下关键问题的深入理解：

优化误差的传播： 基于梯度的训练算法产生的优化误差（Optimization Error）如何传播到总体风险（Population Risk）？现有的理论通常假设能够找到精确的经验风险极小化器，但这在实际中很难实现。
点态偏差控制： 如何控制点态偏差（Pointwise Bias）以构建有效的置信区间？对于高复杂度 DNN 估计器，偏差控制不足会导致分布近似失效。
不确定性量化： 在现实方差衰减机制下，基于集成（Ensemble）的不确定性量化（如相对风险对比的对数风险比）如何表现？
删失数据的特殊性： 在存在删失的情况下，Cox 模型的偏似然函数（Partial Likelihood）具有非分离性（Non-separable），导致传统的经验过程理论难以直接应用。

目标：
建立一套完整的渐近分布理论，用于深度 Cox 估计器，特别是针对相对风险对比（Relative Risk Contrasts），如两个不同协变量设置下的对数风险比（Log-hazard ratios）。

2. 方法论 (Methodology)

作者提出了一个三部分的推断框架，结合了子采样集成学习（Ensemble Subsampling, ESM）与Hájek-Hoeffding 投影技术。

2.1 模型设定

非参数 Cox 模型： $\lambda(t | X) = \lambda_0(t) \exp\{g_0(X)\}$ ，其中 $g_0$ 是未知的非参数函数，通过 DNN 进行估计。
目标泛函： 关注点态估计 $g_0(x^*)$ 以及对比 $\psi(x^*_1, x^*_2) = g_0(x^*_1) - g_0(x^*_2)$ 。

2.2 核心算法：子采样集成估计器 (ESM)

为了克服单个 DNN 估计器难以处理偏差和方差的问题，作者采用了基于子采样的集成方法：

子采样： 从原始数据集中随机抽取 $B$ 个大小为 $r$ 的子样本。
训练： 在每个子样本上训练 DNN，得到估计器 $\hat{g}_b$ 。由于使用梯度下降， $\hat{g}_b$ 是经验风险极小化器的近似解。
集成： 最终估计量为 $\hat{g}_B = \frac{1}{B} \sum_{b=1}^B \hat{g}_b$ 。
方差估计： 利用**无穷小刀切法（Infinitesimal Jackknife, IJ）**来估计方差，该方法利用了子样本之间的重叠结构，能够解析地计算协方差。

2.3 理论工具

Oracle 不等式（非渐近）： 建立了连接“样本内优化误差”与“总体风险”的不等式。该不等式表明总体风险受限于优化间隙（Optimization Gap）、近似误差和统计误差之和。
Hájek 投影： 将集成估计器分解为独立影响项的总和（一阶项）和高阶余项。这为证明渐近正态性提供了基础。
偏差校准（Bias Calibration）： 通过调整网络架构（过参数化，即 $\delta > 0$ ）实现“欠平滑”（Undersmoothing），使得近似偏差在渐近意义上远小于方差，从而满足正态近似所需的条件。

3. 主要理论贡献 (Key Contributions)

3.1 优化到总体风险的桥梁

作者证明了在偏似然框架下，即使没有达到精确的经验风险极小化器，也能建立总体风险的上界。

结果： 总体风险 $\lesssim$ 优化间隙 + 近似误差 + 统计误差。
意义： 解决了梯度下降训练带来的优化误差如何影响统计推断的理论难题，无需假设全局最优解。

3.2 点态偏差控制与渐近正态性

过参数化策略： 通过引入超参数 $\delta$ 控制网络容量，使得近似误差以更快的速度衰减（ $O(\phi_n^{(1+\eta)/2})$ ），从而在点态推断中实现偏差的可忽略性。
渐近正态性定理： 证明了在特定的子样本大小 $r = n^\alpha$ $r = n^{α}$ 范围内，集成估计器 $\hat{g}_B$ $\overset{g}{^}_{B}$ 及其对比 $\hat{\psi}_B$ $\hat{ψ}_{B}$ 服从渐近正态分布。
- 关键条件： 子样本大小 $r$ 必须足够大以消除偏差（ $\alpha > \alpha_{lower}$ ），但又不能太大以避免子样本间重叠过高导致 Hájek 投影失效（ $\alpha < \alpha_{upper}$ ）。
- 单重叠协方差（Single-overlap Covariance）： 提出了衡量两个共享一个观测值的子样本估计器之间依赖性的指标，并证明了在更宽松的衰减条件下（弱于现有文献），渐近正态性依然成立。

3.3 有效的方差估计与推断

IJ 估计器的一致性： 证明了基于无穷小刀切法的方差估计量 $\hat{\sigma}^2$ 是渐近一致的。
Wald 型推断： 基于上述理论，构建了针对对数风险比 $\psi$ 的置信区间，并给出了相对风险（Risk Ratio）的置信区间。

4. 实验结果 (Results)

4.1 模拟研究 (Simulation Studies)

设置： 考虑了线性、平滑加性非线性和复合非线性三种 $g_0$ 函数形式，样本量 $n \in \{800, 1000\}$ 。
发现：
- 偏差与覆盖率： 当子样本比例 $\alpha$ 处于理论允许区间（如 $0.90 \sim 0.95$ ）时，校正后的 IJ 标准误与经验标准差高度吻合，置信区间的覆盖率（CP）接近名义水平（95%）。
- 边界效应： 当 $\alpha$ 过小（偏差主导）或过大（方差估计失效，子样本重叠过高）时，覆盖率显著下降，验证了理论上下界的必要性。
- 对比分析： 相比于 CoxPH（在线性模型下表现好，非线性下偏差大）、随机生存森林（RSF）和 DeepSurv，ESM 在非线性场景下实现了更低的平均绝对误差（MAE）和更准确的覆盖率，且置信区间长度更短。

4.2 真实数据应用 (Real Data Application)

数据集： 波士顿肺癌生存队列（Boston Lung Cancer Survival Cohort）。
表现： ESM 模型在 C-index 和 AUC 指标上均优于 CoxPH、RSF、GBR 和 DeepSurv，同时保持了最小的标准误和最短的平均区间长度。
可视化： 展示了不同分期下，年龄、吸烟史、肿瘤大小和 BMI 对风险比（Hazard Ratio）的非线性影响及其 95% 置信带，揭示了协变量效应的异质性。

5. 意义与结论 (Significance & Conclusion)

理论意义：

填补了深度非参数生存分析中统计推断的理论空白，特别是解决了优化误差传播和点态偏差控制这两个长期存在的难题。
将子采样集成理论扩展到了具有删失数据的 Cox 模型，并放宽了对协方差衰减率的要求。

实际意义：

临床相关性： 提供了对相对风险对比（如不同年龄或治疗组之间的风险比）进行可靠推断的工具，这比绝对风险预测更具临床解释性。
不确定性量化： 提供了一种在复杂深度学习模型中计算可靠置信区间的方法，避免了传统 Bootstrap 在高维数据中的计算瓶颈和不稳定性。
未来方向： 该框架可进一步扩展至生存函数 $S(t|x)$ 的推断以及时间至事件数据中的因果推断（如生存条件平均处理效应 CATE）。

总结：
该论文通过建立连接优化理论与统计推断的桥梁，证明了深度非参数 Cox 模型不仅可以用于预测，还可以进行严格的统计推断。其提出的 ESM 框架结合 IJ 方差估计，为处理删失数据中的高复杂度模型提供了目前最完善的理论和实践解决方案。