Dirichlet kernel density estimation on the simplex with missing data

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在解决一个**“拼图缺失”的统计难题，而且这块拼图还非常特殊：它必须拼在一个三角形**（或者更复杂的形状）里，不能跑到外面去。

为了让你轻松理解，我们可以把这篇论文的核心内容想象成**“在迷雾中绘制人群画像”**的故事。

1. 故事背景：什么是“成分数据”？

想象一下，你正在研究一个**“免疫细胞大锅炖”。
在这个锅里，只有三种主要食材：中性粒细胞、淋巴细胞和其他细胞**。

关键规则是：这三种食材加起来必须正好是100%（或者说是 1）。
如果你发现中性粒细胞多了，那其他两种肯定就少了。它们互相牵制，就像在一个封闭的三角形房间里跳舞，谁也不能跳出这个房间。

在统计学上，这种数据叫**“成分数据”，它们所在的区域叫“单纯形”**（Simplex，就是那个三角形房间）。传统的统计方法（就像在平地上画地图）在这里会失灵，因为它们不懂“总和必须为 1"这个规矩，容易把数据画到三角形外面去，或者在边缘处画歪。

2. 遇到的麻烦：数据“失踪”了

在现实世界中（比如美国的 NHANES 健康调查），数据经常**“失踪”**。

比如，有些人的血液样本因为机器故障没测出来，或者因为太忙没填问卷。
这篇论文假设这种失踪不是完全随机的（比如不是因为机器坏了，而是因为某些已知特征，比如体重指数 BMI 高的人更容易测不出来）。这在统计学上叫**“随机缺失” (MAR)**。

传统的笨办法：
以前的做法是：先把缺失的数据“猜”出来（填补），然后再画地图。

缺点： 这就像在拼图时，先随便找块碎片填进去，再根据这块假碎片去猜整幅画的样子。如果猜错了，整幅画就歪了。

这篇论文的聪明办法：
作者提出了一种**“加权法”**（Inverse Probability Weighting, IPW）。

比喻： 想象你在一个房间里数人，但有些人躲起来了。
- 如果一个人因为“个子高”（BMI 高）更容易躲起来，那么当你看到一个“个子高”的人时，你就知道：“嘿，他在这里，说明房间里其实还有好几个像他一样躲起来的‘高个子’！”
- 所以，你给这个被看到的人**“加权重”**（比如算作 2 个人），给那些没被看到的人“欠账”。
- 这样，你不需要真的把躲起来的人找出来，只要给看到的人“加权”，就能还原出房间里真实的人数分布。

3. 核心工具：狄利克雷核（Dirichlet Kernel）—— 懂规矩的画笔

为了在“三角形房间”里画得准，作者发明了一种特殊的**“画笔”，叫狄利克雷核**。

普通画笔的毛病： 在三角形边缘（比如某一种细胞占 100% 时），普通画笔会画得乱七八糟，甚至画出三角形外面。
狄利克雷画笔的魔法： 它天生就懂规矩。它知道数据必须在三角形里，所以在边缘处会自动“收缩”和“变形”，保证画出来的东西永远在三角形内，而且边缘画得很平滑。
自适应： 这把画笔还会根据数据密集的地方自动调整粗细（带宽），在数据多的地方画得细，数据少的地方画得粗。

4. 论文做了什么？（三步走）

理论推导（数学证明）：
作者先证明了：如果我们知道每个人“躲起来”的概率（比如知道 BMI 高的人躲起来的概率是 20%），用这种“加权 + 狄利克雷画笔”的方法，画出来的图在数学上是完美的（无偏、正态分布）。
解决“不知道概率”的问题（Nadaraya-Watson 回归）：
现实中，我们通常不知道“躲起来的概率”是多少。
- 解决办法： 作者又加了一步“侦探工作”。利用那些没躲起来的人的数据，通过一种叫“核回归”的方法，先猜出“躲起来的概率”大概是多少。
- 关键点： 作者证明，只要协变量（比如 BMI）的维度不太高（比如只有 1 个或几个），这种“先猜概率，再画图”的方法，效果依然很好，不会让误差变大。
实战演练（模拟与真实数据）：
- 模拟实验： 作者用电脑造了很多假数据，故意弄丢一部分。结果发现，他们的方法比那些“先填补数据再画图”或者“把三角形强行变形成平面再画”的老方法都要准。
- 真实案例： 他们用了美国 NHANES 的真实血液数据。
  - 结果： 成功画出了白细胞组成的“标准画像”。
  - 发现： 大多数健康人的白细胞比例集中在某个特定的点（比如中性粒细胞 57%，淋巴细胞 32% 等），这就像找到了免疫系统的“标准模式”。

5. 总结：这有什么用？

这篇论文就像给统计学家提供了一套**“防丢失、防越界”的绘图工具包**：

防丢失： 即使数据丢了一部分（只要不是完全乱丢），也能通过“加权”还原真相。
防越界： 专门针对“总和为 1"的特殊数据（如成分、比例），保证画出来的图永远在合法的范围内。
更准： 在数据有缺失的情况下，比传统的“先填补后分析”更准确，尤其是在处理像微生物组、饮食结构、投资组合这类复杂数据时。

一句话概括：
这就好比你在拼一个三角形拼图，虽然缺了几块，但你通过给现有的拼图块“加大力度”（加权），并换了一支专门在三角形里作画的神奇画笔（狄利克雷核），成功还原了整幅画最真实的模样，而且不需要去猜那些缺失的碎片长什么样。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Dirichlet 核密度估计在缺失数据下的单纯形应用》（Dirichlet kernel density estimation on the simplex with missing data）的详细技术总结。

1. 研究背景与问题 (Problem)

研究对象：成分数据（Compositional Data），即非负分量且总和为 1 的数据。这类数据广泛存在于地球化学、微生物组学、营养学等领域。
数据特征：成分数据的支撑集（Support）位于概率单纯形（Simplex）上，具有封闭性约束（Closure constraint）和分量间的依赖性。传统的欧几里得空间统计方法往往失效。
核心挑战：在实际研究中，成分数据常面临**随机缺失（Missing at Random, MAR）**机制。例如，微生物组测序深度不足或调查无响应可能导致部分样本缺失。
- 传统的处理缺失数据的方法（如插补法）通常先填补缺失值再估计密度，这引入了两步建模的复杂性，且可能间接影响目标分布的估计。
- 直接仅使用完整案例（Complete-case analysis）会导致估计偏差，因为缺失概率通常与观测到的协变量相关。
研究目标：在 MAR 机制下，提出一种直接针对单纯形上成分数据的非参数密度估计方法，无需先进行数据插补，同时保持单纯形的几何结构并处理边界效应。

2. 方法论 (Methodology)

论文提出了一种基于逆概率加权（Inverse Probability Weighting, IPW）的Dirichlet 核密度估计器（Dirichlet KDE）。

2.1 核心估计量

设 $Y \in S_d$ 为响应变量（成分数据）， $X \in \mathbb{R}^p$ 为完全观测的协变量， $\delta$ 为缺失指示变量（ $\delta=1$ 表示观测到）。

伪估计量 (Pseudo Estimator, $\tilde{f}_{n,b}$ )：假设缺失概率（倾向得分） $\pi(X) = P(\delta=1|X)$ 已知。
$\tilde{f}_{n,b}(s) = \frac{1}{n} \sum_{i=1}^n \frac{\delta_i}{\pi(X_i)} \kappa_{s,b}(Y_i)$
其中 $\kappa_{s,b}(\cdot)$ 是自适应的 Dirichlet 核函数，参数 $b$ 为带宽。该核函数在单纯形边界处表现良好，且保证非负性。
可行估计量 (Feasible Estimator, $\hat{f}_{n,b}$ )：在实际中 $\pi(X)$ 未知，需通过Nadaraya-Watson 回归进行非参数估计 $\hat{\pi}_i$ ，然后代入上述公式。

2.2 关键步骤

倾向得分估计：利用 Nadaraya-Watson 核回归估计缺失概率 $\pi(X)$ 。
带宽选择：提出了一种适应 IPW 框架的**最小二乘交叉验证（LSCV）**准则，用于选择 Dirichlet 核的带宽 $b$ ，以最小化积分平方误差（ISE）。
边界处理：利用 Dirichlet 核的自适应特性（Asymmetric kernel），自然解决单纯形边界处的偏差问题，避免了传统对称核在边界处的“溢出”效应。

3. 主要理论贡献 (Key Contributions)

论文建立了该估计量的完整大样本理论性质：

偏差与方差展开：
- 偏差：证明了伪估计量和可行估计量的点态偏差与完整数据下的 Dirichlet KDE 具有相同的主项（ $O(b)$ ），缺失机制不改变偏差的一阶项。
- 方差：
  - 对于伪估计量，方差增加了一个因子 $(1 + \zeta(s))$ ，其中 $\zeta(s)$ 反映了缺失机制带来的变异性。
  - 对于可行估计量（当 $\pi$ 被估计时），方差包含一个二阶修正项 $-n^{-1}\xi(s)$ 。这意味着在特定条件下，估计倾向得分并不会在主导阶上增加方差。
均方误差 (MSE) 与最优带宽：推导了 MSE 的渐近表达式，并给出了最优带宽 $b_{opt}$ 的收敛速率 $O(n^{-2/(d+4)})$ 。
渐近正态性：
- 证明了估计量在点态下服从渐近正态分布。
- 关键条件：提出了协变量维度 $p$ 与成分数据维度 $d$ 的关系。当 $p < d$ 时，倾向得分估计的误差不会主导密度估计的误差，从而保证标准渐近正态性成立。若 $p \ge d$ ，则面临维数灾难，需更严格的平滑条件。
理论扩展：将 Dirichlet 核密度估计从完整数据场景成功推广到了 MAR 缺失数据场景，并澄清了 IPW 在非参数密度估计中的效率影响。

4. 实验结果 (Results)

4.1 模拟研究 (Simulation Study)

设置：生成了两种不同混合分布的 Dirichlet 数据，设置了不同的样本量 ( $n=100 \sim 800$ ) 和缺失率 (5% $\sim$ 40%)。
对比方法：与基于对数比变换（Additive Log-Ratio, ALR 和 Isometric Log-Ratio, ILR）的 IPW 核密度估计器进行了对比。
发现：
- 性能：提出的 IPW Dirichlet KDE 在所有场景下均优于基于变换的方法（ISE 更低，分布更集中）。
- 稳健性：随着样本量增加，估计误差显著下降；即使在 40% 的高缺失率下，该方法仍保持稳定。
- 带宽选择：自适应的 LSCV 准则能有效选择带宽。

4.2 真实数据应用 (Real-data Application)

数据：美国国家健康与营养调查（NHANES 2017-2018）中的白细胞分类计数（CBC）数据。
变量：
- 响应变量：中性粒细胞、淋巴细胞和其他细胞的比例（单纯形 $S_2$ ）。
- 协变量：体重指数（BMI）。
- 缺失机制：当 CBC 数据不可用时，所有白细胞比例同时缺失（块状缺失），假设其依赖于 BMI（MAR）。
结果：
- 成功估计了白细胞组成的密度分布。
- 识别出了主要的免疫特征模式（Modal Immune Profile）：中性粒细胞约 57%，淋巴细胞约 32%，其他约 11%。
- 该模式符合健康成年人的参考范围，验证了方法在生物医学领域的实用价值。

5. 意义与展望 (Significance & Outlook)

理论意义：填补了单纯形上非参数密度估计在缺失数据理论方面的空白，证明了 IPW 策略在处理受限支撑集数据时的有效性，并给出了严格的渐近理论支撑。
实践意义：
- 提供了一种无需插补即可处理成分数据缺失问题的直接方法。
- 保留了数据的几何结构（单纯形），避免了变换方法可能带来的解释困难或边界偏差。
- 在 NHANES 数据中的应用展示了其在流行病学和生物统计中的潜力。
未来方向：
- 处理 $p \ge d$ 的高维协变量情况（需降维或参数化模型）。
- 处理具有结构性零值（Structural Zeros）的稀疏成分数据（如微生物组）。
- 扩展至复杂抽样设计（如分层、聚类）和依赖数据（时间序列、空间数据）。
- 开发非 MAR（MNAR）机制下的敏感性分析。

总结：该论文提出了一种结合逆概率加权与自适应 Dirichlet 核的创新方法，有效解决了成分数据在随机缺失机制下的密度估计难题。该方法在理论上具有严谨的渐近性质，在模拟和真实数据中均表现出优于传统变换方法的性能，为处理受限支撑集上的缺失数据提供了强有力的统计工具。