Bayesian Cluster Weighted Gaussian Models

Each language version is independently generated for its own context, not a direct translation.

想象你是一名侦探，正试图在拥挤的房间里解开一个谜团。你有一份人员名单（即数据），想要弄清楚他们分别属于哪些群体。通常，侦探会通过观察人们的行为（即他们的响应）来推测其所属群体。但如果人们的行为还受到背景因素的影响，比如他们站立的位置或手中持有的物品（即协变量）呢？

本文介绍了一种更聪明的侦探工具，称为贝叶斯聚类加权高斯模型（BGCWM）。以下是其工作原理，拆解为几个简单概念：

1. 问题所在：“固定”与“随机”的陷阱

传统侦探方法通常假设背景信息（协变量）是固定的，不会改变群体的划分。

旧方法：想象你在观察一个教室。你假设学生的身高（背景）与他们在哪个运动队无关；你只看他们的考试成绩（响应）。
现实情况：在现实世界中，背景很重要。也许较高的学生更可能加入篮球队。如果你忽略身高在房间内自然变化的事实，就可能会错过真正的群体划分。
本文的解决方案：新模型将背景信息视为随机的。它承认数据点的“位置”和“所持物品”与其行为的“方式”对于确定群体同样重要。

2. 两大超能力：收缩（Shrinkage）

该模型拥有两种特殊的“超能力”来处理杂乱的数据，称为收缩。你可以将其理解为一种清除噪声、提取信号的方法。

能力一：贝叶斯 Lasso（“静音器”）
想象你有一台带有 20 个旋钮（变量）的收音机，但其中只有 3 个旋钮真正能改变音乐。Lasso 就像一只聪明的手，将另外 17 个无用旋钮的音量全部调至零。它帮助模型忽略无关的背景细节，只关注那些真正对群体划分至关重要的因素。
能力二：图 Lasso（“地图绘制者”）
想象背景变量是社交网络中的朋友。有些朋友经常交谈，有些则不然。图 Lasso 会绘制出这些连接关系的地图。它能找出哪些背景因素是相互关联的，哪些是独立的，从而在不被冗余信息干扰的情况下，清晰地描绘出群体的结构。

3. “有多少个群体？”的谜团

聚类分析中最困难的部分之一是猜测存在多少个群体。我们是有 2 个队、5 个队，还是 10 个队？

旧方法：你可能会尝试猜测 2 个，然后是 3 个，再是 4 个，最后根据评分卡（如 AIC 或 BIC）选出看起来“最好”的那个。
本文的方法：该模型将群体数量视为一个待解的谜团，而非猜测。它使用一种特殊的采样技术，称为伸缩采样器（Telescoping Sampler）。
- 类比：想象一个可以伸缩的望远镜。该模型从一个特定的群体数量开始，可以“伸长”以增加更多群体，或“收缩”以合并群体，从而探索各种可能性，直到自然地找到最可能的群体数量。它不仅仅是选择一个分数，而是计算每种可能群体数量的概率。

4. 他们如何测试它

作者不仅讨论了理论，还通过两种方式进行了实际测试：

模拟实验室：他们创建了带有已知秘密的虚假数据（就像拥有已知地图的电子游戏）。他们将新模型与旧的、成熟的方法进行了较量。
- 结果：他们的模型在找出正确的群体数量以及准确识别哪些背景因素真正重要方面表现更佳，尤其是在数据杂乱或群体难以区分的情况下。
现实世界测试（TCGA 数据）：他们将模型应用于癌症基因组图谱（TCGA）的真实基因数据。他们观察基因表达水平，看是否能区分四种不同的癌症类型（乳腺癌、肾癌、肺癌、甲状腺癌）。
- 结果：该模型成功地将样本分入了四种正确的癌症类型。它还识别出了驱动这些差异的特定基因，就像聚光灯一样照亮了最重要的生物学线索。

总结

简而言之，这篇论文提出了一种新的统计工具，能更有效地发现数据中的隐藏群体，原因如下：

它尊重背景细节（协变量）是随机且重要的。
它利用“智能静音器”忽略无用的噪声。
它利用灵活的“望远镜”来确定正确的群体数量，而无需事先猜测。

这是一种更稳健、更灵活且更“诚实”的方法，让数据告诉你谁属于哪个群体。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：贝叶斯聚类加权高斯模型

问题陈述
本文解决了来自具有未观测子群的总体所产生的异质数据的建模挑战，其中连续响应变量（ $y$ ）与一组协变量（ $x$ ）之间的关系在这些潜在聚类间存在差异。虽然标准的回归混合模型假设协变量是固定的且不影响聚类分配，但许多现实世界的应用涉及随机协变量，其分布在不同子群中也存在变化。忽略协变量的分布可能导致丢失与潜在结构相关的判别信号。作者旨在开发一个完全贝叶斯框架，用于聚类加权模型（CWMs），该框架同时建模给定协变量的响应条件分布以及协变量本身的边缘分布，同时通过变量选择处理高维设置，并在无需预先指定的情况下确定聚类数量。

方法论
所提出的框架称为贝叶斯高斯聚类加权模型（BGCWM），通过引入特定的收缩先验和跨维度采样策略，扩展了标准的 CWM。

模型结构：
- 数据 $(y_i, x_i)$ 被建模为 $K$ 个分量的混合。
- 在每个聚类 $k$ 内，响应 $y_i$ 服从正态线性回归： $y_i | x_i, z_{ik}=1 \sim N(\alpha_k + x_i^T \beta_k, \sigma^2_k)$ 。
- 协变量 $x_i$ 被建模为服从多元正态分布的随机变量： $x_i | z_{ik}=1 \sim N(\mu_k, \Sigma_k)$ 。
- 联合似然函数是混合比例 $\pi_k$ 、回归密度和协变量密度的乘积。
针对高维性的收缩先验：
- 回归系数： 为了处理稀疏的回归系数（ $\beta_k$ ），作者采用了贝叶斯 Lasso 先验（双指数分布），并在惩罚参数上设置了半柯西超先验。这允许在每个聚类内进行自动变量选择。
- 协方差结构： 为了建模随机协变量的协方差矩阵（ $\Sigma_k$ ），使用了贝叶斯图 Lasso 先验。这对精度矩阵（ $\Omega_k = \Sigma_k^{-1}$ ）施加稀疏性，促进了聚类内协变量之间条件独立结构的检测。
聚类数量（ $K$ ）的推断：
本文评估了三种不同的贝叶斯方法来处理未知分量数量：
- 固定 $K$ 并使用信息准则： 估计一系列 $K$ 的模型，并通过 AIC、BIC 或 ICL 选择最佳模型（一种基于频率学派的基线方法）。
- 过拟合混合模型： 将 $K$ 固定为一个较大的上限，并使用稀疏狄利克雷先验来鼓励空分量，依赖非空分量的数量进行推断。
- 广义有限混合模型（望远镜采样器）： 将 $K$ 视为具有先验（平移 Beta-负二项分布）的随机变量。推断使用望远镜采样器（Frühwirth-Schnatter 等人，2021）进行，该采样器通过跨维度步骤更新 $K$ ，避免了可逆跳跃 MCMC 的复杂性。
后验计算：
采用完全贝叶斯方法，使用马尔可夫链蒙特卡洛（MCMC） 采样实现。通过引入辅助变量构建增广吉布斯采样器，以促进 Lasso 和图 Lasso 先验的共轭性。当 $K$ 未知时，添加单个 Metropolis-Hastings 步骤以更新分量数量。后处理涉及等价类代表（ECR） 算法以解决标签切换问题。

主要贡献

完全贝叶斯 CWM： 本文首次提出了高斯 CWM 的完全贝叶斯处理，将聚类数量视为随机变量，并为回归系数和协方差结构引入了收缩先验。
集成变量选择： 与之前依赖简约协方差参数化或事后选择的 CWM 实现不同，该方法通过贝叶斯 Lasso 和图 Lasso 将变量选择直接集成到模型中，允许检测回归预测变量和协变量协方差结构中的信号。
跨维度采样： 将望远镜采样器应用于 CWM，提供了一种稳健的机制来估计聚类数量，无需依赖信息准则或过拟合启发式方法，并为 $K$ 提供直接的不确定性量化。

结果
该方法通过广泛的模拟研究和实际应用进行了评估：

模拟研究：
- 聚类估计： 望远镜采样器和过拟合混合模型方法在估计真实聚类数量方面通常优于信息准则（BIC/ICL）和现有方法（flexCWM, FLEXMIX, MoEClust, RJM），特别是在 $K$ 较大时（例如 $K=4$ ）。
- 聚类性能： 所提出的 BGCWM 在各种涉及不相关/相关以及同质/异质协变量的场景中实现了高调整兰德指数得分，与竞争方法相当或更优。
- 变量选择： 该方法在识别显著变量（最小化假阳性/假阴性）方面表现出优于 RJM 和 MoEClust 的准确性，特别是在不相关协变量的场景中。
TCGA 基因组数据应用：
- 该模型应用于四种癌症类型（BRCA, KIRC, LUAD, THCA）的基因表达数据，根据 GALNT12 基因和其他 15 个基因的表达对样本进行聚类。
- 望远镜采样器在大多数收敛链中成功识别了真实聚类数量（ $K=4$ ）。
- 该模型恢复了癌症类型，调整兰德指数为 0.662（针对 $K=4$ ）。
- 事后评估确定了每个癌症聚类独特的影响基因集，突显了模型发现聚类特异性生物信号的能力。
- 在预测任务（RMSE）中，BGCWM 的表现与机器学习基准（随机森林、XGBoost、BART）具有竞争力，仅次于随机森林排名第二，同时提供了更优越的可解释性和聚类能力。

意义与主张
作者声称，BGCWM 框架为具有随机协变量的基于模型的聚类提供了一个模块化且灵活的工具。通过将聚类数量视为随机变量并利用收缩先验，该方法提供了一种统一的方法：

检测响应 - 协变量关系和协变量分布中的潜在异质性。
在高维设置中执行自动变量选择，而无需调整参数（由于半柯西超先验）。
为聚类数量和模型参数提供完整的不确定性量化。

本文谦逊地指出，当前的实现仅限于连续协变量和高斯响应。未来的工作建议将该框架扩展到混合数据类型、分类/计数响应，并通过并行退火方案改善 MCMC 混合。作者强调，虽然该方法计算密集，但其在单一贝叶斯框架内集成聚类、回归和协方差结构分析的能力，使其成为现有频率学派或半贝叶斯 CWM 方法的有价值的替代方案。

1. 问题所在：“固定”与“随机”的陷阱

2. 两大超能力：收缩（Shrinkage）

3. “有多少个群体？”的谜团

4. 他们如何测试它

总结

技术摘要：贝叶斯聚类加权高斯模型

类似论文