Comparing Variable Selection and Model Averaging Methods for Logistic Regression

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一场**“ Logistic 回归（逻辑回归）方法大比武”**。

想象一下，你是一位侦探，手里有一堆线索（数据），你需要找出哪些线索是真正能破案的关键（预测变量），哪些只是干扰项（噪音）。你的目标是用这些关键线索，准确预测下一个案件的结果（比如：这个人会不会生病？这个邮件是不是垃圾邮件？）。

但在现实中，你往往不知道到底哪些线索是真的有用的。这就是论文里说的**“模型不确定性”**。

为了解决这个问题，统计学界发明了 28 种不同的“侦探工具”（方法）。有的工具喜欢把所有线索都列出来慢慢看，有的喜欢只挑最明显的几个，还有的喜欢用复杂的数学公式来加权平均。

这篇论文的作者们（来自阿姆斯特丹大学和华盛顿大学）做了一件非常酷的事：他们没有只坐在办公室里空想，而是找来了 11 个真实的“案件现场”（真实数据集，涵盖医疗、社会、天文等领域），然后让这 28 种工具在同样的条件下进行实战演习。

比赛中的两大“突发状况”

在侦探破案的过程中，作者们发现了一个特别棘手的情况，叫做**“完全分离”（Separation）**。

没有“分离”的情况（正常破案）： 线索和结果之间关系比较模糊，没有哪个线索能 100% 确定结果。这时候，所有的侦探工具都能正常发挥。
有“分离”的情况（极端破案）： 某个线索太完美了，比如“只要看到红衣服，就一定是罪犯”。这时候，传统的数学计算方法会“崩溃”，算不出结果，或者算出无限大的数字，就像计算器按了除零键一样。这在样本少或者线索多的时候特别容易发生。

比赛结果：谁赢了？

作者们根据准确度（猜得准不准）、稳定性（会不会算崩）和速度（算得快不快）给这 28 种工具排了名。

1. 当没有“分离”（正常情况）时：

冠军：贝叶斯模型平均（BMA）中的"g-prior"家族。
- 比喻： 这就像是一个**“超级智囊团”**。它不赌某一个线索是对的，而是让所有可能的线索组合都参与投票，最后根据每个组合的可信度加权平均。
- 最佳选手： 其中一种叫 g = max(n, p²) 的设定（你可以把它想象成一种“根据案件大小自动调整权重的智能算法”）表现最好。它既聪明又稳健。
- 其他表现好的： 还有几种变体（如 BIC、Hyper-g 等）也表现不错，它们都能很好地处理“模型不确定性”。

2. 当出现“分离”（极端情况）时：

冠军：惩罚似然法（Penalized Likelihood），特别是 LASSO。
- 比喻： 这就像是一个**“铁面无私的过滤器”**。它不管线索多复杂，直接给那些不重要的线索“判死刑”（把系数直接变成 0），只留下最核心的。
- 为什么赢？ 当数据出现“完全分离”这种极端情况时，那些复杂的“智囊团”（贝叶斯方法）可能会因为数据太完美而算晕，但“铁面过滤器”（LASSO）因为有正则化（惩罚项）保护，依然能稳稳地给出一个合理的结果，不会崩溃。
- 特别提到： 还有一种叫 Firth 的方法，专门设计用来处理这种极端情况，也很稳，但算得比较慢。

3. 表现不佳的“老古董”：

步序选择法（Stepwise）和 P 值法： 这些是几十年前流行的方法（比如“向前选”、“向后选”）。
- 比喻： 它们就像**“只会死记硬背的学徒”**。它们只盯着眼前的一个线索看，选了一个就定死，不会回头。在复杂的数据面前，它们很容易选错人，而且一旦遇到“分离”情况，它们几乎全军覆没（失败率很高）。

给普通人的“避坑指南”

这篇论文给那些需要做数据分析的科学家、医生或数据分析师提供了非常实用的建议：

如果你不确定数据里有没有“分离”问题（大多数情况）：
- 首选 贝叶斯模型平均（BMA），特别是使用 g = max(n, p²) 这种设定的方法。它就像是一个全能型选手，既准又稳，还能告诉你每个线索的可信度。
- 如果你想要一个**“万能备用方案”**，EB-local 方法也是个不错的选择，它在各种情况下都表现得很稳健。
如果你确定数据里有“分离”问题（比如样本很少，或者某个变量能完美预测结果）：
- 别用那些复杂的贝叶斯平均法了，直接用 LASSO 或者 Firth 方法。它们就像防弹衣，能保护你的分析不崩溃。
别再迷信“老方法”了：
- 除非你非常清楚自己在做什么，否则不要再用传统的“逐步回归”或者只看 P 值小于 0.05 来选变量了。在现在的复杂数据面前，它们很容易出错。

总结

这就好比你在装修房子：

贝叶斯模型平均（BMA） 像是请了一群顶级建筑师，他们通过讨论和投票，帮你设计出一个既美观又坚固的方案，适合大多数情况。
LASSO 像是请了一位经验丰富的老工匠，他手里拿着锤子，不管遇到什么怪石头（分离数据），都能直接敲掉多余的，留下最结实的部分。
逐步回归 像是让一个刚毕业的学生拿着尺子量来量去，遇到稍微复杂点的情况就容易把墙拆错。

这篇论文最大的贡献就是告诉我们要**“看菜吃饭”**：根据数据的具体情况（有没有分离），选择最合适的工具，而不是盲目地用同一种方法处理所有问题。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于《比较逻辑回归中的变量选择与模型平均方法》（Comparing Variable Selection and Model Averaging Methods for Logistic Regression）的论文详细技术总结。

1. 研究背景与问题 (Problem)

在二元结果（Binary Outcomes）的统计建模中，**模型不确定性（Model Uncertainty）**是一个核心挑战，即研究者往往无法预先确定哪些预测变量（Predictors）应当被纳入模型。

核心难点：
- 变量选择困境：即使预测变量数量适中，可能的模型子集数量也是巨大的（$2^p$）。
- 分离问题（Separation）：在逻辑回归中，当预测变量的线性组合能完美分类结果时，会出现“完全分离”或“准完全分离”。这会导致极大似然估计（MLE）不存在或数值不稳定，进而使推断失效。这种情况在小样本或高维设置中尤为常见。
- 现有研究的不足：虽然针对线性回归的变量选择方法已有广泛比较（如 Porwal & Raftery, 2024），但针对逻辑回归的多种方法（贝叶斯模型平均 vs. 惩罚似然）在现实数据条件（包括分离情况）下的相对性能缺乏系统性的评估。

2. 方法论 (Methodology)

本研究是一项**预注册（Preregistered）**的模拟研究，旨在系统评估 28 种已建立的逻辑回归变量选择与推断方法。

2.1 实验设计

数据来源：基于 11 个真实的经验数据集（涵盖医学、社会科学、遗传学等领域），样本量（ $n$ ）和预测变量数（ $p$ ）跨度很大，包括高维情况（ $p > n$ ）。
数据生成过程 (DGP)：
- 采用**参数自举（Parametric Bootstrapping）**方法。首先对真实数据进行预处理和变量筛选，然后基于筛选出的模型生成二元结果变量。
- 每个数据集生成 100 次重复模拟，共 1100 个模拟数据集。
- 关键区分：研究特别关注并区分了存在分离（Separation）和不存在分离两种情况。
评估方法：
- 对每个模拟数据集，使用 5 折交叉验证运行所有 28 种方法。
- 使用 detectseparation 包自动检测分离情况。

2.2 被评估的 28 种方法

方法主要分为两大类：

贝叶斯模型平均 (BMA)：
- 基于 BAS 包的各种 $g$ -先验（如 Benchmark $g=\max(n, p^2)$ , Hyper- $g$ , EB-local, EB-global 等）。
- 其他贝叶斯方法：Spike-and-Slab, BIC.BMA 等。
惩罚似然/频率学派方法：
- LASSO, Ridge, Elastic Net。
- 非凸惩罚：SCAD, MCP。
- 改进方法：诱导平滑 LASSO (Induced Smoothed LASSO), Firth 偏差减少法。
- 传统方法：逐步回归（前向/后向/双向）、基于 p 值的选择。

2.3 评估指标

点估计：均方根误差 (RMSE)。
区间估计：平均区间得分 (MIS)。
预测性能：Brier 分数。
模型选择：精确率 - 召回率曲线下面积 (AUPRC)。
其他指标：CPU 时间、失败率（无法收敛或报错的比例）。
排名规则：所有指标标准化后（以 Spike-and-Slab 为基准），计算 Partial Score（基于 RMSE 和 Brier 分数）进行排名。

3. 主要结果 (Results)

研究结果根据是否存在分离分为两类，表现出显著差异：

3.1 无分离情况 (Without Separation)

最佳表现：基于 $g$ -先验的贝叶斯模型平均 (BMA) 方法表现最好。
- 特别是 Benchmark prior ( $g = \max(n, p^2)$ ) 综合得分最高。
- 紧随其后的是 BIC.BAS, CCH, Hyper- $g/n$ , Beta-prime 和 $g=\sqrt{n}$ 。
- EB-local 先验也表现具有竞争力。
表现较差：
- 传统的逐步回归和基于 p 值的方法表现最差。
- AIC 和 $g=4$ 在估计方面表现较弱。
- EB-global 在估计和预测上均表现不佳。
惩罚方法：诱导平滑 LASSO (Induced Smoothed LASSO) 在惩罚方法中排名最高（总排名第 8），但整体不如 BMA 方法。

3.2 存在分离情况 (With Separation)

最佳表现：惩罚似然方法占据主导地位。
- 诱导平滑 LASSO 排名第一（尽管有 28.5% 的失败率，需谨慎解读）。
- LASSO, Elastic Net, SCAD, MCP 和 Ridge 回归在所有可用指标上均表现稳健。
- Firth 偏差减少法虽然排名靠后（第 8），但失败率较高（29.7%）。
贝叶斯方法的表现：
- EB-local 和 Spike-and-Slab 表现出较强的鲁棒性，在估计和区间校准方面表现良好（分别排名第 9 和第 10）。
- 大多数 $g$ -先验方法（如 Benchmark, Hyper- $g$ ）在点估计和区间估计上性能显著下降（RMSE 和 MIS 变差），但在预测（Brier 分数）和模型选择（AUPRC）上仍保持相对稳健。
- 所有贝叶斯方法的失败率均低于 1%。
传统方法：逐步回归和 p 值方法在分离情况下表现极差，且失败率极高（例如 $p<0.005$ 方法失败率高达 71%）。

4. 关键贡献 (Key Contributions)

系统性比较：首次对逻辑回归中 28 种主流变量选择与推断方法进行了大规模、预注册的对比研究，填补了该领域缺乏统一基准的空白。
分离问题的实证分析：明确揭示了不同方法在“分离”这一常见但棘手的数据问题下的表现差异。发现 $g$ -先验 BMA 在无分离时最优，但在分离时性能下降；而惩罚方法在分离时更具优势。
基于真实数据的模拟：不同于完全合成数据的研究，本研究基于 11 个真实数据集构建数据生成过程，提高了结论的外部效度和实用性。
透明性与可复现性：研究完全预注册，代码、数据和详细分析流程公开（OSF），为方法论研究树立了透明、可复现的典范。

5. 研究意义与实践建议 (Significance & Implications)

无分离场景：推荐优先使用基于 $g$ -先验的贝叶斯模型平均（特别是 $g=\max(n, p^2)$ ）。这种方法在估计精度、预测能力和模型选择上均表现优异，且能自然处理模型不确定性。
存在分离场景：
- 如果主要目标是预测或变量选择且不需要严格的模型不确定性量化，**惩罚似然方法（如 LASSO, Elastic Net）**是更稳健的选择。
- 如果需要在分离情况下进行贝叶斯推断，EB-local 先验是表现最稳健的 BMA 方法，能在估计稳定性和计算效率之间取得平衡。
避免使用的方法：在逻辑回归中，传统的逐步回归（Stepwise）和基于固定 p 值阈值（如 $p<0.05$ ）的方法在分离情况下表现极差且失败率高，应避免使用。
对机器学习与统计学的启示：该研究证明了在逻辑回归中，结合模型平均的贝叶斯框架（BMA）在大多数情况下优于单一模型选择，但在处理极端数据（分离）时，正则化方法（Penalized Likelihood）提供了必要的稳定性。

总结：该研究为应用研究人员提供了明确的指导方针：在处理逻辑回归模型不确定性时，应根据数据是否存在分离来选择策略。无分离时首选自适应 BMA（如 Benchmark prior），有分离时首选惩罚方法或 EB-local BMA。