Conformalized Neural Networks for Federated Uncertainty Quantification under Dual Heterogeneity

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 FedWQ-CP 的新方法，旨在解决“联邦学习”（一种让多个设备或机构在不共享数据的情况下共同训练 AI 的技术）中一个非常棘手的问题：如何知道 AI 的预测有多大的把握？

为了让你轻松理解，我们可以把这篇论文的故事想象成**“一群医生共同诊断病情”**。

1. 背景：一群医生，不同的病人，不同的水平

想象一下，有 7 家医院（我们叫它们“代理”或“节点”）想要共同训练一个 AI 来诊断疾病。

数据异构（病人不同）： 有的医院在大城市，病人多且病情复杂；有的医院在乡下，病人少且病情单一。这就像有的医生每天看 1000 个病人，有的只看 10 个。
模型异构（医生水平不同）： 有的医院用的是顶尖的专家（强模型），有的用的是刚毕业的实习生（弱模型）。
隐私限制： 根据规定，医院之间不能把病人的病历（原始数据）互相交换，也不能把专家的大脑（模型参数）直接复制过去。

问题出在哪？
如果只追求“整体平均准确率”，可能会出现一种**“沉默的失败”**：

大医院（强模型）可能太自信了，甚至有点“过度自信”（比如它说 100% 确定，结果错了）。
小医院（弱模型）可能因为数据少，根本不敢下结论，或者经常出错（覆盖率不足）。
如果只看“平均 95% 的准确率”，大医院的“过度自信”会掩盖小医院的“经常出错”。这就像说“全班平均分 90 分”，结果学霸考了 100 分，学渣考了 0 分，平均下来 90 分，但那个考 0 分的学生其实没及格，这很危险。

2. 核心挑战：如何给“不确定性”打分？

在医学中，AI 不仅要给出诊断（比如“是肺炎”），还要给出一个**“置信区间”**（比如“我有 95% 的把握是肺炎，但也可能是别的”）。

强医生可能很准，但它的“把握度”打分标准很严。
弱医生可能不准，它的“把握度”打分标准很松。
如果不加区分地把他们的分数混在一起，就会乱套。

3. 解决方案：FedWQ-CP（加权量化的“定海神针”）

这篇论文提出的 FedWQ-CP 就像一个聪明的“总协调员”，它用一种非常巧妙且简单的方法解决了这个问题。

第一步：各自为战（本地校准）

每家医院先在自己的病人数据上“试运行”一下。

医生们不互相看病历，而是自己算出一个**“门槛值”**（Quantile Threshold）。
这就好比：实习生医生算出“如果我的把握度低于 80 分，我就不能下诊断”；专家医生算出“如果低于 98 分，我才下诊断”。
关键点： 他们只把这个**“门槛分数”和“我看了多少个病人”**这两个数字发给总协调员，绝不发送任何病历或模型细节。

第二步：加权平均（聪明的汇总）

总协调员（服务器）收到所有医院的“门槛”和“样本量”后，怎么做呢？

错误做法（简单平均）： 把所有人的门槛加起来除以人数。这会导致样本少的医院（实习生）和样本多的医院（专家）权重一样，结果就是“少数人的声音被淹没”或者“不稳定的声音被放大”。
FedWQ-CP 的做法（加权平均）： 它看谁看的病人多（样本量大），谁的权重就大。
- 如果大医院看了 1000 个病人，它的门槛值权重就很大。
- 如果小医院只看了 10 个病人，它的门槛值权重就很小。
- 比喻： 就像开股东大会，持股多的大股东（数据多的医院）说话声音大，持股少的小股东说话声音小。这样算出来的“全球统一门槛”既公平又稳健。

第三步：统一标准（全局发布）

总协调员算出一个**“全球统一门槛”**，广播给所有医院。

所有医院都用这个统一的标准来评估自己的预测。
如果预测的“把握度”超过了这个门槛，就输出结果；否则，就告诉用户“我不确定，请谨慎”。

4. 为什么这个方法很厉害？（实验结果）

论文在 7 个不同的数据集（包括医疗图像、手写数字等）上做了测试，发现：

谁都不掉链子（覆盖率高）： 无论是大医院还是小医院，无论是强模型还是弱模型，都能保证预测的准确率在设定的范围内（比如 95%）。小医院不再“沉默地失败”了。
不啰嗦（效率高）： 以前的方法为了保险，会给出一个很大的“猜测范围”（比如“可能是 A，也可能是 B，甚至 C"）。FedWQ-CP 给出的范围最小、最精准。就像医生直接说“是肺炎”，而不是说“可能是肺炎、感冒或过敏”。
快且省钱（通信少）： 整个过程只需要一轮通信。每家医院只发两个数字（门槛值和样本量）给服务器，服务器算完再发回来。不需要反复拉锯，也不需要传输海量数据。

5. 总结：用大白话讲

想象你在组织一场**“全球天气预报大赛”**：

有的气象台（强节点）设备好、数据多，预报很准。
有的气象台（弱节点）设备差、数据少，预报经常飘。
以前大家把预报混在一起看，结果发现：虽然“平均准确率”很高，但那些小气象台经常报错，导致局部地区受灾。

FedWQ-CP 的做法是：
让每个气象台先自己算出“我什么时候该报‘不确定’"。然后，数据多的气象台说了算，数据少的听大家的。最后定出一个**“全球统一的不确定线”**。

结果：既保证了每个地方（无论大小）的预报都靠谱（不漏报），又避免了因为怕出错而把天气说得模棱两可（不啰嗦）。
而且，大家只需要发个短信（两个数字）就能搞定，不用交换所有的气象数据，既快又安全。

一句话总结：
FedWQ-CP 是一种**“听多数人的，但照顾少数人”的联邦学习新策略，它让 AI 在数据杂乱、水平参差不齐的情况下，依然能既自信又谦虚**地给出最靠谱的预测。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**联邦学习（Federated Learning, FL）中不确定性量化（Uncertainty Quantification, UQ）的学术论文总结。论文提出了一种名为 FedWQ-CP 的新框架，旨在解决联邦学习环境下双重异质性（Dual Heterogeneity）**带来的挑战。

以下是该论文的详细技术总结：

1. 研究背景与问题定义 (Problem)

在高风险的联邦学习系统（如医疗诊断）中，不确定性量化（UQ）对于决策至关重要。然而，现有的联邦 UQ 方法面临以下核心挑战：

双重异质性（Dual Heterogeneity）：
- 数据异质性： 不同代理（Agent/客户端）的数据分布不同（如标签偏移、协变量偏移），且数据量差异巨大（Dirichlet 分布划分）。
- 模型异质性： 不同代理可能使用不同的模型架构（如浅层 CNN vs 深层 ResNet）或训练强度，导致预测能力和非一致性分数（Non-conformity Scores）的尺度（Scale）和分布完全不同。
现有方法的局限性：
- 现有的联邦共形预测（Federated Conformal Prediction）方法往往只关注单一类型的异质性，或者假设所有代理的数据分布和模型能力相似。
- 直接聚合所有代理的校准分数（如 FedCP）会导致全局覆盖率看似满意，但掩盖了弱代理（Weak Agents）的“静默失败”（即弱代理覆盖率严重不足，被强代理的过覆盖所抵消）。
- 许多方法需要迭代优化、假设特定的分布偏移模型（如标签偏移），或者通信开销过大（需要传输大量分数）。

核心目标： 在数据分布不均和模型能力各异的双重异质性下，设计一种高效、无需迭代、无需共享原始数据的联邦校准方法，确保**每个代理（Agent-wise）和全局（Global）**都能达到可靠的覆盖率，同时保持预测集/区间的高效性（即尽可能小）。

2. 方法论：FedWQ-CP (Methodology)

论文提出了 FedWQ-CP (Federated Weighted Quantile Conformal Prediction)，这是一种**单次通信（One-shot）**的联邦校准框架。

核心流程：

本地校准（Local Calibration）：
- 每个代理 $k$ 使用其本地的校准集 $D_{cal}^k$ 计算非一致性分数（Non-conformity scores）。
- 每个代理独立计算其局部共形分位数阈值 $q_k$ （基于本地分数的经验分布）。
- 关键点： 由于不同代理的模型架构不同，分数尺度不可比，因此 $q_k$ 是相对于该代理自身分数分布的秩（Rank-based）阈值，起到了归一化作用。
加权聚合（Weighted Aggregation）：
- 每个代理仅向服务器发送两个标量：局部阈值 $q_k$ 和 校准样本量 $n_k$ 。
- 服务器不进行复杂的优化，而是通过样本量加权的平均来计算全局阈值 $\hat{q}$ ：
  $\hat{q} = \sum_{k=1}^{M} \frac{n_k}{N} q_k$
  其中 $N = \sum n_k$ 是总样本量。
- 设计直觉： 样本量大的代理（通常统计更可靠）拥有更大的权重；样本量小的代理（统计噪声大）权重较小。这种加权机制平衡了不同代理的预测强度和统计可靠性。
全局评估（Global Evaluation）：
- 服务器将全局阈值 $\hat{q}$ 广播给所有代理。
- 代理使用该阈值构建预测集 $C(x) = \{y : S(x, y) \le \hat{q}\}$ 。

理论分析：

论文证明了在双重异质性下，该方法产生的覆盖误差可以分解为“校准到测试的偏移项”和“聚合误差项”。
理论表明，当校准集大小趋于无穷或分布异质性减弱时，聚合后的阈值能渐近收敛到理想的全局混合分布分位数。
该方法不需要假设分布偏移的具体形式（如密度比），也不需要迭代优化。

3. 主要贡献 (Key Contributions)

提出 FedWQ-CP 框架： 首个同时处理数据异质性和模型异质性的联邦共形预测方法，采用单次通信和样本量加权策略。
解决“静默失败”问题： 通过加权聚合，有效防止了强代理掩盖弱代理的覆盖率不足问题，确保了**代理级（Agent-wise）**的公平性和可靠性。
高效性与通用性：
- 通信高效： 仅需传输两个标量（阈值和样本量），无需传输原始数据或模型参数。
- 任务通用： 直接适用于分类（使用 APS 分数）和回归（使用 CQR 分数）任务。
- 无假设： 不需要预先估计分布偏移模型（如标签偏移参数）。
理论保障： 提供了覆盖误差分解和聚合偏差的理论界限分析。

4. 实验结果 (Results)

作者在 7 个公共数据集（包括 MNIST, FashionMNIST, CIFAR-10 以及 4 个医学图像数据集）上进行了广泛实验，模拟了 6 个代理（3 个强代理，3 个弱代理）的双重异质环境。

覆盖率（Coverage）：
- FedWQ-CP 在所有数据集上均实现了接近标称水平（如 95%）的全局和代理级覆盖率。
- 对比基线（如 DP-FedCP, FedCP-QQ, CPhet）：
  - DP-FedCP 在弱代理上表现出严重的欠覆盖（Under-coverage）。
  - 其他方法往往出现过覆盖（Over-coverage），导致预测集过大。
效率（Efficiency）：
- 在满足覆盖率的前提下，FedWQ-CP 生成的预测集大小（分类）或区间长度（回归）最小。
- 相比其他联邦方法，预测集大小减少了约 20% 到 60% 不等，显著提升了模型的实用性。
消融实验（Ablation Study）：
- 如果去掉“样本量加权”（即使用简单平均），弱代理的覆盖率会显著下降，证明了加权机制对于处理异质性校准集大小的必要性。

5. 意义与影响 (Significance)

实际部署价值： 为医疗、金融等高风险领域的联邦学习提供了可靠的 UQ 解决方案，确保资源受限或数据较少的节点（如小型医院）也能获得可信的预测不确定性估计，避免盲目信任模型。
隐私保护： 整个过程中无需共享原始数据或模型参数，仅交换统计量，符合严格的隐私法规。
可扩展性： 单次通信机制使得该方法极易扩展到大规模联邦网络，降低了通信和计算成本。
范式转变： 证明了在高度异质的联邦环境中，简单的加权统计聚合可以替代复杂的分布假设或迭代优化，达到甚至超越现有复杂方法的效果。

总结： FedWQ-CP 通过巧妙的样本量加权分位数聚合，在无需共享数据、无需迭代优化的前提下，成功解决了联邦学习中数据与模型双重异质性带来的不确定性量化难题，实现了高覆盖率与高效率的完美平衡。