HeteroFedSyn: Differentially Private Tabular Data Synthesis for Heterogeneous Federated Settings

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HeteroFedSyn 的新系统。为了让你轻松理解，我们可以把它想象成一场**“全球美食大比拼”**，但有一个特殊的规则：大家不能把自家的菜谱（原始数据）直接拿出来给别人看。

1. 背景：为什么需要这个系统？

想象一下，世界上有很多家餐厅（比如医院、学校、银行），每家餐厅都有自己的特色菜（数据）。

传统做法（集中式）： 所有餐厅把菜谱都交给一个“中央大厨”，由他统一做一道新菜。但这有个大问题：餐厅老板们担心菜谱泄露，不敢交出来。
本地做法（本地隐私）： 每家餐厅自己偷偷做一道菜，然后端出来。但这有个问题：如果每家餐厅的食材口味差异很大（比如有的偏辣，有的偏甜），拼凑在一起的味道会非常奇怪，甚至难以下咽（数据偏差大）。
联邦学习（Federated Learning）： 大家都不交出菜谱，只派一个“传菜员”把每家餐厅的**“口味统计”**（比如：辣度平均分是多少？咸度分布如何？）告诉中央大厨。

HeteroFedSyn 就是为了解决这个“传菜员”任务而生的。 它的目标是：在保护每家餐厅隐私的前提下，让中央大厨能根据大家的“口味统计”，合成出一张**“全球美食地图”**（合成数据集）。这张地图虽然不包含具体的某道菜，但能完美还原全球美食的整体风味，让未来的厨师（AI 模型）能根据这张地图研发新菜。

2. 核心挑战：噪音与混乱

在这个“传菜”过程中，为了保护隐私，每家餐厅在汇报“口味统计”时，必须故意加一点“噪音”（比如把“辣度 5 级”故意说成“辣度 5.2 级”）。

问题一：噪音太大。 如果每家都加噪音，传到中央大厨那里，数据就乱成一锅粥了。
问题二：信息过载。 如果餐厅有 100 种食材，两两组合就有近 5000 种搭配。要把这 5000 种搭配的统计都传过去，不仅通讯慢，而且噪音会大到让数据完全不可用。

3. HeteroFedSyn 的三大“独门秘籍”

为了解决上述问题，HeteroFedSyn 提出了三个聪明的策略：

秘籍一：给数据“压缩”并“投影” (Random Projection)

比喻： 想象你要描述一个巨大的图书馆里所有书的关系。如果要把每本书和每本书的关系都写下来，那得写几亿页。
做法： HeteroFedSyn 发明了一种“神奇透镜”（随机投影）。它不需要把几亿页关系都传过去，而是通过透镜，把复杂的 5000 种搭配关系压缩成只有几十页的“精华摘要”。
效果： 既减少了传输量（省流量），又因为压缩后的数据维度低，加进去的“噪音”相对影响变小了。

秘籍二：聪明的“去噪”计算 (Unbiased Estimator)

比喻： 既然每家餐厅汇报的数据都加了“噪音”，中央大厨怎么知道真实的“辣度”是多少呢？直接相加肯定不准。
做法： 论文里设计了一套数学公式（无偏估计器）。就像是一个精明的会计，他知道每家餐厅加了多少“噪音”，通过巧妙的数学抵消，能从一堆乱糟糟的带噪数据中，精准地算出真实的“口味依赖关系”（比如：喜欢辣的人通常也喜欢咸）。
效果： 即使数据被污染了，也能还原出最接近真相的统计规律。

秘籍三：自适应的“选菜”策略 (Adaptive Selection)

比喻： 假设你要选 10 个最重要的食材搭配来描述全球美食。
- 笨办法： 先选出“辣 + 咸”，再选出“辣 + 甜”。结果发现，“辣 + 咸”和“辣 + 甜”都选了，其实“咸 + 甜”的关系已经被前两个间接猜到了，再选“咸 + 甜”就是浪费名额。
- HeteroFedSyn 的做法： 它像一个动态的策展人。每选了一个搭配，它就会立刻重新评估剩下的搭配。如果发现某个搭配的信息已经被选过的搭配“覆盖”了，它就果断放弃，把宝贵的“隐私预算”（传菜员能说的次数）留给那些真正独特、还没被了解的搭配。
效果： 在有限的“传话次数”（隐私预算）内，收集到最有价值、最不重复的信息。

4. 最终成果：一张完美的“世界美食地图”

经过这一套流程，中央大厨最终合成了一张**“全球美食地图”**（合成数据集）。

隐私安全： 没有任何一家餐厅的原始菜谱被泄露。
数据好用： 这张地图虽然是由噪音拼凑的，但它的味道（统计特征）和真实世界非常像。
实战表现： 论文做了大量实验，用这张地图去训练 AI 模型（比如预测疾病趋势、分析学生成绩）。结果显示，虽然因为大家分散在不同地方，噪音比集中处理要大，但最终的效果竟然和集中处理差不多！ 甚至在某些复杂情况下，因为避免了本地数据的偏差，效果反而更好。

总结

HeteroFedSyn 就像是一个高明的“数据翻译官”。它让分散在世界各地的机构，在绝不交出原始数据的前提下，通过压缩信息、数学去噪、智能筛选，共同拼凑出一张高保真的“数据地图”。

这张地图不仅保护了大家的隐私，还让 AI 能够利用这些分散的数据变得更聪明，真正实现了“数据可用不可见”。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于HeteroFedSyn的论文技术总结，该框架旨在解决异构联邦学习设置下的差分隐私（DP）表格数据合成问题。

1. 研究背景与问题定义 (Problem)

背景：差分隐私（DP）是保护数据隐私的关键技术。传统的 DP 方法通常针对特定分析任务（如查询或模型训练）添加噪声，导致数据难以复用。DP 表格数据合成通过生成合成数据集，允许数据在任意下游任务中复用，解决了这一问题。
现有局限：
- 现有的合成方法主要假设集中式（数据在单服务器）或本地（用户端加噪）设置。
- 水平联邦设置（Horizontal Federated Setting）被忽视：即多个参与方（如医院、银行）持有相同属性但不同用户的数据，且数据分布存在异构性（Heterogeneous）。
核心挑战：
- 直接合成局部数据：由于各参与方数据分布不同，简单合并局部合成数据会导致有偏且不一致的混合分布。
- 直接共享局部记录：若对每条记录加噪（LDP），噪声随数据量平方级增长，严重损害效用。
- 统计量共享的噪声问题：在联邦环境下，为了合成全局数据，需要共享统计量（如边际分布）。但在隐私预算有限的情况下，共享所有统计量会引入巨大噪声；若只共享部分，如何在不访问原始数据的情况下选择“最有价值”的统计量是一个难题。

2. 方法论 (Methodology)

HeteroFedSyn 是基于经典的 PrivSyn 范式（基于 2 阶边际分布的合成）构建的，专为水平联邦环境设计。其核心工作流程包含四个主要步骤：

2.1 边际共享 (Marginal Sharing)

本地计算：每个参与方计算本地数据的 1 阶和 2 阶边际分布。
随机投影压缩：为了降低通信开销和噪声，使用随机投影矩阵将高维的 2 阶边际分布压缩到低维向量（维度 $k \ll$ 原始维度）。
加噪与聚合：参与方对压缩后的边际分布添加高斯噪声并发送给服务器。服务器根据各参与方的样本量进行加权聚合，得到全局无偏估计。

2.2 依赖度量 (Dependency Measurement)

目标：识别属性间的相关性，以决定哪些 2 阶边际分布对合成数据最重要。
指标改进：将 PrivSyn 中的 $\ell_1$ 距离度量改为 $\ell_2$ 距离度量 ( $InDif^2$ )。
无偏估计：由于服务器只能访问带噪且压缩后的边际分布，直接计算距离会产生偏差。论文提出了一个严格的数学推导（Theorem 5），利用随机投影的性质和噪声统计特性，从带噪数据中推导出 $InDif^2$ 的无偏估计量，从而准确评估属性间的相关性。

2.3 边际选择 (Marginal Selection)

这是 HeteroFedSyn 的核心创新点，提出了两种策略：

FedPrivSyn (非自适应)：基于计算出的依赖分数，使用贪心算法一次性选择最重要的 2 阶边际分布。
AdaFedPrivSyn (自适应)：
- 痛点：静态选择可能忽略已选边际之间的冗余（例如，若已选 $(A,B)$ 和 $(B,C)$ ，则 $(A,C)$ 的信息可能已被隐含，再选它是浪费预算）。
- 机制：在每轮迭代中，服务器利用当前已选边际合成临时数据，重新计算剩余边际的依赖分数（更新 $InDif^2$ ）。
- 优势：动态更新依赖分数，避免选择冗余边际，将有限的隐私预算分配给能覆盖更多属性或提供新信息的边际。

2.4 数据合成 (Data Synthesis)

利用选定的 2 阶边际分布（以及未选属性的 1 阶边际），调用合成算法（如 PrivSyn 的 GUM 算法）生成全局合成数据集。
在自适应模式下，合成过程与边际选择交替进行，形成动态反馈循环。

2.5 隐私预算分配

采用 zCDP (零集中差分隐私) 进行隐私组合，以获得更紧致的隐私界限。
策略：将总预算分为两部分。一小部分（ $q$ ）用于初始的边际共享和依赖度量；大部分（$1-2q $）用于最终选定边际的加噪发布。通常设定$ q < 1/3$ 以确保主要预算用于关键数据。

3. 主要贡献 (Key Contributions)

首个联邦 DP 表格合成框架：提出了 HeteroFedSyn，这是第一个专门针对异构水平联邦设置的差分隐私表格数据合成框架。
三项关键技术创新：
- 基于 $\ell_2$ 的依赖度量与随机投影：设计了 $InDif^2$ 指标，结合随机投影技术，在降低通信成本的同时高效测量属性相关性。
- 无偏估计器：解决了在压缩且带噪的边际分布上计算依赖分数的偏差问题，提供了数学上严谨的无偏估计方法。
- 自适应边际选择：提出了 AdaFedPrivSyn，通过动态更新依赖分数来消除冗余，优化隐私预算的利用效率。
广泛的实验验证：在范围查询、Wasserstein 保真度以及机器学习任务（随机森林、MLP、XGBoost）上进行了大量实验。

4. 实验结果 (Results)

效用对比：尽管联邦设置引入了比集中式设置更多的噪声，HeteroFedSyn（特别是 AdaFedPrivSyn）在大多数数据集和任务上的表现与集中式的 PrivSyn 相当，误差保持在同一数量级，并未随噪声线性恶化。
自适应优势：在属性较多、相关性复杂的场景（如 Adult, Shoppers 数据集）中，自适应策略（AdaFedPrivSyn）显著优于非自适应策略和基线方法，能有效减少冗余并提升合成质量。
鲁棒性：
- 参与方数量：随着参与方数量增加，性能虽有下降，但误差增长趋于平缓。
- 数据分布：即使在数据分布高度异构（偏态分布）的情况下，框架仍能保持稳健，证明了其处理异构数据的能力。
- 隐私预算：在低隐私预算（ $\epsilon$ 较小）下，将更多预算分配给最终边际发布比分配给选择过程更有效；在高预算下，优化选择过程收益更大。

5. 意义与影响 (Significance)

填补空白：解决了 DP 数据合成在现实世界联邦场景（多机构协作、数据孤岛、分布异构）中的缺失，使得跨机构隐私保护数据共享成为可能。
实用价值：生成的合成数据可以直接用于下游的机器学习训练、统计查询等任务，无需再次访问原始敏感数据，大幅降低了数据共享的合规成本和隐私风险。
技术启示：展示了在分布式环境下，通过统计量压缩、无偏估计和自适应选择，可以在有限的隐私预算下实现高保真的数据合成，为未来的联邦学习隐私保护提供了新的思路。

总结：HeteroFedSyn 通过创新的统计量压缩、无偏依赖度量和自适应选择机制，成功在异构联邦环境中实现了高质量的差分隐私表格数据合成，平衡了隐私保护、通信效率和数据效用。