Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ProxyFL 的新方法，旨在解决“联邦半监督学习”（FSSL）中的一个核心难题。为了让你轻松理解，我们可以把整个场景想象成一群分散在各地的厨师（客户端）共同研发一道新菜（全局模型）。

1. 背景：为什么需要“联邦半监督学习”？

联邦学习（FL）： 想象一下，很多厨师（客户端）各自在自己的厨房里做菜，他们不想把自家的秘密食谱（原始数据）传给总部的“主厨”（服务器），只愿意把“改进后的烹饪技巧”（模型参数）传上去。这样既保护了隐私，又能让大家互相学习。
半监督学习（SSL）： 现实很骨感，很多厨师手里只有很少的带标签的食材（比如只有几颗标好“这是番茄”的西红柿），但有一大堆没标签的食材（比如一堆不知道是番茄还是辣椒的红色蔬菜）。
目标： 大家想利用那一点点已知食材，加上大量未知食材，共同训练出一个超级厉害的全局模型。

2. 遇到的两大难题（异质性）

在这个合作过程中，出现了两个大麻烦：

难题一：外部异质性（大家口味太不一样了）

比喻： 有的厨师习惯做川菜（数据分布 A），有的习惯做粤菜（数据分布 B）。如果总部只是简单地把大家传上来的“技巧”取个平均值，就像把川菜和粤菜强行混在一起，结果可能做出来的菜“四不像”，既不像川也不像粤。
论文发现： 直接平均就像“和稀泥”，容易受到那些特别偏激的口味（离群点）影响，导致最终模型偏离了大家真正想要的“理想味道”。

难题二：内部异质性（自己家里也有矛盾）

比喻： 每个厨师自己厨房里，已知食材（标签）很少，未知食材（无标签）很多。为了保险起见，以前的方法只敢用那些非常有把握的未知食材（高置信度样本），把那些拿不准的（低置信度样本，比如看着像番茄又像辣椒的）直接扔掉。
后果： 这导致大量有价值的食材被浪费了，而且因为拿不准的食材里其实也藏着很多正确的信息，扔掉它们会让模型学得更慢、更差。

3. ProxyFL 的解决方案：引入“代理（Proxy）”

为了解决这两个问题，作者提出了 ProxyFL，核心思想是引入一个**“智能代理”**。

你可以把“代理”想象成每个菜系的“标准味型卡”。它不是具体的某道菜，而是代表“番茄味”、“辣椒味”这种抽象概念的权重。

策略一：全局代理微调（GPT）—— 解决“口味不统一”

怎么做： 总部不再简单地把大家的技巧平均一下。而是设立一个“标准味型卡”（全局代理），然后让每个厨师拿着自己的“味型卡”来校准这个标准。
比喻： 总部会问：“川菜师傅，你觉得你的‘辣味’标准卡应该往哪边调？粤菜师傅，你的‘鲜味’标准卡又该怎么调？”
效果： 总部通过优化这些“标准卡”，而不是直接平均数据，巧妙地避开了那些特别偏激的口味（离群点），让最终的“标准味型”能更好地代表所有人的真实需求，而不是被少数人带偏。

策略二：犹豫类别代理学习（ICPL）—— 解决“不敢用拿不准的食材”

怎么做： 以前遇到拿不准的食材（低置信度样本），直接扔掉。现在，ProxyFL 说：“别扔！我们给它贴个**‘多选标签’**。”
比喻： 如果一颗蔬菜看着像番茄又像辣椒，以前的做法是：“我不确定，扔了！”现在的做法是：“好吧，它可能是番茄，也可能是辣椒，那我们就把它同时算作‘番茄候选’和‘辣椒候选’。”
正负代理池： 系统会建立一个“关系池”。
- 正代理（拉近）： 把这个拿不准的蔬菜，和它可能属于的几种“标准味型卡”拉近关系。
- 负代理（推远）： 把它和它绝对不属于的味型卡推远。
效果： 这样既利用了那些原本被丢弃的“拿不准”食材，又避免了因为贴错单一标签（比如非黑即白地说是番茄）而导致的错误。

4. 总结：为什么它很厉害？

不泄露隐私： “代理”只是模型参数的一部分，就像只传“味型卡”而不传“具体菜谱”，完全安全。
不增加负担： 计算“代理”比处理原始数据要轻量得多，就像只计算“味道指数”比分析“每一颗蔬菜的成分”要快得多。
双管齐下： 它同时解决了“大家口味不同”（外部）和“自己拿不准”（内部）的问题。

一句话总结：
ProxyFL 就像一位高明的总厨，他不再强行把大家的做法平均化，而是通过校准“标准味型卡”来统一大家的口味；同时，他鼓励大家把那些“拿不准的食材”也利用起来，通过“多选标签”的方式，让所有食材都能为最终的美味（模型性能）做出贡献，而且不用牺牲隐私或浪费数据。

实验结果表明，这种方法在各种数据集上都能让模型学得更快、更准，效果远超之前的方法。

Each language version is independently generated for its own context, not a direct translation.

ProxyFL 技术总结：基于代理引导的联邦半监督学习框架

1. 研究背景与问题定义

背景：
联邦半监督学习（Federated Semi-Supervised Learning, FSSL）旨在利用客户端的少量标注数据和大量未标注数据，在保护隐私的前提下协同训练全局模型。然而，实际应用中面临严峻的**数据异构性（Data Heterogeneity）**挑战，主要分为两类：

外部异构性（External Heterogeneity）：不同客户端之间的数据分布不一致（Non-IID）。
内部异构性（Internal Heterogeneity）：同一客户端内部，标注数据与未标注数据之间的分布不匹配，以及不同类别样本数量的不平衡。

现有方法的局限性：

针对外部异构性：现有方法多采用基于权重的聚合策略（如 FedAvg 或动态权重），试图通过直接平均模型参数来拟合全局分布。然而，由于客户端分布差异大，直接平均容易受离群点（Outliers）影响，导致全局模型偏离理想的类别分布空间。
针对内部异构性：现有方法通常采用“伪标签”策略，仅保留高置信度的未标注样本进行训练，丢弃低置信度样本以避免错误标签的干扰。这导致大量数据被浪费，参与训练的样本量减少，加剧了内部异构性，限制了模型性能。

核心问题：

是否存在一种比直接聚合权重更优的方法，能在不泄露隐私的前提下更精准地拟合全局类别分布？
如何更有效地利用低置信度的未标注样本，而不是简单地丢弃它们？

2. 方法论：ProxyFL 框架

作者提出了 ProxyFL，一个统一的**代理引导（Proxy-Guided）框架。其核心思想是将分类器的可学习权重（Learnable Weights）**视为“代理（Proxy）”，用于模拟局部和全局的类别分布，而非使用传统的原型（Prototypes）。

2.1 全局代理微调（Global Proxy Tuning, GPT）

目标：解决外部异构性，优化全局类别分布。

机制：服务器接收各客户端上传的分类器权重（作为局部代理），不直接进行加权平均，而是通过一个显式的优化目标来微调全局代理（Global Proxies, $\Omega_G$ ）。
优化策略：对于每个类别的全局代理，优化目标是将其拉近到所有属于该类别的局部代理，同时推远其他类别的局部代理。
优势：通过对比学习式的损失函数，GPT 能够抵抗离群点的影响，使全局代理更准确地拟合跨客户端的真实类别分布，避免了简单平均带来的偏差。

2.2 犹豫类别代理学习（Indecisive-Categories Proxy Learning, ICPL）

目标：解决内部异构性，充分利用低置信度样本。

核心创新：不再为低置信度样本分配单一的伪标签，而是构建一个**“犹豫类别集合”（Indecisive-Categories Set, $\xi$ $ξ$ ）**。
- 对于高置信度样本或标注样本，使用单一标签。
- 对于低置信度样本，模型在多个类别间犹豫。ICPL 利用动态维护的全局类别先验 $P'_G(Y)$ 作为阈值，筛选出所有概率超过该先验的类别，构成集合 $\xi$ 。
正负代理池（Positive-Negative Proxy Pool）：
- 正代理（Positive Proxy）：高置信度样本使用其伪标签对应的代理权重；低置信度样本使用其犹豫集合 $\xi$ 中所有类别的加权代理权重。
- 负代理（Negative Proxies）：只要样本的类别集合不重叠，即视为负样本。
训练方式：利用对比学习（Contrastive Learning）在正负代理池中对所有样本（包括低置信度样本）进行训练。
优势：避免了因伪标签错误导致的模型性能下降，同时让低置信度样本参与训练，增加了数据利用率，缓解了内部异构性。

2.3 整体损失函数

总损失函数由三部分组成：
$L = L_s + \alpha L_u + \beta L_{ICPL} \quad (\text{本地}) + L_{GPT} \quad (\text{全局})$
其中 $L_s$ 为标注数据的交叉熵损失， $L_u$ 为高置信度未标注数据的 KL 散度损失， $L_{ICPL}$ 为 ICPL 的对比损失， $L_{GPT}$ 为服务器端的全局代理微调损失。

3. 主要贡献

统一代理机制：首次提出利用分类器权重作为统一代理，同时解决 FSSL 中的外部和内部异构性问题。该方法不泄露数据隐私，且通信开销极小（代理本身就是模型参数的一部分）。
显式优化与数据利用：
- 通过 GPT 显式优化全局代理，克服了传统聚合权重受离群点影响的问题。
- 通过 ICPL 机制，将低置信度样本纳入训练，构建了更鲁棒的样本关系，显著提升了数据参与度。
性能突破：在多个数据集（CIFAR-10/100, SVHN, CINIC-10）和不同异构程度（ $\alpha$ ）下，ProxyFL 均取得了 State-of-the-Art (SOTA) 的性能，甚至在某些设置下接近全监督联邦学习的上限。

4. 实验结果

数据集与设置：在 CIFAR-10, CIFAR-100, SVHN, CINIC-10 上进行了测试，标签比例设为 10%，模拟了不同程度的 Non-IID 分布（ $\alpha \in \{0.1, 0.5, 1\}$ ）。
性能对比：
- ProxyFL 在 CIFAR-100 ( $\alpha=0.1$ ) 上比次优方法 SAGE 提升了 3.32%。
- 在 SVHN 和 CINIC-10 的低标签比例设置下，ProxyFL 的表现甚至接近全监督联邦学习（FedAvg-SL）的上限。
收敛性分析：
- ProxyFL 显著加快了模型收敛速度。在 CIFAR-100 上，达到 50% 准确率所需的通信轮次比 SAGE 减少了约 33%（从 267 轮降至 177 轮）。
- 归因于有效利用了低置信度样本，避免了因样本丢弃导致的训练停滞。
消融实验：
- GPT 和 ICPL 模块单独使用均能提升性能，两者结合效果最佳。
- 对比实验证明，基于“犹豫集合”的代理学习（ICPL）优于直接分配伪标签或完全丢弃低置信度样本的策略。
- 相比基于原型（Prototypes）的方法，基于代理（Proxies）的方法在隐私保护和计算开销上更具优势。

5. 研究意义

ProxyFL 为联邦半监督学习提供了一种新的范式：

理论层面：揭示了直接聚合模型权重在异构数据下的局限性，并提出了基于代理优化的新视角。
实践层面：提供了一种高效、低开销且隐私安全的解决方案，能够充分利用边缘设备上的海量未标注数据，特别适用于数据标注成本高且分布高度异构的场景（如医疗影像、物联网设备数据）。
技术启示：证明了通过优化模型参数（代理）本身来建模分布，比依赖外部统计量或简单聚合更为鲁棒；同时展示了通过集合式监督（Set-based supervision）处理模糊样本的有效性。

综上所述，ProxyFL 通过统一的代理机制，巧妙地平衡了全局分布拟合与局部样本利用，显著提升了联邦半监督学习在复杂异构环境下的性能与效率。

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning