Expert Selections In MoE Models Reveal (Almost) As Much As Text

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能隐私安全的惊人发现：在一种名为“混合专家模型”（MoE）的先进 AI 系统中，即使攻击者看不到你输入的文字，他们也能通过观察 AI 的“内部决策路径”，几乎完全还原出你说了什么。

为了让你轻松理解，我们可以把这篇论文的核心内容想象成**“侦探通过脚印还原嫌疑人”**的故事。

1. 背景：AI 的“超级大脑”是如何工作的？

现在的 AI（大语言模型）非常庞大。为了跑得更快、更省电，科学家们设计了一种叫**MoE（混合专家模型）**的架构。

比喻：想象一个巨大的咨询公司，里面有 32 位不同的“专家顾问”（Expert）。
工作机制：当你问一个问题（输入一个词），公司的“调度员”（Router）不会让所有 32 位专家都来开会，而是根据问题内容，只挑选其中4 位最合适的专家来回答。
优势：这样既快又省资源，因为每次只激活一小部分人。

2. 核心发现：脚印泄露了秘密

这篇论文的作者发现了一个巨大的安全漏洞：“调度员”挑选了哪几位专家，这个决定本身就包含了你输入文字的全部秘密。

以前的认知：大家以为，只有看到专家写出来的“最终答案”（生成的文本）或者“内部思考过程”（隐藏状态），才能知道你在说什么。至于“选了哪几位专家”，大家觉得那只是冷冰冰的数字，没什么信息量。
现在的发现：作者证明，“选了哪几位专家”这个信号，就像嫌疑人留下的独特脚印。
- 如果你输入的是“苹果”，调度员可能会选专家 A、B、C、D。
- 如果你输入的是“香蕉”，调度员可能会选专家 A、E、F、G。
- 虽然攻击者没看到“苹果”或“香蕉”这两个字，但他们只要看到“选了 A、B、C、D"，就能反推出你输入的是“苹果”。

3. 攻击过程：侦探是如何做到的？

作者设计了一种“逆向工程”攻击，就像侦探通过脚印还原嫌疑人长相：

训练阶段（学习规律）：
- 攻击者先拿大量的公开文本（比如新闻、小说）喂给 AI。
- 他们记录下：“输入了这句话” -> “AI 选了哪几位专家”。
- 这就建立了一个巨大的“脚印 - 人物”数据库。
解码阶段（还原真相）：
- 当攻击者截获了敏感数据（比如用户的私密聊天记录）的“专家选择记录”时，他们不需要看到文字。
- 他们把记录输入到训练好的**“解码器”**（一个复杂的数学模型，像是一个超级侦探）中。
- 结果惊人：
  - 简单的解码器能猜对 63% 的词。
  - 高级的解码器（基于 Transformer 架构）能猜对 91% 的词！甚至在前 10 个猜测里，有 95% 的概率包含正确答案。

简单说：只要知道 AI 内部“谁参与了讨论”，就能把“讨论的内容”几乎原封不动地还原出来。

4. 这种信息是怎么泄露的？（攻击场景）

你可能会问：“专家选择记录这么隐秘，黑客怎么拿到？”论文列举了几个现实场景：

分布式推理（跨设备泄露）：
- 比喻：如果这个咨询公司在不同的城市（服务器）办公。黑客如果控制了其中一栋大楼（服务器），他就能看到“调度员”把任务派给了哪几个城市的专家。通过这种网络传输的“派单记录”，黑客就能还原内容。
侧信道攻击（物理窃听）：
- 比喻：就像通过听机器运转的声音或测量耗电量来推测机器在做什么。如果黑客能监测到 GPU 显卡的功耗波动或电磁信号，他们就能推断出“哪几位专家正在工作”，从而还原出文字。
管道并行（数据中心的泄露）：
- 比喻：如果专家被分散在不同的机器上，黑客只需要观察哪台机器在“发热”或“忙碌”，就能反推出任务内容。

5. 这意味着什么？（结论与建议）

这篇论文给 AI 行业敲响了警钟：

专家选择记录 = 敏感数据：以前我们认为只有“生成的文字”是隐私，现在发现，“谁参与了处理”这个信息本身也是隐私。它和文字本身一样敏感。
加噪也没用：作者尝试给这些选择记录加一点“噪音”（随机打乱），发现虽然能降低一点还原准确度，但无法彻底阻止攻击。
防御建议：
- 在部署 AI 时，不要把“专家选择记录”打印出来、存进日志或通过网络传输给外部。
- 就像你不会把“谁参与了会议”的名单随意发给外人一样，这些内部路由信息也应该被严格保护。
- 需要设计更安全的硬件和架构，防止通过物理手段（如功耗）偷窥这些内部决策。

总结

这就好比你在一个巨大的迷宫里说话，以前大家以为只要没人听到你的声音（文本），你就很安全。但这篇论文告诉你：只要你走过的路线（选择了哪些专家）被记录下来，别人就能通过路线图，把你说的话一字不差地拼凑出来。

因此，保护 AI 隐私，不仅要保护“说了什么”，还要保护“谁参与了处理”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

随着大语言模型（LLM）规模的扩大，混合专家（Mixture-of-Experts, MoE）架构因其计算高效性（每 token 仅激活部分参数）而被广泛采用。然而，MoE 的路由机制（Routing Mechanism）——即每个 token 被分配给哪些专家子网络——可能成为新的隐私泄露面。

核心问题：攻击者如果仅能观察到模型的路由决策（即每个 token 被路由到了哪几个专家），能否重构出原始的输入文本？
威胁模型：
- 观测信号：攻击者仅观测到路由器在每一层为每个 token 选择的专家索引集合（Expert Selections）。
- 未知信息：攻击者不知道路由 logits、权重、隐藏状态或专家输出。
- 先验知识：攻击者知道分词器（Tokenizer）和 MoE 配置（专家数量 $n$ 、选择数量 $k$ ）。
- 数据获取：攻击者可以通过分布式推理、侧信道（如 GPU 性能计数器）或内部日志获取“（文本，路由迹）”配对数据进行训练。

2. 方法论 (Methodology)

作者提出了一种基于**文本重构（Text Reconstruction）**的攻击方法，利用机器学习模型从离散的路由迹中恢复 token 序列。

2.1 数据准备

数据集：使用 OpenWebText 数据集。
模型配置：基于 gpt-oss-20b 模型（32 个专家，Top-4 路由，24 层，词表大小 201,088）。
训练数据：将 1 亿（100M）tokens 切分为 32-token 的块，在预填充（prefill）模式下运行模型，生成“（token 序列，专家选择迹）”配对。
测试数据：使用 1000 万（10M）tokens 的独立验证集。

2.2 攻击模型设计

作者对比了两种解码器架构：

单 Token MLP 基线 (Single-token MLP)：
- 一个 3 层的多层感知机（MLP）。
- 输入：单个 token 的专家选择迹（无序集合）。
- 输出：词表上的概率分布。
- 特点：将每个 token 视为独立样本，忽略上下文依赖。
序列解码器 (Sequence Decoder)：
- 基于 Transformer 的编码器（Encoder-only）。
- 输入：整个序列的专家选择迹（包含所有层的信息）。
- 处理流程：
  1. 将每层的 Top-k 选择转换为 32 维二进制向量（4 个 1，其余为 0）。
  2. 通过小型 MLP 处理每层表示并拼接。
  3. 投影到 token 级嵌入流，加入可学习的位置编码。
  4. 使用非因果自注意力块（Non-causal self-attention）处理序列依赖。
  5. 通过线性头预测 token logits。
- 特点：利用 token 之间的序列依赖关系，性能显著优于 MLP。

3. 关键结果 (Key Results)

实验结果表明，仅凭专家选择迹就能以极高的准确率重构原始文本。

重构准确率：
- MLP 基线：Top-1 准确率为 63.1%。
- Transformer 序列解码器：
  - Top-1 准确率：91.2%
  - Top-5 准确率：94.3%
  - Top-10 准确率：94.8%
- 这意味着在 32-token 的序列中，模型几乎能完全恢复原始文本。
数据规模影响：
- 随着训练数据量从 1M 增加到 100M tokens，准确率显著提升（见图 2），表明该攻击具有数据依赖性，但在大规模数据下效果极佳。
信息熵分析：
- 作者计算了每层专家选择的熵。虽然理论上限很高（每 token 约 363 bits），但实际有效熵受层间相关性影响较低。
- 层间互信息：早期层（1-7）之间互信息较高，中间层（约第 11 层）表现出独特的路由模式，表明不同层包含互补信息。
鲁棒性测试：
- 即使对专家选择迹添加噪声（随机替换部分选择），重构准确率仍保持较高水平，但随着噪声比例增加而下降（见图 6）。

4. 攻击面与泄露场景 (Attack Surfaces)

论文指出了多种实际场景中路由迹可能泄露的途径：

分布式推理 (Distributed Inference)：在跨设备或跨域部署时，恶意主机可能观测到完整或部分的路由迹。
物理侧信道 (Physical Side Channels)：通过电源消耗、电磁辐射或 GPU 性能计数器（如 Ding et al., 2025 所述）推断哪些专家被激活。
流水线并行 (Pipeline-parallel MoE)：如果专家被分片到不同 GPU，攻击者可通过频率分析或设备活动检测来推断路由。

5. 缓解措施 (Mitigations)

针对上述风险，作者提出了以下防御建议：

数据敏感性处理：将专家选择迹视为与原始文本同等敏感的数据，避免在日志、导出或跨信任边界传输时暴露。
工程化防御：
- 负载均衡：平衡专家工作负载和内存访问模式，降低可区分性。
- 填充计算：添加虚拟计算或恒定工作填充，模糊专家依赖的活动。
- 路由随机化：引入 Logit 噪声或定期置换专家身份，增加迹的不稳定性。
- 硬件加固：隔离共置工作负载，禁用细粒度性能计数器，屏蔽物理侧信道传感器。

6. 局限性与未来工作 (Limitations)

长序列扩展：目前结果主要针对 32-token 短序列，长序列（数百或数千 token）的重构能力尚未系统评估，歧义性可能增加。
迁移性：攻击依赖于特定的模型族和分词器。跨模型、跨分词器或不同路由配置的迁移效果未经验证。
部分迹：主要评估假设观测到所有 24 层，对于仅观测部分层的情况，重构精度需重新训练模型评估。

7. 意义与结论 (Significance)

理论贡献：首次证明了 MoE 模型中的离散路由决策（专家选择）本身包含足以重构原始文本的高保真信息，将其与嵌入向量反转（Embedding Inversion）文献联系起来。
实践警示：MoE 部署中的路由迹不应被视为无害的中间信号。在分布式推理和侧信道攻击场景下，这些迹可能导致严重的隐私泄露（如恢复用户提示词、API 密钥等）。
安全建议：在设计和部署可信 AI 系统时，必须将路由信息纳入隐私保护范畴，采取严格的访问控制和抗侧信道措施。

总结：该论文揭示了一个严峻的安全隐患——在 MoE 架构中，“谁处理了数据”（路由选择）几乎等同于“数据是什么”（文本内容）。这要求未来的 MoE 系统设计必须将路由迹视为敏感数据加以保护。