Log Probability Tracking of LLM APIs

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何像侦探一样，用极低的成本发现大语言模型（LLM）是否被悄悄换过”**的故事。

想象一下，你正在使用一个非常聪明的 AI 助手（比如通过 API 调用）。你希望它今天和明天是一样的，这样你的程序才不会出错，你的研究结果才能被复现。但是，AI 提供商可能会在后台偷偷升级模型、更换硬件，甚至植入一些“后门”。问题是：你怎么知道它变没变？

以前的方法就像是用**“显微镜”**去检查：你需要问它成千上万个复杂的问题，让它写长文章，然后对比答案。这太贵了，而且太慢，根本没法每天做。

这篇论文提出了一种**“听诊器”般的新方法，叫“对数概率追踪”（Log Probability Tracking, LT）**。

核心比喻：听诊器 vs. 显微镜

1. 以前的方法（显微镜）：太贵、太慢

以前的审计方法就像医生给病人做全身 CT 扫描。为了确认病人（AI 模型）有没有生病（被修改），医生需要拍很多张片子（问很多复杂问题），分析每一个细胞（生成的每一个字）。

缺点：费用高昂，效率低下。就像你为了确认今天的牛奶和昨天的是不是同一批，却把整桶牛奶都化验了一遍。

2. 新方法（听诊器）：便宜、灵敏

这篇论文的方法是：你不需要听它说长篇大论，只需要问它一个极其简单的问题（甚至只是一个字母"x"），然后让它只回答一个词。

关键秘密：虽然它只吐出一个词，但在这个词背后，AI 内部其实有一个**“概率分布”（即它认为下一个词是各种可能性的数值）。这个数值被称为"Log Prob"（对数概率）**。
比喻：这就好比医生不需要做 CT，只需要把听诊器贴在病人胸口听一下心跳。虽然只听到“咚、咚”两声，但心跳的节奏、力度（Log Prob 的数值）能极其敏锐地反映出心脏（模型）内部微小的变化。

为什么这个方法很厉害？

1. 极其灵敏（能听到“心跳”的微小波动）

AI 模型在生成内容时，内部并不是完全确定的，会有微小的随机波动（就像心跳有自然的起伏）。

以前的难题：因为这种波动，直接对比数值很难。
论文的突破：作者发明了一种统计学“听诊法”。虽然单次心跳（一次请求）有波动，但如果你连续听 100 次（发送 100 次请求），就能画出心跳的平均曲线。如果模型被微调了（哪怕只是微调了一步），这个“平均心跳曲线”就会发生肉眼可见的偏移。
效果：它能检测到**“微调一步”**这种极微小的变化，这是以前任何方法都做不到的。

2. 极其便宜（省了 1000 倍的钱）

旧方法：问 25 个问题，每个问题让 AI 写 50 个字。成本很高。
新方法：问 1 个问题，只让 AI 吐 1 个字。
比喻：以前为了检查牛奶，你要把整桶都化验；现在你只需要尝一口，甚至只是闻一下，就能知道牛奶是不是变质了。
数据：论文显示，新方法比旧方法便宜了 1000 倍。以前一年要花 300 多美元来监控，现在只要14 美分！

他们做了什么实验？

作者们做了一个叫 "TinyChange"（微小变化） 的测试场。

他们故意给模型制造各种“小病”：比如只训练它一步（微调）、随机给参数加点“噪音”、或者剪掉一点点“神经”（剪枝）。
结果发现，旧方法对这些“小病”几乎视而不见，而他们的“听诊器”方法却能精准捕捉到这些微小的异常。

现实世界的发现

作者们真的把这个方法用在了现实世界中，监控了 189 个 AI 接口，持续了 4 个多月。

结果：他们发现了37 次疑似的“悄悄换人”事件。
讽刺的是：很多被检测出变化的模型，号称是“开源”的（Open-weights），用户以为它们很稳定，结果后台也在偷偷改。这说明，即使模型代码是公开的，运行它的服务也可能在偷偷摸摸地变。

总结

这篇论文告诉我们：

不要只看 AI 说了什么（Token），要看它心里怎么想的（Log Prob）。
通过**“听诊”（统计单个词背后的概率波动），我们可以用极低的成本**（只问一个字）发现极微小的变化（甚至一步微调）。
这就像给 AI 世界装了一个廉价的、全天候的“防盗报警器”。以前我们只能等出了大乱子才发现模型变了，现在我们可以随时听到它的“心跳”，确保它没有偷偷换班。

一句话总结：以前检查 AI 是否被篡改，得像做手术一样昂贵；现在，只需要像听诊一样，轻轻问一个字，就能听出它是否“变了心”。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为《LLM API 的对数概率追踪》（Log Probability Tracking of LLM APIs）。以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

核心痛点：LLM API 用户（开发者、研究人员、监管机构）依赖 API 提供商承诺的模型一致性（即版本锁定），以确保下游应用的可靠性和研究的可复现性。然而，实际上缺乏一种低成本、可持续的方法来验证这种一致性。
现状挑战：
- LLM 模型处于持续开发中，提供商可能因性能优化、对抗越狱（Jailbreaks）、成本节约（量化、切换轻量模型）或恶意注入（后门）而悄悄修改模型。
- 现有的审计方法（如基于大量查询的基准测试或统计分布比较）成本过高，无法进行高频监控，导致模型更新在实际中基本处于“无人监管”状态。
- 现有的检测方法通常不够敏感，难以发现微小的模型变更（如单步微调）。

2. 方法论 (Methodology)

作者提出了一种名为**对数概率追踪（Logprob Tracking, LT）**的新方法，利用 LLM 返回的 token 对数概率（logprobs）而非 token 本身进行变更检测。

核心洞察：
- 虽然 logprobs 在实际推理中是非确定性的（受温度采样、批处理大小、硬件差异等影响），但它们包含比最终生成的 token 更丰富的信息（连续数值分布）。
- 即使只请求单个 token的输出，其 logprobs 的统计分布也能反映模型权重的微小变化。
技术流程：
1. 输入：使用一个极短的提示（Prompt），甚至只是一个字符（如 "x"），向两个待比较的 API 发送请求。
2. 采样：每个 API 返回 $N$ 次采样，每次仅请求第一个 token 的 logprobs（通常包含 top-k 个 token 的对数概率）。
3. 统计处理：
  - 由于 logprobs 的非确定性，不能直接比较向量相等性。
  - 作者将每个 token 的 logprob 视为来自某个概率分布的样本。
  - 计算两个 API 在相同输入下，每个 token 的平均 logprob 值。
  - 构建统计量 $S$ ：所有 token 平均 logprob 之间的绝对距离均值。
4. 假设检验：使用**置换检验（Permutation Test）**计算 p 值。如果 p 值小于显著性水平 $\alpha$ ，则拒绝零假设（即认为两个 API 的分布不同，模型发生了变更）。
5. 抗干扰：通过保守插值（imputation）处理不同采样中缺失的 token，确保统计量的鲁棒性。

3. 关键贡献 (Key Contributions)

提出 Logprob Tracking (LT) 方法：证明了仅需 1 个 token 的提示和 1 个 token 的响应 logprobs，即可在极低成本下实现比现有方法更高的检测灵敏度和性能。
构建 TinyChange 基准：
- 这是一个专门用于评估微小、真实模型变更检测能力的基准。
- 生成了 58 种模型变体，涵盖五种修改强度：微调（Fine-tuning/LoRA）、非结构化剪枝（Weight Pruning）、参数噪声（Parameter Noising）。
- 修改强度跨越多个数量级（例如微调步数从 1 到 512，噪声标准差从 $2^{-15}$ 到 1）。
大规模实证评估：
- 在 5 个开源模型（0.5B 到 8B 参数）上进行了 290 次变体测试。
- 在真实世界环境中，对 10 家提供商的 189 个 API 端点进行了超过 4 个月的每小时监控，收集了 170 万 + 次响应。

4. 实验结果 (Results)

灵敏度（Sensitivity）：
- LT 能够检测到**单步微调（one step of fine-tuning）**级别的微小变化。
- 在权重剪枝实验中，LT 能检测到 $2^{-10}$ 级别的权重移除，而现有方法（MET, MMLU-ALG）仅能检测到 $2^{-1}$ 或 $2^{-4}$ 级别的变化。
- LT 的灵敏度比现有最佳方法（MET）高出 2-3 个数量级，比 MMLU-ALG 高出 1-2 个数量级。
成本（Cost）：
- LT 仅需极少的 token（约 28 个输入 + 20 个输出 token/测试）。
- 相比现有方法，LT 的成本降低了约 1000 倍（每年监控成本从数百美元降至 0.14 美元）。
提示长度影响：
- 实验表明，极短的提示（甚至 1 个 token）与长提示在检测性能上差异极小（AUC 差异约 1%），验证了单 token 策略的有效性。
真实世界发现：
- 在 4 个月的监控中，检测到了 37 起疑似变更事件，涉及 29 个端点和 7 家提供商。
- 值得注意的是，绝大多数变更（34/37）发生在开源权重模型上，表明即使模型权重公开，部署过程中的隐性变更依然普遍存在，破坏了开源的透明度优势。

5. 意义与局限性 (Significance & Limitations)

意义：
- 低成本高灵敏度：为 LLM API 的持续审计提供了一种可行、经济且极其敏感的工具。
- 透明度提升：揭示了当前 LLM 部署中普遍存在的“黑盒”变更现象，特别是针对开源模型。
- 防御机制：可作为第一道防线，快速触发警报，引导进行更深入的安全或合规调查。
局限性：
- 依赖 Logprobs 支持：仅适用于支持返回 logprobs 的 API（目前约 23% 的 OpenRouter 端点支持）。
- 无法区分变更类型：只能检测分布是否改变，无法区分是模型更新、硬件变更还是软件栈调整。
- 潜在规避：理论上提供商可以通过识别监控流量并缓存特定响应来规避检测，但这会引入其他不一致性风险。
- 单 Token 限制：某些针对生成长度或后期 token 的修改可能无法通过首 token logprobs 检测到。

总结：该论文通过利用 LLM 推理过程中的 logprobs 信息，结合简单的统计假设检验，成功打破了“高精度检测必然伴随高成本”的困境，为 LLM 模型的一致性和完整性监控提供了强有力的新范式。

Log Probability Tracking of LLM APIs

核心比喻：听诊器 vs. 显微镜

1. 以前的方法（显微镜）：太贵、太慢

2. 新方法（听诊器）：便宜、灵敏

为什么这个方法很厉害？

1. 极其灵敏（能听到“心跳”的微小波动）

2. 极其便宜（省了 1000 倍的钱）

他们做了什么实验？

现实世界的发现

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与局限性 (Significance & Limitations)

类似论文

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank