Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

本文首次系统审计了声称提供官方大模型服务的“影子 API",揭露了其中普遍存在的欺骗行为(如性能偏差高达 47.21%、安全行为不可预测及身份验证失败),并指出这些虚假服务严重损害了学术研究的复现性与有效性、用户利益及官方模型提供商的声誉。

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“大模型界的打假报告”**,揭露了一个名为“影子 API"的灰色市场。

为了让你轻松理解,我们可以把整个故事想象成**“高端餐厅的代买服务”**。

1. 背景:为什么会有“影子 API"?

想象一下,世界上有几家顶级的**“米其林三星大餐厅”**(比如 OpenAI 的 GPT-5、Google 的 Gemini),它们做的菜(AI 模型)非常好吃,但有两个问题:

  1. 太贵了:一顿饭要很多钱。
  2. 有门槛:有些地区(比如中国、俄罗斯)的人被禁止直接进店,或者没有信用卡付不了账。

于是,一群**“黄牛”或“代购”**出现了。他们自称是“影子 API"(Shadow APIs)。

  • 他们的承诺:“别去官方餐厅排队了!找我!我能让你吃到和官方一模一样的顶级大餐,而且不用出国,价格还便宜,甚至还能打折!”
  • 实际情况:他们就像是一个黑箱中介。你付钱给他们,他们转头去官方餐厅买(或者用更便宜的替代品),然后把菜端给你。

2. 核心发现:你吃到的可能不是“真菜”

研究人员(这篇论文的作者)决定去“暗访”这些代购。他们找了 17 个最火的“影子 API",发现了一个惊人的真相:这些代购在撒谎,而且撒得很离谱。

比喻一:挂羊头卖狗肉(模型替换)

  • 官方承诺:你点的是“顶级和牛”(GPT-5 或 Gemini-2.5)。
  • 影子 API 的真相
    • 有的给你端上来的是**“普通牛肉”**(比如用便宜的开源模型冒充顶级模型)。
    • 有的给你端上来的是**“过期的和牛”**(用旧版本的模型冒充新版本)。
    • 数据:在测试中,**接近一半(45.83%)**的“影子 API"被识破了,它们根本不是你点的那个模型!就像你点了一杯星巴克,结果给你端来的是隔壁小卖部兑了水的速溶咖啡。

比喻二:厨师心情不好,做出来的菜味道变了(性能不稳定)

即使有些代购真的给你用了“和牛”,做出来的味道也完全不一样:

  • 官方餐厅:厨师很稳定,做一道数学题,90% 能算对。
  • 影子 API
    • 有的厨师**“手抖”**,同样的题,正确率直接从 83% 跌到 37%(就像你点了一份满分套餐,结果端上来全是半生不熟的)。
    • 特别是在医疗法律这种高风险领域,影子 API 给出的建议可能是**“致命错误”**。比如,医生问怎么治艾滋病,官方说“做抗体检测”,影子 API 可能说“去查基因型”,这可能会害死人。

比喻三:安全防线形同虚设(安全性不可靠)

  • 官方餐厅:有严格的安检,如果有人想带“毒药”(有害信息)进厨房,会被拦下来。
  • 影子 API
    • 有时候安检太松了:你问一些危险的问题,官方会拒绝,但影子 API 却把“毒药”端给你(比如教人怎么制造炸弹)。
    • 有时候安检太严了:明明是个正常问题,影子 API 却误判为危险,直接拒绝回答。
    • 结论:你根本不知道它什么时候会“发疯”。

3. 为什么这很严重?

这篇论文指出,这个“影子市场”已经污染了学术界

  • 现状:有187 篇发表在顶级会议(如 ACL, CVPR)上的论文,使用了这些“影子 API”做实验。
  • 后果
    • 研究造假:如果论文里说“我的模型在 GPT-5 上表现很好”,但实际上用的是“山寨版 GPT-5",那这个研究结论就是假的
    • 浪费金钱:研究人员花了大价钱,却买到了劣质服务。
    • 信任崩塌:就像你信任一家餐厅,结果发现它一直在用假食材,以后谁还敢去吃饭?

4. 作者是怎么抓出这些骗子的?

作者没有靠猜,而是用了两招“照妖镜”:

  1. 指纹识别(Fingerprinting):每个大模型说话都有独特的“口音”和“习惯”。作者通过问一系列刁钻的问题,分析回答的“指纹”。结果发现,很多影子 API 的“口音”和官方完全对不上。
  2. 压力测试(MET):让官方和影子 API 同时做几千道题,对比它们的“分布”。如果两者差异太大,说明它们根本不是同一个模型。

5. 总结与建议

这篇论文的核心思想是:

“影子 API"就像是一个充满欺诈的地下黑市。它们声称提供顶级服务,但实际上可能给你的是劣质品、假货,甚至是有毒的产品。在科学研究和重要应用中,绝对不能依赖它们。

给普通人的建议:

  • 别贪小便宜:如果你需要可靠的 AI 服务,请直接找官方(OpenAI, Google 等)。
  • 警惕“代购”:如果有人告诉你“我有内部渠道,能便宜用 GPT-5",请立刻拉黑,因为你大概率买到的是假货。
  • 科研要诚实:做研究时,必须明确记录你用的是哪个 API,如果是影子 API,最好别用,否则你的论文可能因为“食材不纯”而被撤稿。

一句话总结:
“影子 API"是披着羊皮的狼,它们用低价和便捷诱惑你,却偷偷换掉了你花钱买的“顶级大脑”,让你交着真金白银,却吃着“科技与狠活”的假菜。