Menu Pricing of Large Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常现代且重要的问题：如何给大语言模型（LLM，比如 ChatGPT、Claude）制定最赚钱且合理的定价策略？

想象一下，你是一家卖“超级大脑”（AI 模型）的老板。你的客户有成千上万种不同的需求：有的只是写个简单的邮件，有的要写复杂的代码，有的要分析法律文件。每个客户对“大脑算力”的渴望程度不同，而且他们自己最清楚自己需要多少算力，但你作为老板却看不透。

这就好比你要卖一种**“万能燃料”**，但客户既不想按“升”买（因为不知道要用多少），也不想按“次数”买（因为每次任务难度不同）。

这篇论文的核心发现是：虽然看起来这个问题极其复杂（像一团乱麻），但其实有一个简单的“魔法钥匙”能解开它。

以下是用通俗语言和比喻对论文核心内容的解读：

1. 核心难题：看不见的“任务地图”

现实情况：每个用户脑子里都有一张“任务地图”。有的用户只有一两个高价值任务（比如只用来写代码），有的用户有成千上万个低价值任务（比如用来闲聊）。
困难点：作为卖家，你只能看到用户用了多少“令牌”（Token，即 AI 生成的字数），但你不知道这些令牌具体用在了哪些任务上。用户可能会把昂贵的算力用在简单的任务上，或者把便宜的算力用在复杂的任务上。这就产生了“信息不对称”和“道德风险”。
比喻：就像你开了一家**“自助餐厅”**，顾客可以随便吃。但你不知道顾客是为了填饱肚子（简单任务）还是为了尝遍珍馐（复杂任务）。如果你定价太高，简单吃饭的人跑了；定价太低，吃大餐的人占了便宜，你亏本。

2. 魔法钥匙：把“复杂”压缩成“一个数字”

论文最惊人的发现是：虽然用户的任务千差万别，但在数学上，所有用户的复杂需求可以被压缩成一个简单的“总指数”（Aggregate Type）。

比喻：想象每个用户手里都拿着一袋不同重量的“金币”（代表他们对不同任务的价值）。虽然金币的分布不同（有的用户金币集中在少数几个任务，有的分散在无数任务），但只要金币的总重量（总指数）一样，他们消耗算力的方式和获得的满足感就是一样的。
结论：卖家不需要去管用户具体在做什么任务，只需要根据这个“总指数”来卖货。这就像把成千上万种不同的菜单，简化成了**“按总食量收费”**。

3. 最优定价策略：三种“套餐”形式

既然知道了用户只看“总食量”，论文提出了三种最赚钱的卖法，而且这些方法在现实中已经存在了：

A. “预算封顶”模式（Maximum-Spend）

机制：用户付一笔钱，获得一个“积分包”（比如 100 万积分）。每次使用 AI，根据任务的难度扣除不同数量的积分。一旦积分用完，服务就停止，直到下个月。
比喻：就像**“自助餐券”**。你付了 200 元，可以随便吃，但如果你吃得太撑（用了太多算力），餐厅就关门了。
现实案例：Quora 的 Poe。用户买月费，获得“点数”，不同模型扣点数不同，点数用完即止。

B. “保底消费”模式（Minimum-Spend）

机制：用户承诺每月至少消费多少钱。如果没花够，也要付保底费；如果花超了，超出部分按单价算，但单价可能更便宜。
比喻：就像**“手机套餐”**。你承诺每月至少花 100 元，如果用了 150 元，多出的 50 元按标准价算；如果只用了 80 元，你也得付 100 元。
现实案例：GitHub Copilot。开发者付月费，有一定额度的高级请求，用超了可以按次付费。

C. “分级订阅”模式（按模型能力分级）

机制：不仅卖“量”，还卖“质”。便宜的套餐只能用普通模型，贵的套餐才能用“超级大脑”（推理能力更强的模型）。
比喻：就像**“电影院”**。普通票只能看普通厅，VIP 票才能看 IMAX 厅。
现实案例：OpenAI (ChatGPT)。免费/Plus 版只能用基础模型，Pro 版（$200/月）才能独家使用最强的 o1 推理模型。

4. 竞争的影响：当“开源”小厂出现时

论文还研究了当有一个“巨头”（专有模型）和一个“小贩”（开源模型，按成本价卖）竞争时会发生什么。

低需求用户：直接去小贩那里买，因为便宜。
中等需求用户：巨头会设计一种“刚好够用”的套餐，让用户觉得“去小贩那里补货太麻烦/不划算”，从而把用户留在巨头这里。这叫**“阻吓策略”**。
高需求用户：巨头直接按垄断价格卖给他们，因为这些人离不开巨头的高级功能。
比喻：就像**“星巴克”和“路边摊”**。
- 只想喝杯水的（低需求）：去路边摊。
- 想喝拿铁的（中需求）：星巴克推出“买一送一”或“会员日”，让你觉得去路边摊买咖啡豆自己煮太麻烦，于是留在星巴克。
- 想喝特调咖啡的（高需求）：星巴克直接卖高价，反正你离不开它。

5. 为什么 API 接口是“按字收费”？

你可能会问，为什么开发者用的 API 接口（比如程序员调用 AI）是简单的“按输入/输出字数收费”，没有复杂的套餐？

原因：论文指出，在开发者市场，厂商的首要目标是**“抢占市场”和“培养习惯”**，而不是榨取最大利润。
比喻：这就像**“自来水公司”**在推广期。为了让你习惯用水，他们不跟你玩复杂的套餐游戏，直接按吨收费，甚至价格定得比成本略高一点点，但保证你随时能用。这种简单的线性定价，在数学上被证明是“受约束下的最优解”。

总结

这篇论文告诉我们，AI 定价看起来乱糟糟的，其实背后有一套严密的数学逻辑：

化繁为简：不管用户多复杂，只看他们的“总价值指数”。
灵活变现：通过“预算包”、“保底消费”和“模型分级”这三种方式，把复杂的算力资源卖得明明白白。
现实印证：Anthropic、OpenAI、GitHub 等巨头的定价策略，竟然和几十年前的经济学理论完美吻合。

简单来说，卖 AI 就像卖水，但用户 thirsty（口渴）的程度和方式各不相同。最好的办法不是给每个人量体温，而是给他们发一张“水票”，让他们自己决定喝多少、喝什么档次的水。

Each language version is independently generated for its own context, not a direct translation.

这篇论文《大语言模型的菜单定价》（Menu Pricing of Large Language Models）由 Dirk Bergemann、Alessandro Bonatti 和 Alex Smolin 撰写，旨在为大语言模型（LLM）的定价和产品设计提供一个最优理论框架。文章解决了在用户任务估值具有无限维特征、且存在道德风险（用户如何分配 Token 是隐藏的）的情况下，供应商如何设计最优定价机制的难题。

以下是该论文的详细技术总结：

1. 研究问题 (Problem)

LLM 的访问定价本质上是一个高维筛选（Screening）与道德风险（Moral Hazard）相结合的问题：

用户类型无限维：用户面对连续的任务流，每个任务有不同的价值（ $w_i$ ），构成了一个无限维的类型空间。
分配空间高维：用户可以在不同任务间自由分配推理 Token（Inference tokens）和微调 Token（Fine-tuning tokens）。
信息不对称：供应商可以计量总 Token 使用量，但无法观察或合约化用户在具体任务间的分配策略。
核心挑战：传统的多维筛选理论通常难以处理这种无限维类型加上隐藏行动（Hidden Action）的复杂环境，通常被认为不可解（intractable）。

2. 方法论 (Methodology)

作者构建了一个基于**同质生产技术（Homogeneous Production Technology）**的模型，通过以下关键步骤简化问题：

收益函数设定：假设 LLM 的收益函数 $g(x, z)$ 在推理 Token ( $x$ ) 和微调 Token ( $z$ ) 上是可分离的，且 $x$ 部分具有齐次性（Homogeneity）。即 $g(x, z) = \Psi(x)\Phi(z)$ ，其中 $\Psi$ 是 $\sigma$ 次齐次函数（ $\sigma \in (0,1)$ ）。
充分统计量缩减（Sufficient Statistic Reduction）：
- 利用齐次性，作者证明了无论用户的具体任务估值分布如何，只要其聚合类型（Aggregate Type） $\theta(w)$ 相同，其最优的 Token 分配比例就是固定的，且总剩余和总 Token 需求仅取决于 $\theta(w)$ 。
- 聚合类型定义： $\theta(w) = \left( \int_0^1 w_i^{\frac{1}{1-\sigma}} di \right)^{1-\sigma}$ 。
- 降维：这一发现将原本无限维的筛选问题转化为经典的一维筛选问题（类似于 Mussa-Rosen 模型）。
机制设计：
- 在单模型垄断下，问题简化为对聚合类型 $\theta$ 进行筛选。
- 在多模型和竞争环境下，利用类似逻辑扩展分析。

3. 主要贡献与结果 (Key Contributions & Results)

A. 效率与线性定价 (Efficiency & Linear Pricing)

无约束效率：在效率配置下，所有任务应采用相同比例的推理 Token 类别，仅规模随任务边际价值变化。
容量约束：当存在 Token 类别的容量约束时，最优配置可以通过线性价格实现，价格等于边际成本加上容量约束的影子成本（Shadow Costs）。
现实意义：这解释了为什么开发者 API 市场普遍采用“按 Token 付费”且无数量折扣的线性定价模式（如 OpenAI、Anthropic 的 API），因为这是在容量约束下最大化总剩余的最优解。

B. 单模型垄断的最优机制 (Optimal Mechanism for Monopolist)

承诺支出合同（Committed-Spend Contracts）：最优机制表现为一系列“承诺支出”合同。用户支付一笔费用获得一个 Token 预算，该预算可以按边际成本价格在不同 Token 类别间自由分配。
间接实现形式：理论上的直接机制可以通过三种直观的间接形式实现，且与行业实践完全对应：
1. 最大支出机制（Maximum-Spend）：设定预算上限，用完后停止服务（如 Quora 的 Poe）。
2. 最小支出机制（Minimum-Spend）：承诺最低消费额以解锁更低的单价（如 GitHub Copilot 的超额付费）。
3. 两部定价（Two-Part Tariff）：订阅费 + 按量付费。
筛选逻辑：低类型用户被排除，中低类型用户面临质量向下扭曲（Token 数量少于效率水平），高类型用户获得接近效率的配置但需支付信息租金。

C. 多模型版本化 (Multi-Model Versioning)

模型选择：当存在多个不同能力的模型时，如果所有模型具有相同的规模报酬参数 $\sigma$ ，用户会将所有任务分配给单一模型以最小化成本。
版本结构：最优菜单表现为“版本化”（Versioning）：高类型用户不仅获得更多 Token，还获得访问更强模型（如推理能力更强的模型）的权限。
实证对应：OpenAI 的订阅层级（Plus vs Pro）不仅限制使用量，还通过独占最强模型（如 o1-pro）来筛选用户，符合多模型菜单理论。

D. 专有领导者与开源边缘的竞争 (Leader-Fringe Competition)

竞争格局：分析了一个拥有专有模型的领导者与一个以边际成本出售 Token 的开源竞争边缘（Fringe）之间的竞争。
三个区域：
1. 低类型：完全使用开源边缘模型。
2. 中间类型（遏制区）：领导者提供恰好足够的 Token，使用户在“仅用领导者”和“领导者 + 边缘补充”之间无差异，从而遏制用户转向边缘。
3. 高类型：领导者作为垄断者运营，存在标准的向下扭曲。
影响：竞争不仅改变了 intensive margin（每个用户购买的数量），也改变了 extensive margin（哪些用户选择专有模型）。

4. 理论与实践的对应 (Connection to Practice)

论文详细论证了理论预测与当前 LLM 巨头定价策略的高度一致性：

Anthropic：所有付费层级访问相同的模型家族，仅通过 Token 预算（计算强度）进行区分 $\rightarrow$ 对应单模型 Token 预算机制。
OpenAI：不同层级访问不同模型（Pro 层级独占 o1-pro） $\rightarrow$ 对应多模型版本化机制。
Quora (Poe)：固定月费 + 积分预算，积分耗尽即停止 $\rightarrow$ 对应最大支出机制。
GitHub Copilot：固定月费 + 预算，超额可按线性价格购买 $\rightarrow$ 对应最小支出机制。
API 定价：按 Token 线性收费，无折扣 $\rightarrow$ 对应容量约束下的效率定价。

5. 意义与结论 (Significance)

理论突破：证明了在看似不可解的高维筛选与道德风险混合问题中，通过生产技术的齐次性假设，可以将问题降维至经典的一维筛选框架，从而获得解析解。
政策与商业洞察：
- 解释了当前 LLM 定价混乱表象下的统一经济逻辑。
- 指出 API 市场的线性定价是竞争和容量约束下的效率结果，而非单纯的商业策略。
- 为未来 LLM 市场的寡头竞争、版本化策略以及动态定价（如基于模型改进的定价）提供了理论基准。
扩展性：该框架不仅适用于 LLM，也适用于云计算等具有多输入类别和异质用户的通用技术定价问题。

总结：这篇文章通过巧妙的数学简化（聚合类型），成功地将复杂的 LLM 定价问题转化为可解的机制设计问题，不仅解释了现有市场现象，还预测了在不同竞争和市场结构下的最优定价策略，是 AI 经济学领域的重要理论贡献。