Win-score promotion gates in aggregator-routed RFQ markets: A two-tier stochastic control model

Each language version is independently generated for its own context, not a direct translation.

这篇文章讲述了一个关于外汇交易员如何在“评分系统”下做生意的数学模型。为了让你轻松理解，我们可以把金融市场想象成一个巨大的、自动化的“外卖接单平台”（比如美团或 Uber Eats），而交易员（LP）就是上面的餐厅。

1. 核心场景：外卖平台与评分系统

想象你开了一家餐厅（交易员），在一个巨大的外卖平台上接单。

RFQ（询价）：就是顾客下的订单。
聚合器（Aggregator）：就是那个外卖平台。它手里有成千上万个订单，但它不会把每个订单都发给所有餐厅。
评分（Win-score）：平台会给每家餐厅打分。如果你经常接单且做得好，分数就高；如果你经常拒单或报价太慢，分数就低。

这个模型研究的核心问题是：
作为餐厅老板，你应该怎么报价（定多少价格）？

是拼命压低价格（激进报价）来抢单，以此提高评分，从而在未来接到更多的大单？
还是稍微抬高价格（保守报价），虽然单子少点，但利润高，顺便“收割”一下现在的利润？

这就好比：你是应该为了冲“金牌商家”的荣誉而暂时少赚点钱（竞选 Campaign），还是既然已经是金牌了，就趁机多赚点钱，哪怕分数慢慢掉下来也没关系（收割 Harvest）？

2. 模型的“两层结构”：VIP 通道 vs. 普通通道

作者把订单分成了两类，这非常符合现实情况：

A 层（VIP 通道/聚合器流）：
- 这是大单，也是平台最看重的单子。
- 关键点：你能不能接到这些单，完全取决于你的评分。评分高，平台就给你开“绿灯”（Gate），让你接单；评分低，平台就把你挡在门外。
- 这里的订单会更新你的评分。赢了单，评分涨；输了单，评分跌。
B 层（普通通道/背景流）：
- 这是小单或者散单。
- 关键点：不管你的评分多低，这些单子总是会发给你。它们不会影响你的评分。
- 作用：这就像餐厅的“堂食”或“老顾客”。即使你因为没抢到 VIP 单而评分暂时下降，这些普通订单也能让你维持基本的运营，不至于饿死（保持库存平衡）。

3. 交易员的“两难困境”：竞选 vs. 收割

模型发现，当评分系统很严格（比如只有前几名才能接大单）时，会出现一种有趣的**“双稳态”现象，就像是一个跷跷板**：

状态一：竞选模式 (Campaigning)

场景：你的评分在及格线附近徘徊，还没进“金牌榜”。
策略：你决定牺牲利润。你故意把价格报得很低（甚至有点亏本），只为了拼命抢单。
目的：通过大量赢单，把评分迅速推高，跨过那个“门槛”，进入 VIP 通道。
比喻：就像为了冲上“年度最佳商家”榜单，你决定今天所有菜品打五折，虽然今天少赚，但为了明天的流量。

状态二：收割模式 (Harvesting)

场景：你的评分已经很高，稳稳坐在 VIP 席位上。
策略：你决定提高价格。虽然价格高了，接单率会下降，评分也会慢慢掉，但因为你的基础分很高，掉一点也没关系，平台依然会让你接大单。
目的：最大化当前的利润。
比喻：既然已经是“金牌商家”了，大家也认你，你就把价格稍微涨一点，多赚点利润，哪怕粉丝稍微流失一点也无所谓。

为什么这很危险？（蝴蝶效应与陷阱）

模型最精彩的地方在于发现了**“临界点”**。

如果你的评分刚好在门槛边缘，稍微犹豫一下（报价不够低），评分就会掉下去，掉进“低分陷阱”，以后很难再爬上来。
反之，如果你已经很高了，稍微贪心一点（报价太高），评分掉得太多，也可能掉出 VIP 区。
这就导致了**“路径依赖”：你现在的状态，很大程度上取决于你过去是怎么做的。这就叫“滞后效应” (Hysteresis)**。

4. 为什么“普通订单”（B 层）很重要？

如果没有 B 层（普通订单），一旦你的评分掉了，你就完全没生意做，库存（手里的货）会堆积如山，风险极大。
但因为有 B 层，即使你在“竞选”期间为了冲分而牺牲了 A 层的利润，或者在“收割”期间评分开始下滑，B 层的订单依然源源不断。

比喻：这就像餐厅除了接平台的大单，还有自己的老顾客。即使今天平台不给你推流了，老顾客依然会来吃饭，帮你消化库存，让你不至于因为一次失误就破产。这给了交易员**“缓冲垫”**，让他们敢于在评分边缘进行激进的“竞选”操作。

5. 总结：这个模型告诉我们要什么？

这篇论文用复杂的数学公式（虽然听起来很吓人，但逻辑很直观）告诉我们：

不要只看眼前：在评分系统里，今天的报价不仅影响今天的钱，还影响明天的“入场券”。
策略要灵活：有时候要**“亏本赚吆喝”（竞选），有时候要“坐地收钱”**（收割）。
警惕临界点：评分系统往往是非线性的。在某个分数段，稍微差一点点，结果天差地别（从金牌变青铜）。
留条后路：永远不要把所有鸡蛋放在一个篮子里（只依赖评分高的订单）。保留一部分不受评分影响的“基本盘”（B 层订单），是应对风险的关键。

一句话概括：
这就好比在玩游戏，为了升级（提高评分），你有时候需要去刷怪（低价抢单），有时候可以挂机收菜（高价收割）。而这个模型就是告诉你：什么时候该去刷怪，什么时候该收菜，以及如果不小心掉级了，该怎么利用“老玩家”（普通订单）把自己拉回来。

Each language version is independently generated for its own context, not a direct translation.

1. 研究问题 (Problem)

在外汇（FX）等场外（OTC）市场中，做市商（LP）通常通过聚合器（Aggregator）接收客户询价（RFQ）。聚合器根据 LP 的**长期表现评分（Win-score）**来决定邀请哪些 LP 参与报价以及邀请的频率。

本文旨在解决以下核心问题：

微观与宏观的耦合： 传统的做市模型主要关注微观层面的库存管理和报价竞争，而忽略了宏观层面的路由规则（即评分如何影响未来的报价机会）。
评分反馈机制： LP 的报价激进程度（影响胜率）会改变其评分，进而改变未来被聚合器“晋升”（Promotion）进入高流量池的概率。这种反馈回路如何影响最优报价策略？
流量分层： 实际业务中，LP 的流量通常分为两部分：一部分受评分 gating（门槛）限制的聚合器流量（Tier A），另一部分不受评分限制的剩余背景流量（Tier B）。现有文献缺乏将这种双层结构纳入随机控制框架的研究。

2. 方法论 (Methodology)

作者提出了一个双层随机控制模型，将 RFQ 层面的价格竞争与宏观路由层分离：

2.1 模型设定

状态变量：
- $S_t$ ：中间价（Martingale 扩散过程）。
- $q_t$ ：库存。
- $R_t$ ：LP 的长期评分（基于 EMA 更新的胜率）。
双层流量结构：
- Tier A (聚合器层)： 机会强度为 $\lambda^A_z(R) = \Lambda^A_z G(R)$ ，其中 $G(R)$ 是由评分驱动的晋升门槛函数。Tier A 的结果会更新评分 $R$ 。
- Tier B (背景层)： 机会强度 $\lambda^B_z$ 为常数，不受评分影响，且结果不更新评分。
控制变量： LP 针对不同尺寸 $z$ 选择双向报价偏移量 $\delta$ 。
目标函数： 最大化终端财富期望，包含库存惩罚项（风险厌恶）和库存方差惩罚。

2.2 数学推导

Hamilton-Jacobi-Bellman (HJB) 方程：
- 推导了包含非局部跳跃算子的 HJB 方程。
- 针对 Tier A，算子显式区分了“赢”（更新评分并交易）和“输”（仅评分下降）两个分支。
- 针对 Tier B，使用标准的跳跃算子。
Bergault-Gu´eant 算子形式： 将 HJB 方程简化为一种特定的算子形式，利用包络定理（Envelope Theorem）将最优控制表示为降维哈密顿量（Reduced Hamiltonian）的导数。
- 建立了最优胜率 $\hat{y}$ 与最优报价偏移 $\hat{\delta}$ 之间的显式映射： $\hat{\delta} = p^{-1}(\hat{y})$ 。
绝热近似 (Adiabatic Approximation)：
- 在长记忆（小 $\alpha$ ）极限下，利用时间尺度分离：库存动态是“快”的，评分动态是“慢”的。
- 假设价值函数具有二次库存形式（Quadratic Ansatz），推导出库存曲率 $A(t, R)$ 的准稳态 Riccati 缩放关系。
- 将多维问题简化为关于评分 $R$ 的一维漂移场动力学。

2.3 数值求解

由于评分松弛时间长而时间步长需极小（满足 Euler 反向步），直接求解 HJB 计算量巨大。
采用分块区间法：将时间划分为多个短区间，利用不动点迭代（Fixed-point iteration）结合 Anderson 加速技术，求解稳态价值函数，从而捕捉多天的评分激励。

3. 关键贡献 (Key Contributions)

双层随机控制框架： 首次将聚合器路由中的“评分 gating"机制显式建模为状态变量，并区分了受控流量（Tier A）和背景流量（Tier B）。
解析解与数值鲁棒性： 利用包络定理导出了最优控制与哈密顿量导数的解析关系，避免了直接求解复杂的非局部 HJB 方程，提供了从最优胜率到最优报价的清晰映射。
绝热闭包与相变分析： 在长记忆极限下，推导出了库存曲率与评分的解析关系，并证明了在陡峭的晋升门槛（Logistic Gate）下，评分动力学会出现折叠分岔（Fold Bifurcation）。
背景流量的稳定作用： 理论证明背景流量（Tier B）在评分极低时提供了必要的库存混合能力，防止了当所有流量被 gating 时库存曲率发散（Singularity）的病态行为。

4. 主要结果 (Results)

4.1 策略模式：“竞选”与“收割” (Campaign vs. Harvest)

数值实验揭示了最优策略存在两种截然不同的模式，取决于当前评分 $R$ 与门槛中点 $R_0$ 的关系：

竞选 (Campaigning)： 当评分略低于 $R_0$ 时，LP 会采取激进报价（缩小价差，提高胜率），即使这会导致即时的 PnL（盈亏）下降。目的是快速提升评分，跨越门槛进入高流量池。
收割 (Harvesting)： 当评分高于 $R_0$ 时，LP 会采取保守报价（扩大价差，降低胜率），以最大化即时利润，同时接受评分的缓慢自然衰减。

4.2 双稳态与滞后效应 (Bistability and Hysteresis)

在评分动力学中，存在三个不动点（两个稳定，一个不稳定）的区域，导致系统呈现双稳态。
滞后现象： 系统从低分状态切换到高分状态所需的“竞选”力度，远大于从高分状态跌落回低分状态所需的阈值。这意味着一旦 LP 进入“高分区”，即使稍微放松报价，也能维持较长时间的高流量访问权。
临界系统行为： 评分动力学表现出典型的临界系统特征，微小的参数变化（如门陡峭度 $\beta$ ）可能导致系统状态的根本性改变。

4.3 数值验证

图 1-3： 展示了价值函数热图及报价偏移量随评分和库存的变化。在 $R_0$ 附近，Tier A 的报价偏移量出现明显的“凹陷”（即更窄的价差），这是“竞选”策略的签名。
图 4-5： 展示了瞬时 PnL 与评分及评分漂移率的关系。竞选阶段对应低 PnL 和正漂移，收割阶段对应高 PnL 和负漂移。
图 7-8： 展示了评分松弛轨迹和分岔图，证实了双稳态的存在以及背景流量对维持系统稳定性的关键作用。

5. 意义与启示 (Significance)

对做市商的策略指导： 模型解释了为什么 LP 有时会在看似不盈利的情况下激进报价（为了“买”评分），以及为什么在获得高排名后反而扩大价差。这为 LP 制定动态报价策略提供了理论依据，特别是关于何时进行“投资”（竞选）何时进行“收割”。
平台设计视角： 聚合器可以通过调整评分更新机制（ $\alpha$ ）和晋升门槛形状（ $G(R)$ 的陡峭度）来影响 LP 的行为。过于陡峭的门槛可能导致 LP 行为的剧烈波动（双稳态），而适当的背景流量设计可以平滑这种波动。
风险管理： 模型强调了背景流量（Tier B）在极端情况下的“安全网”作用。即使 Tier A 流量因评分低而枯竭，Tier B 仍能维持基本的库存管理，防止风险失控。
未来研究方向： 该框架为后续研究提供了基础，包括将评分维度扩展（响应时间、拒绝率等）、引入更复杂的逆向选择模型，以及利用实际 RFQ 日志数据进行参数校准和实证检验。

总结： 本文通过构建一个结合微观库存管理和宏观路由评分的双层随机控制模型，揭示了聚合器市场中 LP 报价策略的复杂动态，特别是“竞选 - 收割”循环和双稳态现象，为理解现代 OTC 市场的做市行为提供了重要的理论工具。