Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是2026 年一级方程式赛车（F1）中，车队如何利用“读心术”来制定比赛策略。

想象一下，F1 比赛不再只是比谁的车快，而是一场高智商的“扑克牌局”。

1. 背景：为什么 2026 年不一样了？

在以前的 F1 比赛中，赛车手主要看自己的油量和轮胎。但在 2026 年的新规则下，赛车被强制要求一半动力来自引擎，一半来自电池。这意味着电池电量（ERS）成了最重要的战略资源。

这就产生了一个大问题：

你知道自己的牌：你知道自己还剩多少电，轮胎磨损多少。
你不知道对手的牌：你看不见对手还剩多少电，也不知道他是不是在“装穷”（故意省电）或者“真穷”（电真的用光了）。

如果对手其实电很多，但你以为他快没电了，冲上去攻击，结果被他反杀，你就输了。

2. 核心难题：那个“反收割陷阱”

论文里提出了一个非常狡猾的策略，叫**“反收割陷阱”（Counter-Harvest Trap）**。

场景：假设 A 车想超过 B 车。
B 车的诡计：B 车其实电量很足，但他故意表现得像“快没电了”（比如故意减速、不加速）。
A 车的误判：A 车看到 B 车减速，心想：“哈哈，他快没电了，我全力冲刺超过去！”于是 A 车把宝贵的电量全用光了。
结局：A 车刚冲过去，B 车突然像变魔术一样，瞬间开启满功率模式（因为刚才他在“装穷”，电量其实攒着呢），轻松反超 A 车。

这就是“陷阱”。对手利用你的观察，诱导你犯错。

3. 解决方案：给赛车装上“读心术”大脑

为了解决这个问题，作者设计了一个双层智能系统，就像给车队经理装了一个超级大脑：

第一层：侦探（HMM 隐马尔可夫模型）

这就好比一个福尔摩斯。它不直接看对手的车，而是通过观察对手的“蛛丝马迹”来推测对手的内心状态。

线索：它观察 6 个公开数据，比如对手在直道的速度、刹车距离、油门踩得有多深、轮胎声音等。
推理：它把这些线索拼凑起来，计算出对手处于哪种状态。
- 以前的问题：以前系统只能看出对手是“低电量”，但分不清他是“故意省电（陷阱）”还是“真的没电了（虚弱）”。这就像看到一个人坐在地上，你分不清他是“在休息”还是“摔倒了”。
- 现在的突破（v2 版本）：作者引入了一个新的关键线索——“油门超调量”（δthrottle）。
  - 如果对手真的没电了，他会拼命踩油门（100%），但车速还是上不去（因为电池供不上）。
  - 如果对手在装穷，他会故意控制油门（比如只踩 80%），让车速看起来慢，但实际是在“蓄力”。
- 结果：这个新线索让“侦探”能精准区分对手是**“真弱”还是“装弱”**。

第二层：指挥官（DQN 深度 Q 网络）

这就好比下棋的大师。它接收“侦探”传来的情报（比如：“对手有 80% 的概率在装弱”），然后决定下一步怎么走。

如果情报显示对手是“真弱”，指挥官就下令：“全力进攻，超车！”
如果情报显示对手可能在“装弱”，指挥官就会下令：“稳住，别上当，保存体力。”

4. 这个系统有多厉害？

作者用电脑模拟了 2026 年的比赛，发现这套系统非常强大：

看穿电量：它能猜对对手电量状态的准确率高达 96.8%（随机猜只有 25%）。
识破陷阱：它能识别出对手是否在设“陷阱”，准确率接近 90%。
关键区别：在旧版本中，系统经常把“真弱”误判为“陷阱”，或者反过来。新系统通过那个“油门线索”，完美解决了这个混淆，让决策更精准。

5. 总结与比喻

你可以把这套系统想象成**《星际迷航》里的“心灵感应”加上《孙子兵法》里的“知己知彼”**。

以前的比赛：两个蒙着眼睛的人打架，只能凭感觉猜对方出什么招。
现在的比赛：虽然还是蒙着眼，但我们戴上了热成像仪（新算法），能透过对手的伪装，看到他们真正的能量储备。
未来的挑战：作者也承认，现在的模型假设对手是“死板”的（不会反过来猜你在猜他）。如果对手也学会了这套“读心术”，那比赛就会变成一场**“谁更会演戏”的心理战**（就像下围棋时的“骗招”），这将是下一步研究的重点。

一句话总结：
这篇论文教我们如何用数学和 AI，在 F1 比赛中透过对手的假动作，看穿他们真正的能量底牌，从而避免掉进“诱敌深入”的陷阱，做出最聪明的超车或防守决定。

Each language version is independently generated for its own context, not a direct translation.

1. 问题背景与定义 (Problem Formulation)

核心挑战：
2026 年 F1 技术规则引入了根本性的变革，使得能量管理策略从单 agent 优化转变为部分可观测随机博弈 (Partially Observable Stochastic Game, POSG)。

50/50 动力分配： 内燃机 (ICE) 与 MGU-K 电池各占 50% 功率，电池处于持续需求状态，能量水平成为每弯道的首要战略变量。
隐藏状态： 车手无法直接观测对手的电池电量、是否处于“覆盖模式 (Override Mode)"可用状态、轮胎磨损程度以及对手是否在刻意隐藏其真实意图。
反收割陷阱 (Counter-Harvest Trap)： 对手可能利用 2026 规则中的不对称性（如“超截断/Super-clipping"不关闭主动空气动力学系统），在直道开启主动空气动力学 (Active Aero) 以维持速度，同时刻意降低油门进行能量回收 (Lharvest)。这会给后方车手造成“对手正在耗尽能量”的假象，诱导其过早消耗能量进行攻击，而对手随后利用储备能量轻松防守。

数学建模：

将单辆车（Ego）的决策建模为部分可观测马尔可夫决策过程 (POMDP)。
隐藏状态 ( $X$ )： 每个对手的状态由三元组 $(e, m, \tau)$ $(e, m, τ)$ 组成，共 40 个状态：
- $e \in \{H, M, L_{harvest}, L_{derate}\}$ ：能量状态（高、中、刻意收割、物理受限）。
- $m \in \{available, spent\}$ ：覆盖模式状态。
- $\tau \in \{new, \dots, cliff\}$ ：轮胎磨损状态。
观测空间 ( $\Omega$ )： 包含 6 个可观测信号（相对于对手 5 圈滚动基准的偏差）：
1. $\Delta v_{trap}$ ：测速点速度差。
2. $\Delta t_{sector}$ ：单段圈速差。
3. $\Delta b_{brake}$ ：刹车点距离差。
4. $\sigma^2_{speed}$ ：速度方差。
5. $z_{aero}$ ：主动空气动力学是否开启（0/1）。
6. $\delta_{throttle}$ ：新增关键观测，直道中超截断（油门>98% 但速度低于基准）的时间比例。

2. 方法论 (Methodology)

论文提出了一种两层推理与决策框架：

第一层：对手状态推断 (HMM)

架构： 40 状态隐马尔可夫模型 (HMM)。
核心创新 (v2 版本)： 将低能量状态 ( $L$ $L$ ) 细分为 $L_{harvest}$ （刻意收割，建立隐藏储备，即陷阱条件）和 $L_{derate}$ （物理受限，电池达到 SOC 上限，真实攻击机会）。
- 在 v1.5 中，这两者混在一个状态中，仅通过发射概率区分，导致后验分布模糊。
- 在 v2 中， $\delta_{throttle}$ 被提升为状态级区分器。 $L_{harvest}$ 对应低 $\delta_{throttle}$ （受控油门）， $L_{derate}$ 对应高 $\delta_{throttle}$ （全油门但速度受限）。
推断算法： 使用前向算法 (Forward Algorithm) 维护信念状态 $b_t$ （对手处于 40 个隐藏状态的概率分布）。
参数学习：
- 发射矩阵 ( $E$ )： 基于物理模型解析计算（高斯、伯努利分布）。
- 转移矩阵 ( $T$ )： 基于物理动力学和策略假设（如 $L_{harvest}$ 可转为高能量， $L_{derate}$ 需管理油门才能恢复）。
- 校准： 使用 Baum-Welch 算法 对 2026 赛季真实遥测数据进行无监督参数估计（从澳大利亚大奖赛开始）。

第二层：决策策略 (Deep Q-Network, DQN)

输入： 66 维向量，包含自身状态（4 种能量状态、覆盖模式、轮胎等）以及 HMM 输出的 40 维信念状态向量 ( $b_t$ )。
输出： 二分类动作：{燃烧能量 (Burn), 收割能量 (Harvest)}。
训练： 使用 Double DQN 和经验回放，在合成数据上进行预训练，随后在真实数据微调。
奖励函数： 基于位置变化 ( $\Delta pos$ ) 和规划视野 (5 个弯道)，并包含针对陷阱检测的塑形奖励 (Shaping Reward)。

3. 主要贡献 (Key Contributions)

问题形式化： 首次将 2026 F1 能量管理形式化为 POSG，并精确定义了“反收割陷阱”作为一种欺骗性均衡策略。
架构升级 (v2)： 提出了 $L_{harvest}/L_{derate}$ 状态分解。这是 v2 的核心架构进步，消除了 v1.5 中因混合发射导致的后验模糊性，使策略网络能直接区分“对手在设陷阱”和“对手真的没电了”。
新观测变量： 引入并形式化了 $\delta_{throttle}$ （超截断比例），作为区分两种低能量模式的关键物理特征。
两阶段框架： 结合 HMM 进行状态推断与 DQN 进行决策，证明了在部分可观测环境下，基于信念状态的策略优于仅基于观测阈值的策略。

4. 实验结果 (Results)

基于合成数据（20 场模拟比赛，每场 174 个弯道）的闭环验证结果如下：

HMM 推断精度：
- 能量状态 (ERS) 准确率： 96.8% (随机基线 25%)。
- $L_{harvest}$ vs $L_{derate}$ 分类准确率： 89.4% (随机基线 50%)。这是 v2 的关键成果，证明了 $\delta_{throttle}$ 的有效性。
- 陷阱检测召回率 (Recall)： 96.3% (误报率显著低于 v1.5)。
- 轮胎悬崖检测： 91.3%。
策略性能：
- 提出的系统 (HMM + DQN) 在合成数据上显著优于仅基于观测阈值的基线 (B1, B2)。
- 与拥有真实隐藏状态的“神谕” (Oracle) 相比，能量状态推断的差距仅为 4.3%。
鲁棒性分析：
- 模型对发射参数偏移（ $\pm 20\%$ ）表现出一定的鲁棒性，但在低再生电路（如墨尔本，再生率 1.0x）下，由于强制超截断导致基准漂移， $L_{harvest}$ 与 $L_{derate}$ 的区分难度增加，召回率会有所下降。

5. 意义与局限性 (Significance & Limitations)

意义：

战术层面： 为车队提供了在 2026 新规下识别对手“心理战”（陷阱）的数学工具，避免了因误判对手状态而导致的能量浪费。
技术层面： 展示了如何将物理信号（如油门截断）转化为离散状态空间中的关键特征，解决了连续状态推断中的模糊性问题。
基准价值： 该 POMDP 解决方案为后续研究（如考虑对手适应性的博弈论扩展）提供了正确的基准线 (Baseline)。

局限性与未来工作：

对手静止假设： 当前模型假设对手策略是静止的（不根据被观测而调整）。实际上，理性对手会利用此模型设陷阱（即“反收割陷阱”本身就是一种博弈均衡）。未来的工作 (Kleisarchaki [2026b]) 将引入博弈论层，处理非平稳均衡。
条件独立性假设： 为了计算可行性，假设 6 个观测信号在给定状态下是条件独立的。这会导致后验概率过于自信 (Over-confident)，未来将引入双变量高斯发射模型进行修正。
Boost Mode 排除： 模型目前未包含无约束的 Boost Mode，因其观测特征与当前架构不匹配，留待后续研究。
数据验证： 目前结果基于合成数据。真实验证需等待 2026 年 3 月 8 日澳大利亚大奖赛后的 Baum-Welch 校准结果。

总结：
该论文为 2026 年 F1 复杂的能量博弈提供了一个可计算的、分层的解决方案。通过精细化的状态空间设计（特别是 $L_{harvest}$ 与 $L_{derate}$ 的分离）和新型观测变量的引入，成功实现了对对手隐藏意图的高精度推断，为车队在信息不对称的比赛中做出最优决策奠定了理论基础。