Each language version is independently generated for its own context, not a direct translation.

🏁 2026 年の F1 は「見えない力」のゲームになった

まず、2026 年の F1 は大きく変わります。

従来の F1: エネルギー（バッテリー）はあまり重要ではなく、ガソリンとタイヤの管理がメインでした。
2026 年の F1: エネルギーが半分を占めるようになり、**「いつエネルギーを使うか（攻めるか）、いつ溜めるか（守るか）」**が勝敗を分けます。

しかし、ここが最大の難所です。
**「ライバル車のバッテリーが今、満タンなのか、空っぽなのか、あるいは『わざと溜めているのか』は、誰にも見えない」**のです。

この論文は、**「見えないものを、見えるデータから推測して、勝つための判断を下す AI」**を作りました。

🕵️‍♂️ 2 段構えの「探偵と司令塔」システム

このシステムは、2 人のキャラクターが協力して動きます。

1. 探偵（HMM：隠れマルコフモデル）

役割：ライバルの「隠れた状態」を推理する。

探偵は、ライバル車の「見えない心」を、以下の 6 つの「足跡（データ）」から推理します。

直線での速度
セクター（区間）のタイム
ブレーキを踏む位置
速度の揺らぎ
空力（ウィング）の使い方
スロットル（アクセル）の踏み込み具合（※これが新兵器！）

🔍 最大の発見：「罠（トラップ）」を見抜く
ライバルには、2 つの「隠れた状態」があります。

状態 A（Lharvest）： 「わざとアクセルを緩めて、エネルギーを溜めている」。これは**「罠」**です。相手が「あ、エネルギー切れだ！」と油断して攻撃してくるのを待っています。
状態 B（Lderate）： 「アクセルを全開にしているのに、バッテリーが限界でエネルギーが出せない」。これは**「本当の弱み」**です。

✨ この論文のすごいところ：
以前のシステムでは、この 2 つの状態が混同されてしまい、「罠」を「弱み」と勘違いして攻撃して失敗することがありました。
しかし、この新しいシステム（v2）は、「アクセルの踏み込み具合（δthrottle）」という新しいデータを導入し、「わざと溜めているのか（罠）」と「本当に限界なのか（弱み）」を、探偵が 9 割以上の精度で見分けることができるようになりました。

2. 司令塔（DQN：深層 Q ネットワーク）

役割：探偵の推理を聞いて、次の行動を決める。

司令塔は、探偵から「ライバルは『罠』を張っている可能性が 85% です」という報告を受け取ります。

もし「罠」なら：**「攻撃しない！エネルギーを温存しよう」**と判断します。
もし「本当の弱み」なら：**「今がチャンス！全力で攻撃しよう！」**と判断します。

このように、「見えない情報」を「確率」として捉え、最適な判断を下すのが司令塔の役割です。

🎭 具体的なシナリオ：「罠」の正体

2026 年のルールでは、**「アクティブ・エアロ（空力装置）」**という、ドライバーが好きな時に使える翼があります。

罠のシナリオ：
ライバルは「エネルギーを溜めている（Lharvest）」状態ですが、「アクティブ・エアロ」を使って直線速度を維持しています。
外から見ると「速度が落ちているから、エネルギー切れ（弱み）だ」と見えます。
しかし、実際は「わざとエネルギーを使わずに、翼でスピードを稼いでいる」のです。
もしあなたがこれを「弱み」と勘違いして攻撃すると、ライバルは突然フルパワーで反撃し、あなたはエネルギーを使い果たして負けてしまいます。
この論文の解決策：
「アクセルを全開にしているのに速度が落ちている（Lderate）」のか、「アクセルを控えめにしている（Lharvest）」のかを、スロットルデータで厳密に区別します。これにより、「罠」に引っかからずに済むようになります。

📊 結果：どれくらい上手くなった？

シミュレーション（人工的なレース）でのテスト結果は以下の通りです。

バッテリー残量の推定精度： 96.8%（ランダムな当てずっぽうは 25%）
「罠」を見抜く精度： 96.3%（以前は 95.7% でしたが、さらに向上）
誤って「罠」を「弱み」と勘違いするミス： 大幅に減少しました。

🚀 まとめ：この論文は何を伝えている？

2026 年の F1 は「心理戦」が重要になる。
ライバルが「エネルギーを溜めているのか、枯渇しているのか」を見抜くのが鍵です。
新しい「スロットルデータ」がカギ。
アクセルの踏み込み具合を見ることで、「わざと溜めている（罠）」と「本当に限界（弱み）」を区別できるようになりました。
AI が「確率」で戦う。
「100% 確実」ではなく、「80% 確実だ」という不確実な情報を元に、最も勝率の高い判断を下すシステムを作りました。

一言で言えば：
「2026 年の F1 で、ライバルが『ふり』をしているのか『本気』で弱っているのかを見抜く、超優秀な AI 探偵を開発しました。これにより、罠に引っかからず、勝てるチャンスを逃さない戦略が可能になります」という内容です。

※この論文は 2026 年 3 月に発表された「予備版」であり、実際のレース（オーストラリア GP など）のデータでさらに精度を高める予定だとしています。

Each language version is independently generated for its own context, not a direct translation.

2026 年 F1 エネルギー戦略における部分的観測性下での対戦相手状態推定：HMM-POMDP フレームワーク

技術的概要（日本語訳）

本論文は、2026 年の F1 新技術規定（50/50 の ICE/バッテリー電力分割、無制限の回生、ドライバー制御のオーバーライドモード、アクティブ・エアロ）の導入により、エネルギー戦略が単一エージェントの最適化問題から、対戦相手の隠れた状態に依存する「部分的観測確率ゲーム（POSG）」へと変化したことを指摘し、これに対処するための実用的な 2 層構造の推論・意思決定フレームワークを提案するものです。

1. 問題定義と背景

2026 年の規定では、バッテリーが常に需要にさらされるため、ERS（エネルギー回生システム）の充電レベルが各セクターにおける第一の戦略変数となります。特に重要なのは、**「カウンター・ハーベスト・トラップ（Counter-Harvest Trap）」**と呼ばれる欺瞞的な戦略の存在です。

トラップのメカニズム: 先行車（B）が意図的に充電を節約する「Lharvest（低充電・蓄積）」モードで走行しつつ、アクティブ・エアロ（直線用）を展開して速度を維持します。これにより、追走車（A）の推論モデルは「B が充電不足（Lderate）で攻撃チャンスだ」と誤認し、エネルギーを浪費して攻撃を試みます。B はその隙にフルデプロイで防御し、A のエネルギー枯渇を誘発します。
課題: 従来の単一観測値（速度差など）の閾値ベースの判断では、意図的な蓄積（Lharvest）と物理的な充電枯渇（Lderate）を区別できず、このトラップを回避できません。

2. 提案手法：2 層フレームワーク

本論文では、対戦相手の隠れた状態を推定し、それに基づいて意思決定を行う 2 層のアプローチを提案しています。

レイヤー 1: 隠れマルコフモデル（HMM）による状態推定

対戦相手の隠れた状態を推定するために、40 状態の HMM を構築します。

隠れ状態（40 状態）:
- ERS 充電レベル（4 モード）: H（高）、M（中）、Lharvest（意図的蓄積）、Lderate（物理的枯渇）。
  - v2 の核心的改良: 従来の「L（低）」状態を、戦略的に全く異なる「Lharvest（罠）」と「Lderate（真の弱点）」に分解しました。
- オーバーライドモード状態: 利用可能 / 消費済み。
- タイヤ劣化状態: 5 段階（新品からクリフまで）。
観測値（6 種類）:
1. 速度トラップ差（ $\Delta v_{trap}$ ）
2. セクタータイム差（ $\Delta t_{sector}$ ）
3. ブレーキングポイント差（ $\Delta b_{brake}$ ）
4. 速度分散（ $\sigma^2_{speed}$ ）
5. アクティブ・エアロ展開有無（ $z_{aero}$ ）
6. スロットル・クリッピング比率（ $\delta_{throttle}$ ）: v1.5 で追加された新観測値。スロットルが 98% 以上でありながら速度が基準値より低い割合。
  - 役割: Lharvest（スロットル制御あり、クリッピング低）と Lderate（スロットル全開だが出力制限、クリッピング高）を明確に分離する鍵となります。
推論アルゴリズム: 事前分布は物理モデルに基づき、メルボルン GP 以降の実データで Baum-Welch 法（EM アルゴリズム）を用いてパラメータを較正します。

レイヤー 2: 意思決定ポリシー（Deep Q-Network: DQN）

HMM が出力する「信念状態（Belief State）」を入力として、エネルギーの「燃焼（Burn）」または「回生（Harvest）」を選択する DQN ポリシーを学習します。

入力: 66 次元ベクトル（自車の状態 + 40 次元の対戦相手信念状態）。
特徴: 生データではなく、HMM によって統合された信念状態を入力とするため、POMDP 問題に対する十分統計量として機能します。

3. 主要な貢献

問題の形式化: 2026 年 F1 エネルギー管理を POSG としてモデル化し、単一エージェントの POMDP 近似を定義。カウンター・ハーベスト・トラップを欺瞞的均衡戦略として厳密に特徴づけました。
対戦相手状態推論の革新: 40 状態 HMM を提案。特に「Lharvest」と「Lderate」を状態レベルで分離したことが v2 の最大の進歩です。これにより、観測値の混合事前分布に依存せず、ポリシーが直接「罠の可能性」と「攻撃機会」を区別できるようになりました。
意思決定ポリシーの特定: 信念状態を入力とする DQN ポリシーを提案し、単純な閾値ベースの基準と比較しての優位性を示しました。

4. 結果（合成データによる検証）

メルボルン GP 前の合成データ（20 レース、3,480 セクター観測）を用いた閉ループ検証結果は以下の通りです。

ERS レベル推定精度: 96.8%（ランダムベースライン 25%）。
Lharvest vs Lderate 分類精度: 89.4%（ランダムベースライン 50%）。
- 従来の v1.5（3 状態）では不可能だった、戦略的区別の高精度化を達成。
トラップ検出リコール: 96.3%（見逃し率 3.7%）。
- v1.5（95.7%）から向上。Lderate 車両による誤検知（False Positive）が大幅に減少しました。
較正誤差（ECE）: 0.006（合成データ下限）。

5. 意義と限界

意義:
- 2026 年 F1 の複雑なエネルギー戦略において、対戦相手の「意図」を推測し、欺瞞的な戦略（トラップ）を回避する実用的な枠組みを提供しました。
- 「スロットル・クリッピング（ $\delta_{throttle}$ ）」という観測値が、物理的な制約と意図的な戦略を区別する決定打となることを実証しました。
- 将来的なゲーム理論的拡張（Kleisarchaki [2026b]）への基盤として、信念状態の分解が有効であることを示しました。
限界:
- 対戦相手の定常性仮定: 本モデルは対戦相手が「観測されていること」を考慮して戦略を変化させない（定常プロセス）と仮定しています。実際には、対戦相手も推論モデルを逆手に取る可能性があるため、これは完全な解決策ではありません（これは次の研究課題です）。
- 条件付き独立性の仮定: 観測値間の相関を無視しているため、実データでは過剰な自信（Over-confidence）が生じる可能性があります。
- データ不足: 現時点では合成データでの検証であり、実データ（メルボルン GP 以降）での Baum-Welch 較正結果が最終的な性能を決定します。

結論

本論文は、2026 年 F1 の新規定下において、対戦相手の隠れたエネルギー状態と意図を推定し、最適な戦略を決定するための実用的なフレームワークを提示しました。特に、ERS 低充電状態を「罠（蓄積）」と「弱点（枯渇）」に分解するアーキテクチャは、欺瞞的戦略への耐性を飛躍的に高め、次世代の F1 戦略 AI 開発における重要な基盤となります。

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy