Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

2026 年の F1 新規定における不完全観測条件下でのエネルギー戦略最適化のため、競合他車の隠れた状態を隠れマルコフモデルで推論し、その推論結果を Deep Q-Network に投入して意思決定を行う 2 層フレームワークを提案し、敵の欺瞞的な「カウンターハーベスト」戦略の検出や ERS 状態の高精度推定を実現する手法を示しています。

Kalliopi Kleisarchaki

公開日 Tue, 10 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🏁 2026 年の F1 は「見えない力」のゲームになった

まず、2026 年の F1 は大きく変わります。

  • 従来の F1: エネルギー(バッテリー)はあまり重要ではなく、ガソリンとタイヤの管理がメインでした。
  • 2026 年の F1: エネルギーが半分を占めるようになり、**「いつエネルギーを使うか(攻めるか)、いつ溜めるか(守るか)」**が勝敗を分けます。

しかし、ここが最大の難所です。
**「ライバル車のバッテリーが今、満タンなのか、空っぽなのか、あるいは『わざと溜めているのか』は、誰にも見えない」**のです。

この論文は、**「見えないものを、見えるデータから推測して、勝つための判断を下す AI」**を作りました。


🕵️‍♂️ 2 段構えの「探偵と司令塔」システム

このシステムは、2 人のキャラクターが協力して動きます。

1. 探偵(HMM:隠れマルコフモデル)

役割:ライバルの「隠れた状態」を推理する。

探偵は、ライバル車の「見えない心」を、以下の 6 つの「足跡(データ)」から推理します。

  1. 直線での速度
  2. セクター(区間)のタイム
  3. ブレーキを踏む位置
  4. 速度の揺らぎ
  5. 空力(ウィング)の使い方
  6. スロットル(アクセル)の踏み込み具合(※これが新兵器!)

🔍 最大の発見:「罠(トラップ)」を見抜く
ライバルには、2 つの「隠れた状態」があります。

  • 状態 A(Lharvest): 「わざとアクセルを緩めて、エネルギーを溜めている」。これは**「罠」**です。相手が「あ、エネルギー切れだ!」と油断して攻撃してくるのを待っています。
  • 状態 B(Lderate): 「アクセルを全開にしているのに、バッテリーが限界でエネルギーが出せない」。これは**「本当の弱み」**です。

✨ この論文のすごいところ:
以前のシステムでは、この 2 つの状態が混同されてしまい、「罠」を「弱み」と勘違いして攻撃して失敗することがありました。
しかし、この新しいシステム(v2)は、「アクセルの踏み込み具合(δthrottle)」という新しいデータを導入し、「わざと溜めているのか(罠)」と「本当に限界なのか(弱み)」を、探偵が 9 割以上の精度で見分けることができるようになりました。

2. 司令塔(DQN:深層 Q ネットワーク)

役割:探偵の推理を聞いて、次の行動を決める。

司令塔は、探偵から「ライバルは『罠』を張っている可能性が 85% です」という報告を受け取ります。

  • もし「罠」なら:**「攻撃しない!エネルギーを温存しよう」**と判断します。
  • もし「本当の弱み」なら:**「今がチャンス!全力で攻撃しよう!」**と判断します。

このように、「見えない情報」を「確率」として捉え、最適な判断を下すのが司令塔の役割です。


🎭 具体的なシナリオ:「罠」の正体

2026 年のルールでは、**「アクティブ・エアロ(空力装置)」**という、ドライバーが好きな時に使える翼があります。

  • 罠のシナリオ:
    ライバルは「エネルギーを溜めている(Lharvest)」状態ですが、「アクティブ・エアロ」を使って直線速度を維持しています。
    外から見ると「速度が落ちているから、エネルギー切れ(弱み)だ」と見えます。
    しかし、実際は「わざとエネルギーを使わずに、翼でスピードを稼いでいる」のです。
    もしあなたがこれを「弱み」と勘違いして攻撃すると、ライバルは突然フルパワーで反撃し、あなたはエネルギーを使い果たして負けてしまいます。

  • この論文の解決策:
    「アクセルを全開にしているのに速度が落ちている(Lderate)」のか、「アクセルを控えめにしている(Lharvest)」のかを、スロットルデータで厳密に区別します。これにより、「罠」に引っかからずに済むようになります。


📊 結果:どれくらい上手くなった?

シミュレーション(人工的なレース)でのテスト結果は以下の通りです。

  • バッテリー残量の推定精度: 96.8%(ランダムな当てずっぽうは 25%)
  • 「罠」を見抜く精度: 96.3%(以前は 95.7% でしたが、さらに向上)
  • 誤って「罠」を「弱み」と勘違いするミス: 大幅に減少しました。

🚀 まとめ:この論文は何を伝えている?

  1. 2026 年の F1 は「心理戦」が重要になる。
    ライバルが「エネルギーを溜めているのか、枯渇しているのか」を見抜くのが鍵です。
  2. 新しい「スロットルデータ」がカギ。
    アクセルの踏み込み具合を見ることで、「わざと溜めている(罠)」と「本当に限界(弱み)」を区別できるようになりました。
  3. AI が「確率」で戦う。
    「100% 確実」ではなく、「80% 確実だ」という不確実な情報を元に、最も勝率の高い判断を下すシステムを作りました。

一言で言えば:
「2026 年の F1 で、ライバルが『ふり』をしているのか『本気』で弱っているのかを見抜く、超優秀な AI 探偵を開発しました。これにより、罠に引っかからず、勝てるチャンスを逃さない戦略が可能になります」という内容です。

※この論文は 2026 年 3 月に発表された「予備版」であり、実際のレース(オーストラリア GP など)のデータでさらに精度を高める予定だとしています。