Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sitzen in einem Formel-1-Rennwagen im Jahr 2026. Aber es ist kein normales Rennen. Es ist wie ein Schachspiel, bei dem Sie die Figuren Ihres Gegners nicht sehen können, aber Sie müssen wissen, ob er gerade eine Falle stellt oder ob er wirklich schwach ist.

Dieser wissenschaftliche Artikel beschreibt einen digitalen Detektiv und einen taktischen Berater, die Ihrem Team helfen, diese unsichtbaren Informationen zu erraten und die richtigen Entscheidungen zu treffen.

Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Das Rennen im Nebel

Früher war Formel 1 relativ einfach: Wenn Sie schneller waren, haben Sie gewonnen. Aber ab 2026 gibt es neue Regeln. Die Autos haben eine riesige Batterie (wie ein riesiger Akku im Elektroauto), die sie ständig laden und entladen müssen.

Das Tückische: Sie wissen nicht, wie voll die Batterie Ihres Gegners ist.

Hat er noch viel Energie für einen schnellen Angriff?
Oder ist sie leer, und er muss langsam fahren?
Oder ist das alles nur eine Täuschung? Vielleicht macht er so, als wäre er schwach, damit Sie auf ihn zugehen und Ihre eigene Energie verschwenden – nur damit er Sie dann mit voller Kraft überholt. Das nennt der Autor die „Gegenernte-Falle" (Counter-Harvest Trap).

2. Die Lösung: Zwei Schichten aus KI

Der Autor schlägt ein System vor, das aus zwei Teilen besteht, wie ein Detektiv und ein Stratege.

Schicht 1: Der Detektiv (Das HMM)

Stellen Sie sich diesen Teil als einen sehr aufmerksamen Spion vor, der nur die Dinge sieht, die auch Sie sehen können:

Wie schnell fährt der Gegner an der Messstrecke vorbei?
Wie lange braucht er für eine Kurve?
Wann bremst er?
Neu ab 2026: Wie stark drückt er das Gaspedal, wenn er eigentlich langsamer ist als sonst? (Das ist der „Gaspedal-Clue").

Der Detektiv nutzt diese kleinen Hinweise, um zu raten, was im Kopf (und im Akku) des Gegners vor sich geht. Er hat 40 verschiedene „Gedanken" (Zustände), die er durchgehen kann.

Früher (alte Version): Er wusste nur: „Der Gegner ist schwach."
Jetzt (neue Version v2): Er unterscheidet genau: „Ist er absichtlich schwach (Falle) oder ist er wirklich am Ende (echte Chance)?"

Das ist wie beim Poker: Früher sagten Sie nur „Der Gegner blufft oder hat eine gute Hand". Jetzt sagt der Detektiv: „Er blufft mit einem sehr spezifischen Muster, das wir erkennen können."

Schicht 2: Der Stratege (Das DQN)

Sobald der Detektiv eine Wahrscheinlichkeit hat (z. B. „80 % Wahrscheinlichkeit, dass der Gegner eine Falle stellt"), gibt er diese Information an den Strategen weiter.
Der Strategist ist ein künstliches Gehirn (eine KI), das entscheidet:

„Soll ich jetzt Gas geben und angreifen?"
„Oder soll ich Energie sparen und warten?"

Er lernt durch Millionen von simulierten Rennen, welche Entscheidung am besten ist, basierend auf dem, was der Detektiv ihm sagt.

3. Der große Durchbruch: Der „Gaspedal-Clue"

Der wichtigste Teil dieses neuen Systems ist ein neues Signal, das im Jahr 2026 hinzukommt: Wie viel Gas gibt der Gegner, wenn er eigentlich nicht schnell ist?

Szenario A (Die Falle): Der Gegner drückt das Gaspedal nur leicht, aber er fährt trotzdem schnell, weil er eine spezielle Aerodynamik nutzt. Er spart Energie. Das ist die Falle!
Szenario B (Die echte Schwäche): Der Gegner drückt das Gaspedal voll durch, aber das Auto wird trotzdem nicht schneller, weil die Batterie leer ist. Das ist eine echte Chance für Sie!

Früher konnte die KI diese beiden Situationen nicht gut unterscheiden. Die neue Version (v2) nutzt genau dieses Gaspedal-Signal, um die beiden Szenarien sofort zu trennen. Das ist wie der Unterschied zwischen jemandem, der sich nur stellt, als wäre er müde, und jemandem, der wirklich müde ist.

4. Warum das wichtig ist

Das System wurde anfangs nur in Computersimulationen getestet (wie ein Flugsimulator für Rennwagen). Dort hat es hervorragend funktioniert:

Es hat die Batteriestufe des Gegners zu 97 % richtig erraten.
Es hat die „Falle" zu 96 % erkannt, bevor sie zuschlug.

Aber: Da es noch keine echten Rennen 2026 gibt, muss das System noch mit echten Daten aus dem ersten Rennen in Melbourne kalibriert werden. Der Autor sagt: „Wir haben den Motor gebaut, jetzt müssen wir ihn auf der echten Strecke abstimmen."

Zusammenfassung in einem Satz

Dieser Artikel beschreibt eine neue Art von KI für Formel 1, die wie ein Spion funktioniert, der aus winzigen Details (wie dem Gaspedalverhalten) errät, ob ein Gegner eine Falle stellt oder wirklich schwach ist, damit Ihr Team nicht in die Irre gelockt wird.

Es ist der Versuch, das „Versteckspiel" im Rennsport durch Mathematik und KI zu lösen, bevor das Auto überhaupt die Kurve verlässt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des vorliegenden Papers auf Deutsch:

Titel: Gegnerzustandsinferenz unter partieller Beobachtbarkeit: Ein HMM–POMDP-Rahmenwerk für die Energiestrategie in der Formel 1 2026

Autorin: Kalliopi Kleisarchaki (Independent Researcher)
Version: v2 (Post-Melbourne), veröffentlicht am 9. März 2026 auf arXiv.

1. Problemstellung und Kontext

Die technischen Regularien der Formel 1 für das Jahr 2026 führen zu einer fundamentalen Änderung der Energiestrategie:

50/50-Leistungsaufteilung: Der Motor (ICE) und die Batterie (MGU-K) liefern jeweils die Hälfte der Leistung. Die Batterie steht somit unter permanenter Nachfrage.
Override Mode (MOM): Ersetzt DRS. Ein Fahrer erhält 0,5 MJ zusätzliche Energie, wenn er sich am Detektionspunkt innerhalb einer Sekunde vor dem Vordermann befindet.
Active Aero: Ersetzt DRS vollständig. Ein fahrersteuerbares System, das nur in Aktivierungszonen verfügbar ist.
Das Kernproblem: Die optimale Entscheidung, Energie zu verbrauchen ("burn") oder zu regenerieren ("harvest"), hängt nicht nur vom eigenen Zustand ab, sondern vom versteckten Zustand der Rivalen (Batterieladestand, MOM-Status, Reifenverschleiß). Da dieser Zustand nicht direkt beobachtbar ist, handelt es sich um ein Partially Observable Stochastic Game (POSG).

Ein zentrales Phänomen ist die "Counter-Harvest-Falle" (Counter-Harvest Trap): Ein führender Fahrer (Car B) kann bewusst im "Lharvest"-Modus fahren (Energie sparen), gleichzeitig aber Active Aero in geraden Strecken nutzen, um die Geschwindigkeit zu halten. Dies täuscht den Verfolger (Car A) über die tatsächliche Energieverfügbarkeit, sodass Car A unnötig Energie verbraucht, während Car B eine Reserve für einen späteren Angriff hat.

2. Methodik: Ein zweischichtiges Inferenz- und Entscheidungsframework

Die Arbeit schlägt ein skalierbares Framework vor, das aus zwei Schichten besteht:

Schicht 1: Hidden Markov Model (HMM) zur Zustandsinferenz

Zustandsraum: Das Modell verwendet einen diskreten Zustandsraum von 40 Zuständen pro Rivale.
- ERS-Ladestand (4 Modi): H (High), M (Medium), Lharvest (bewusste Erhaltung/Trap), Lderate (physikalische Erschöpfung/SOC-Grenze).
- Override Mode Status (2 Modi): Verfügbar / Verbraucht.
- Reifendegradation (5 Modi): Neu, Leicht, Moderat, Schwer, "Cliff" (kritisch).
Beobachtungen (6 Signale): Das Modell nutzt sechs öffentlich zugängliche Telemetrie-Signale, die als Abweichungen von einem 5-Runden-Baseline berechnet werden:
1. $\Delta v_{trap}$ : Geschwindigkeitsunterschied an der Speedtrap.
2. $\Delta t_{sector}$ : Sektorzeitunterschied.
3. $\Delta b_{brake}$ : Bremspunkt-Abstand.
4. $\sigma^2_{speed}$ : Varianz der Geschwindigkeit im Sektor.
5. $z_{aero}$ : Aktivierung von Active Aero (Binär).
6. $\delta_{throttle}$ (Neu in v1.5/v2): Der Anteil der Zeit, in dem das Gaspedal zu >98% gedrückt ist, aber die Geschwindigkeit unter dem Baseline liegt. Dies ist der Schlüssel zur Unterscheidung zwischen Lharvest (bewusste Drosselung, niedriger $\delta$ ) und Lderate (volle Last, aber Batterie leer, hoher $\delta$ ).
Inferenz: Der Baum-Welch-Algorithmus (Expectation-Maximization) wird verwendet, um die Übergangs- und Emissionswahrscheinlichkeiten aus den Telemetriedaten zu kalibrieren, da keine Ground-Truth-Daten für die Batterieladung der Gegner vorliegen.

Schicht 2: Deep Q-Network (DQN) für die Entscheidungsfindung

Eingabe: Das DQN erhält als Eingabe den Glaubenszustand (Belief State) des HMM (eine Wahrscheinlichkeitsverteilung über die 40 Zustände), nicht die rohen Beobachtungen.
Architektur: Ein flaches Netzwerk (3 versteckte Schichten: 256-256-128 Einheiten), trainiert mit Double DQN und Experience Replay.
Ziel: Auswahl der Aktion "Burn" oder "Harvest" basierend auf der Wahrscheinlichkeit, dass der Rivale in einer Falle (Lharvest) oder verwundbar (Lderate) ist.

3. Schlüsselbeiträge

Formalisierung des Problems: Modellierung der F1-Energiestrategie 2026 als POSG und Definition einer handhabbaren POMDP-Näherung für den Einzelfall.
Architektonischer Fortschritt (v2): Die Aufteilung des Zustands "Low Energy" in Lharvest und Lderate auf Zustands-Ebene (statt nur auf Emissions-Ebene wie in v1.5). Dies eliminiert die Mehrdeutigkeit und ermöglicht eine direkte Unterscheidung zwischen einer Täuschung (Trap) und einer echten Schwäche.
Detektion der Counter-Harvest-Falle: Formale Charakterisierung der Falle und Nachweis, dass sie nur durch eine kombinierte Inferenz über den ERS-Ladestand und den Sub-Modus (via $\delta_{throttle}$ ) erkannt werden kann.
Praktische Validierung: Das Framework ist für die Kalibrierung mit echten Daten ab dem Australian Grand Prix (8. März 2026) vorbereitet.

4. Ergebnisse (Synthetische Validierung)

Auf synthetischen Daten, die auf dem parametrischen Modell basieren, wurden folgende Ergebnisse erzielt:

ERS-Ladestands-Inferenz: 96,8% Genauigkeit (Zufallsbasislinie: 25%).
Unterscheidung Lharvest vs. Lderate: 89,4% Genauigkeit (Zufallsbasislinie: 50%). Dies bestätigt die Wirksamkeit des neuen $\delta_{throttle}$ -Signals.
Erkennung der Counter-Harvest-Falle: 96,3% Recall (Erkennungsrate) bei einer Miss-Rate von nur 3,7%.
Vergleich zu Baselines: Das System übertrifft deutlich einfache Schwellenwert-Strategien, die nur auf sichtbaren Daten basieren.
Kalibrierung: Der Expected Calibration Error (ECE) liegt bei 0,006 (auf synthetischen Daten).

Einschränkung: Die Ergebnisse basieren auf der Annahme, dass Gegner stationäre Prozesse sind (sie passen ihre Strategie nicht an die Beobachtung durch uns an). Dies ist eine Vereinfachung, die in zukünftigen spieltheoretischen Arbeiten adressiert wird.

5. Bedeutung und Ausblick

Strategische Relevanz: Die Arbeit liefert das erste mathematisch fundierte Werkzeug, um die komplexen, durch die 2026er-Regelungen entstandenen Täuschungsmöglichkeiten in der Formel 1 zu durchschauen.
Technische Innovation: Die Trennung von Lharvest und Lderate auf Zustands-Ebene ist ein entscheidender Schritt weg von reinen Beobachtungsfiltern hin zu einem echten "Gegner-Modell".
Zukunft: Das Framework dient als Basislinie (Baseline) für zukünftige spieltheoretische Erweiterungen, in denen Gegner als rationale Akteure modelliert werden, die versuchen, unsere Inferenz zu manipulieren (Keynesian Beauty Contest).
Implementierung: Der Code wird nach Annahme der Veröffentlichung öffentlich zugänglich gemacht. Die endgültige empirische Validierung erfolgt nach dem Rennen in Melbourne und Bahrain.

Fazit: Das Paper stellt einen robusten, zweistufigen Ansatz vor, der die Lücke zwischen unvollständiger Beobachtung und optimaler strategischer Entscheidung in der Formel 1 2026 schließt, indem es physikalische Signale (insbesondere $\delta_{throttle}$ ) nutzt, um verborgene Absichten (Fallen vs. echte Schwäche) zu entschlüsseln.