Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **2026 년 포뮬러 1 **(F1)을 설명합니다.

2026 년부터 F1 의 규칙이 바뀌어, 엔진과 배터리 (전기) 의 출력이 정확히 반반씩 나뉘게 됩니다. 이제 드라이버는 단순히 "내 차가 얼마나 빠른가"만 생각하면 되는 게 아니라, "앞서 가는 라이벌이 지금 배터리가 얼마나 남았는지, 그리고 나를 속이려는 함정에 걸려 있는 건 아닌지"를 추리해야 합니다.

이 논문은 바로 그 '라이벌의 숨겨진 상태'를 추리하고, 그에 맞춰 최적의 전략을 세우는 인공지능 시스템을 제안합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어보겠습니다.

1. 배경: 보이지 않는 '전력 게이지'와 '속임수'

상황:
2026 년 F1 은 마치 전기차와 가솔린 차가 섞인 하이브리드 레이싱입니다. 배터리는 계속 소모되고, 다시 충전해야 합니다.

**라이벌의 상태 **(숨겨진 정보) 우리는 라이벌의 배터리 잔량 (충전 상태), 오버라이드 모드 (일시적 가속 기능) 사용 여부, 타이어 마모 정도를 직접 볼 수 없습니다.
우리가 볼 수 있는 것: 속도계, 코너링 시간, 브레이크를 밟는 시점 등 겉으로 드러난 신호들만 있습니다.

**핵심 문제: '역수확 함정' **(Counter-Harvest Trap)
라이벌이 속임수를 쓸 수 있습니다.

진짜 상황: 라이벌은 배터리를 아껴서 (수확 모드) 숨겨둔 전력을 비축하고 있습니다.
속임수: 라이벌은 마치 배터리가 다 떨어져서 속도가 느려진 것처럼 (과부하 모드) 연기하며, 동시에 공기역학적 날개를 펼쳐 속도를 유지합니다.
결과: 뒤따르는 우리 팀은 "아, 저 친구 배터리가 다 떨어졌구나! 지금 공격하면 이기겠다!"라고 생각하며 배터리를 다 써버립니다. 하지만 라이벌은 숨겨둔 전력을 꺼내어 우리를 가볍게 따돌립니다. 이것이 바로 함정입니다.

2. 해결책: 두 단계로 작동하는 '스마트 코치' 시스템

이 논문은 이 문제를 해결하기 위해 두 단계로 이루어진 인공지능 시스템을 제안합니다.

1 단계: '탐정' (HMM - 은닉 마코프 모델)

이 단계는 라이벌의 숨겨진 상태를 추리하는 탐정입니다.

작동 원리: 라이벌의 속도, 브레이크 타이밍, 스로틀 (가속페달) 사용량 등 6 가지 신호를 관찰합니다.
**핵심 혁신 **(v2 버전) 이전 버전에서는 '배터리가 낮은 상태'를 하나로만 보았습니다. 하지만 이번 버전에서는 이를 두 가지로 명확히 구분합니다.
1. **Lharvest **(함정 상태) 배터리를 의도적으로 아껴서 숨기고 있는 상태. (위험! 함정일 확률 높음)
2. **Lderate **(진짜 고갈 상태) 배터리가 물리적으로 다 떨어져서 어쩔 수 없이 느린 상태. (기회! 공격해도 안전함)
비유: 마치 마술사를 보는 것과 같습니다.
- 마술사가 손에 공을 숨기고 있는 건지 (Lharvest), 아니면 진짜 공이 없어서 빈손인 건지 (Lderate)를 구별해야 합니다.
- 이 시스템은 라이벌의 발걸음 소리 (스로틀 신호) 를 들어 "아, 저건 의도적으로 숨긴 거야"라고 추리해냅니다.

2 단계: '코치' (DQN - 딥 Q-네트워크)

이 단계는 추리 결과를 바탕으로 결정을 내리는 코치입니다.

작동 원리: 탐정이 "라이벌이 함정을 깔고 있을 확률이 90% 입니다"라고 보고하면, 코치는 "배터리를 아껴라, 공격하지 마"라고 지시합니다.
결정: "배터리 다 써서 공격 (Burn)"할지, "배터리 아껴서 충전 (Harvest)"할지 선택합니다.

3. 이 시스템이 얼마나 잘하나? (실험 결과)

저자는 가상의 레이싱 시뮬레이션으로 이 시스템을 테스트했습니다.

배터리 잔량 추리 정확도: 96.8% (무작위 추측의 4 배 이상 정확함)
함정 탐지 능력: 라이벌이 속임수를 쓸 때, 이를 96.3% 의 확률로 찾아냈습니다.
핵심 성과: 이전 버전에서는 '배터리가 낮은 상태'를 구별하지 못해 함정에 걸려 배터리를 낭비하는 경우가 많았습니다. 하지만 이번 v2 버전은 '의도적 아끼기'와 '물리적 고갈'을 명확히 구분하므로, 속임수에 걸려 넘어지는 경우가 극도로 줄어든 것입니다.

4. 한계와 미래 (주의할 점)

이 시스템은 아직 완벽한 '신'은 아닙니다.

가정: 이 시스템은 라이벌이 "내가 지금 추리당하고 있다"는 것을 모른다고 가정합니다. 즉, 라이벌이 이 시스템을 의식하고 더 정교하게 속임수를 쓴다면 (게임 이론적 상황), 시스템은 다시 학습해야 합니다.
실제 적용: 이 논문은 2026 년 3 월 호주 그랑프리 (멜버른) 에서 실제 데이터를 받아 시스템을 최종적으로 다듬을 예정입니다. 멜버른은 배터리 충전이 어려운 코스라 가장 어려운 테스트가 될 것입니다.

요약: 한 문장으로 정리하면?

"2026 년 F1 에서 라이벌이 배터리가 다 떨어진 척하며 우리를 속이려 할 때, **그 속임수를 간파하고 **(탐정)하여 승리를 거두는 AI 코칭 시스템을 만들었습니다."

이 기술은 단순히 레이싱뿐만 아니라, **상대방의 숨겨진 의도를 파악하고 전략적으로 대응해야 하는 모든 경쟁 상황 **(게임, 비즈니스, 군사 전략 등)에서도 유용하게 쓰일 수 있는 원리를 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경:
2026 년 FIA 의 새로운 기술 규정은 F1 의 에너지 전략에 근본적인 변화를 가져옵니다. 내연기관 (ICE) 과 배터리 (MGU-K) 의 출력을 50:50 으로 분할하고, 무제한 재생 (regeneration) 과 드라이버 제어형 오버라이드 모드 (Override Mode, MOM) 를 도입합니다. 또한 DRS 를 대체하는 '액티브 에어로 (Active Aero)' 시스템이 도입되어, 드라이버는 지정된 구간에서 기체 역학적 이득을 얻거나 에너지 수확 (harvesting) 을 동시에 수행할 수 있게 됩니다.

핵심 문제:
이러한 환경에서 최적의 에너지 사용 (소모 vs 수확) 결정은 더 이상 자차의 상태만으로 결정되지 않습니다. 상대 차량의 숨겨진 상태 (Hidden State)—특히 배터리 잔량, 오버라이드 모드 가용성, 타이어 마모도, 그리고 의도적인 에너지 수확 여부—를 추론해야 합니다. 이는 단일 에이전트 최적화로는 해결 불가능한 부분 관측 확률적 게임 (Partially Observable Stochastic Game, POSG) 문제를 생성합니다.

주요 위협: '카운터 하베스트 트랩 (Counter-Harvest Trap)'
상대 차량이 의도적으로 에너지 수확 모드 (Lharvest) 를 유지하면서 액티브 에어로를 전개하여 속도를 유지하는 기만 전술입니다. 추종 차량은 상대가 에너지가 부족하다고 오인하여 공격 (에너지 소모) 을 시도하다가, 상대가 보유한 숨겨진 에너지로 인해 쉽게 방어당하는 함정에 빠집니다.

2. 방법론 (Methodology)

저자는 2 층 구조의 추론 및 의사결정 프레임워크를 제안합니다.

1 층: 40 상태 은닉 마르코프 모델 (HMM)

상대 차량의 숨겨진 상태를 추론하기 위해 HMM 을 사용합니다.

은닉 상태 (Hidden States, 40 개):
- ERS 충전 상태 (4 모드): High (H), Moderate (M), Lharvest (의도적 수확/함정 상태), Lderate (물리적 한계/전력 부족 상태).
  - v2 의 핵심 개선: 이전 버전 (v1.5) 에서 하나의 'Low' 상태로 처리되던 것을, 전략적 의미가 정반대인 두 가지 하위 모드로 분리했습니다.
- 오버라이드 모드 (MOM) 상태: 사용 가능 (Available) / 소진 (Spent).
- 타이어 마모도 (5 단계): New, Light, Moderate, Heavy, Cliff.
관측 변수 (6 개, Observables):
1. $\Delta v_{trap}$ : 속도 측정 지점의 속도 차이.
2. $\Delta t_{sector}$ : 섹션 시간 차이.
3. $\Delta b_{brake}$ : 브레이킹 시작 지점 차이.
4. $\sigma^2_{speed}$ : 속도 변동성.
5. $z_{aero}$ : 액티브 에어로 전개 여부 (0 또는 1).
6. $\delta_{throttle}$ (v1.5 추가, v2 에서 핵심): 스로틀이 98% 이상인데 속도가 기준치보다 낮은 '슈퍼 클리핑 (Super-clipping)' 지속 시간 비율.
  - 역할: Lharvest (의도적 제어, 낮은 $\delta_{throttle}$ ) 와 Lderate (물리적 한계, 높은 $\delta_{throttle}$ ) 를 명확히 구분하는 결정적 신호입니다.
학습 알고리즘: Baum-Welch 알고리즘을 사용하여 레이스 데이터 (2026 년 호주 GP 이후) 로 파라미터를 보정합니다.

2 층: 딥 Q-네트워크 (DQN) 의사결정 정책

입력: HMM 이 추론한 **신념 상태 (Belief State, 40 차원 확률 벡터)**와 자차의 상태 정보.
출력: 에너지 전략 선택 (Burn vs Harvest).
아키텍처: 3 개의 은닉층 (256-256-128) 을 가진 얕은 네트워크로, 복잡한 표현 학습은 HMM 의 신념 상태가 담당하도록 설계되었습니다.
학습: 합성 데이터 (Synthetic Data) 를 기반으로 Double DQN 으로 사전 학습 후, 실제 데이터로 미세 조정합니다.

3. 주요 기여 (Key Contributions)

문제 공식화: 2026 년 F1 에너지 관리를 POSG 로 모델링하고, 단일 에이전트 접근법을 위한 tractable POMDP 근사치를 정의했습니다. '카운터 하베스트 트랩'을 기만적 균형 전략으로 엄밀하게 정의했습니다.
상대 상태 추론 아키텍처 (v2 핵심):
- Lharvest/Lderate 분리: 단순한 저전력 상태를 '함정 (에너지 비축 중)'과 '진짜 위기 (물리적 고갈)'로 분리하여 40 상태 HMM 을 구축했습니다.
- $\delta_{throttle}$ 의 상태 수준 격상: v1.5 에서는 혼합 방출 (mixed emission) 로 처리되던 신호를 v2 에서는 상태 분해의 핵심 요소로 격상시켜, 트랩 탐지 정확도를 획기적으로 높였습니다.
의사결정 정책: HMM 의 신념 상태를 입력으로 받는 DQN 정책을 제안하고, 단순 관측치 임계값 기반 베이스라인 대비 우월성을 입증했습니다.

4. 결과 (Results)

합성 데이터 (Synthetic Data) 기반 평가:

ERS 상태 추론 정확도: 96.8% (무작위 베이스라인 25% 대비).
Lharvest vs Lderate 분류 정확도: 89.4% (무작위 베이스라인 50% 대비). 이는 v2 의 가장 중요한 성과입니다.
트랩 탐지 재현율 (Recall): 96.3% (오류율 3.7%). v1.5 대비 Lderate 차량을 오인하여 발생하는 오탐지가 크게 감소했습니다.
신뢰도 보정 (ECE): 0.006 (합성 데이터 기준 하한선).

시뮬레이션 환경:

멜버른 (호주 GP) 과 같이 재생 효율이 낮은 (1.0x) 회로는 '슈퍼 클리핑'이 강제되어 $\delta_{throttle}$ 신호의 구분이 모호해지므로, 트랩 탐지 성능이 다른 회로보다 낮아질 것으로 예측됩니다.
40 개 상태 모델은 Race 4 이후부터는 약 13,920 개의 관측치를 통해 통계적으로 유의미한 파라미터 추정이 가능할 것으로 예상됩니다.

5. 의의 및 한계 (Significance & Limitations)

의의:

2026 년 F1 의 복잡한 에너지 관리 환경에서, 상대 차량의 **의도 (Intention)**를 추론하여 함정을 피하고 공격 기회를 포착하는 최초의 체계적인 프레임워크를 제시했습니다.
Lharvest/Lderate 분리는 단순한 기술적 개선이 아니라, 게임 이론적 관점에서 상대의 전략적 의도를 파악하는 핵심 열쇠가 됩니다.
이 연구는 정적 (Stationary) 인 상대를 가정하므로, 실제 F1 의 역동적인 상호작용 (상대가 추론당하는 것을 인지하고 전략을 변경하는 경우) 을 다루기 위한 게임 이론적 확장 (Kleisarchaki [2026b] 참조) 을 위한 기준선 (Baseline) 역할을 합니다.

한계 및 향후 과제:

정적 상대 가정: 현재 모델은 상대가 관찰을 인지하고 전략을 수정한다는 가정을 포함하지 않습니다 (이는 '카운터 하베스트 트랩'의 본질적 복잡성을 간과할 수 있음).
조건부 독립 가정: 관측 변수들 간의 상관관계를 단순화하여 과신 (over-confidence) 을 유발할 수 있으며, 실제 데이터 보정 (Baum-Welch) 및 구조적 수정이 필요합니다.
부스트 모드 (Boost Mode) 제외: 현재 모델은 오버라이드 모드는 포함하지만, 비제한적 부스트 모드는 관측 신호의 한계로 인해 명시적 잠재 변수로 포함되지 않았습니다.

결론:
이 논문은 2026 년 F1 규정에 맞춰 개발된 HMM-POMDP 프레임워크를 통해, 부분 관측 하에서 상대의 숨겨진 에너지 상태와 전략적 의도를 고도화된 방식으로 추론하고 의사결정에 반영하는 가능성을 입증했습니다. 특히 'Lharvest'와 'Lderate'의 분리는 트랩 탐지 정확도를 획기적으로 개선한 핵심 혁신입니다.