Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

이 논문은 2026 년 포뮬러 1 의 새로운 에너지 규정 하에서 경쟁 차량의 숨겨진 상태를 추정하는 30 상태 은닉 마르코프 모델 (HMM) 과 이를 기반으로 에너지 전략을 결정하는 심층 Q-네트워크 (DQN) 로 구성된 2 층 프레임워크를 제시하여, 경쟁자의 의도적 기만 전술을 탐지하고 최적의 에너지 배분 정책을 수립할 수 있음을 보여줍니다.

Kalliopi Kleisarchaki

게시일 Tue, 10 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **2026 년 포뮬러 1 **(F1)을 설명합니다.

2026 년부터 F1 의 규칙이 바뀌어, 엔진과 배터리 (전기) 의 출력이 정확히 반반씩 나뉘게 됩니다. 이제 드라이버는 단순히 "내 차가 얼마나 빠른가"만 생각하면 되는 게 아니라, "앞서 가는 라이벌이 지금 배터리가 얼마나 남았는지, 그리고 나를 속이려는 함정에 걸려 있는 건 아닌지"를 추리해야 합니다.

이 논문은 바로 그 '라이벌의 숨겨진 상태'를 추리하고, 그에 맞춰 최적의 전략을 세우는 인공지능 시스템을 제안합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어보겠습니다.


1. 배경: 보이지 않는 '전력 게이지'와 '속임수'

상황:
2026 년 F1 은 마치 전기차와 가솔린 차가 섞인 하이브리드 레이싱입니다. 배터리는 계속 소모되고, 다시 충전해야 합니다.

  • **라이벌의 상태 **(숨겨진 정보) 우리는 라이벌의 배터리 잔량 (충전 상태), 오버라이드 모드 (일시적 가속 기능) 사용 여부, 타이어 마모 정도를 직접 볼 수 없습니다.
  • 우리가 볼 수 있는 것: 속도계, 코너링 시간, 브레이크를 밟는 시점 등 겉으로 드러난 신호들만 있습니다.

**핵심 문제: '역수확 함정' **(Counter-Harvest Trap)
라이벌이 속임수를 쓸 수 있습니다.

  • 진짜 상황: 라이벌은 배터리를 아껴서 (수확 모드) 숨겨둔 전력을 비축하고 있습니다.
  • 속임수: 라이벌은 마치 배터리가 다 떨어져서 속도가 느려진 것처럼 (과부하 모드) 연기하며, 동시에 공기역학적 날개를 펼쳐 속도를 유지합니다.
  • 결과: 뒤따르는 우리 팀은 "아, 저 친구 배터리가 다 떨어졌구나! 지금 공격하면 이기겠다!"라고 생각하며 배터리를 다 써버립니다. 하지만 라이벌은 숨겨둔 전력을 꺼내어 우리를 가볍게 따돌립니다. 이것이 바로 함정입니다.

2. 해결책: 두 단계로 작동하는 '스마트 코치' 시스템

이 논문은 이 문제를 해결하기 위해 두 단계로 이루어진 인공지능 시스템을 제안합니다.

1 단계: '탐정' (HMM - 은닉 마코프 모델)

이 단계는 라이벌의 숨겨진 상태를 추리하는 탐정입니다.

  • 작동 원리: 라이벌의 속도, 브레이크 타이밍, 스로틀 (가속페달) 사용량 등 6 가지 신호를 관찰합니다.
  • **핵심 혁신 **(v2 버전) 이전 버전에서는 '배터리가 낮은 상태'를 하나로만 보았습니다. 하지만 이번 버전에서는 이를 두 가지로 명확히 구분합니다.
    1. **Lharvest **(함정 상태) 배터리를 의도적으로 아껴서 숨기고 있는 상태. (위험! 함정일 확률 높음)
    2. **Lderate **(진짜 고갈 상태) 배터리가 물리적으로 다 떨어져서 어쩔 수 없이 느린 상태. (기회! 공격해도 안전함)
  • 비유: 마치 마술사를 보는 것과 같습니다.
    • 마술사가 손에 공을 숨기고 있는 건지 (Lharvest), 아니면 진짜 공이 없어서 빈손인 건지 (Lderate)를 구별해야 합니다.
    • 이 시스템은 라이벌의 발걸음 소리 (스로틀 신호) 를 들어 "아, 저건 의도적으로 숨긴 거야"라고 추리해냅니다.

2 단계: '코치' (DQN - 딥 Q-네트워크)

이 단계는 추리 결과를 바탕으로 결정을 내리는 코치입니다.

  • 작동 원리: 탐정이 "라이벌이 함정을 깔고 있을 확률이 90% 입니다"라고 보고하면, 코치는 "배터리를 아껴라, 공격하지 마"라고 지시합니다.
  • 결정: "배터리 다 써서 공격 (Burn)"할지, "배터리 아껴서 충전 (Harvest)"할지 선택합니다.

3. 이 시스템이 얼마나 잘하나? (실험 결과)

저자는 가상의 레이싱 시뮬레이션으로 이 시스템을 테스트했습니다.

  • 배터리 잔량 추리 정확도: 96.8% (무작위 추측의 4 배 이상 정확함)
  • 함정 탐지 능력: 라이벌이 속임수를 쓸 때, 이를 96.3% 의 확률로 찾아냈습니다.
  • 핵심 성과: 이전 버전에서는 '배터리가 낮은 상태'를 구별하지 못해 함정에 걸려 배터리를 낭비하는 경우가 많았습니다. 하지만 이번 v2 버전은 '의도적 아끼기'와 '물리적 고갈'을 명확히 구분하므로, 속임수에 걸려 넘어지는 경우가 극도로 줄어든 것입니다.

4. 한계와 미래 (주의할 점)

이 시스템은 아직 완벽한 '신'은 아닙니다.

  • 가정: 이 시스템은 라이벌이 "내가 지금 추리당하고 있다"는 것을 모른다고 가정합니다. 즉, 라이벌이 이 시스템을 의식하고 더 정교하게 속임수를 쓴다면 (게임 이론적 상황), 시스템은 다시 학습해야 합니다.
  • 실제 적용: 이 논문은 2026 년 3 월 호주 그랑프리 (멜버른) 에서 실제 데이터를 받아 시스템을 최종적으로 다듬을 예정입니다. 멜버른은 배터리 충전이 어려운 코스라 가장 어려운 테스트가 될 것입니다.

요약: 한 문장으로 정리하면?

"2026 년 F1 에서 라이벌이 배터리가 다 떨어진 척하며 우리를 속이려 할 때, **그 속임수를 간파하고 **(탐정)하여 승리를 거두는 AI 코칭 시스템을 만들었습니다."

이 기술은 단순히 레이싱뿐만 아니라, **상대방의 숨겨진 의도를 파악하고 전략적으로 대응해야 하는 모든 경쟁 상황 **(게임, 비즈니스, 군사 전략 등)에서도 유용하게 쓰일 수 있는 원리를 보여줍니다.