Each language version is independently generated for its own context, not a direct translation.

Imagine que a Fórmula 1 de 2026 é como um jogo de xadrez jogado no escuro, onde você só consegue ver as peças do seu oponente quando elas se movem, mas não sabe o que elas estão pensando ou quanto "combustível mágico" elas ainda têm no tanque.

Este artigo é um manual de instruções para um super-olho digital que ajuda os pilotos e engenheiros a "ler a mente" dos rivais, mesmo sem ter acesso aos seus computadores.

Aqui está a explicação, traduzida para uma linguagem simples e cheia de analogias:

1. O Grande Problema: O Jogo de "Esconder e Revelar"

Nas regras de 2026, os carros têm uma bateria que precisa ser gerida com cuidado. O piloto pode escolher:

Gastar energia para ser mais rápido (atacar).
Guardar energia para usar depois (defender ou preparar uma armadilha).

O problema é que você não sabe se o carro da frente está realmente sem energia ou se ele está apenas fingindo que está sem energia para te enganar. É como um jogador de pôquer que faz uma cara de "não tenho nada" na mão, mas na verdade tem um Royal Flush. Se você atacar, ele revela a carta vencedora e te deixa para trás.

2. A Solução: O "Detetive de Dados" (O Modelo HMM)

Os autores criaram um sistema de inteligência artificial que funciona como um detetive. Em vez de olhar apenas para a velocidade, ele analisa 6 pistas diferentes (como o som do motor, a frenagem, o uso do acelerador e a aerodinâmica).

Esse detetive usa um modelo chamado HMM (Modelo Oculto de Markov). Pense nele como um tradutor de segredos:

O que vemos: O carro da frente está lento e usando o aerofólio (asa traseira) de uma forma estranha.
O que o modelo deduz: "Ei, esse carro está usando o acelerador a 100%, mas não está acelerando. Isso significa que a bateria dele está cheia e ele está apenas 'segurando' a energia para um ataque futuro. Ele está montando uma armadilha!"

3. A Grande Inovação: A Diferença entre "Fingir" e "Realmente Estar Sem Energia"

A versão mais nova deste trabalho (chamada v2) fez um ajuste brilhante. Antes, o sistema confundia dois estados:

Lharvest (A Armadilha): O piloto está escolhendo guardar energia. Ele está forte, mas fingindo ser fraco.
Lderate (O Esgotamento): O piloto precisa guardar energia porque a bateria dele realmente acabou. Ele está fraco de verdade.

A Analogia da Corrida:

Imagine dois corredores.
O Corredor A (Armadilha) está correndo devagar de propósito, com um sorriso no rosto, guardando fôlego para o final.
O Corredor B (Esgotado) está correndo devagar porque está exausto, suando frio e quase desmaiando.

O sistema antigo dizia: "Ambos estão correndo devagar, cuidado!". O novo sistema diz: "O Corredor A é uma armadilha perigosa (não ataque!). O Corredor B está vulnerável (ataque agora!)".

Essa distinção é feita olhando para um dado específico chamado $\delta_{throttle}$ : é a fração de tempo em que o piloto aperta o acelerador ao máximo, mas o carro não acelera. Se ele aperta o máximo e não sai, é porque a bateria acabou (Esgotado). Se ele aperta pouco e o carro anda devagar, é uma escolha (Armadilha).

4. O "Cérebro" que Decide (O DQN)

Depois que o "Detetive" (HMM) analisa os dados e diz: "Acho que o rival tem 80% de chance de estar montando uma armadilha", essa informação vai para o "Cérebro" (uma rede neural chamada DQN).

O Cérebro não toma decisões baseadas apenas no que vê, mas no que acha que está acontecendo.

Se o Cérebro acha que é uma armadilha: Ele diz ao piloto: "Segure a energia, não tente ultrapassar agora."
Se o Cérebro acha que o rival está exausto: Ele diz: "Vá em frente, ataque!"

5. Por que isso é importante?

Antes, os pilotos tinham que adivinhar. Se eles errassem e atacassem um carro que estava montando uma armadilha, perdiam a posição e a energia.

Com este novo sistema:

Precisão: O sistema consegue identificar a armadilha em 96% dos casos (em simulações).
Segurança: Evita que o piloto caia em armadilhas óbvias.
Oportunidade: Permite que o piloto ataque no momento exato em que o rival está realmente vulnerável.

Resumo em uma frase

Este artigo ensina aos carros de Fórmula 1 de 2026 a não apenas olhar para a velocidade do rival, mas a ler as intenções dele, distinguindo quem está apenas fingindo estar fraco de quem realmente está no limite, para que o piloto possa decidir quando atacar e quando se defender.

É como ter um radar que não vê apenas o carro à frente, mas vê o "plano de jogo" que está escrito na mente do piloto adversário.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Inferência de Estado do Oponente sob Observabilidade Parcial para Estratégia de Energia na F1 2026

1. Contexto e Problema

O artigo aborda os desafios estratégicos impostos pelas novas regulamentações técnicas da Fórmula 1 para 2026. A mudança fundamental é a introdução de uma divisão de potência 50/50 entre o motor de combustão interna (ICE) e a bateria MGU-K, com regeneração ilimitada e um modo de "Override" (sobreposição) controlado pelo piloto.

O Problema Central:
A decisão ótima de deploy (uso) ou harvest (recuperação) de energia deixou de ser uma função apenas do estado próprio do carro. Agora, depende criticamente do estado oculto dos carros rivais (nível de carga da bateria, status do Modo Override e degradação dos pneus).

Observabilidade Parcial: Os pilotos e equipes conhecem seu próprio estado, mas as variáveis internas dos rivais são ocultas.
O "Counter-Harvest Trap" (Armadilha de Contra-Recuperação): Uma estratégia enganosa onde um carro rival (Carro B) deliberadamente opera em um modo de baixa energia (Lharvest) para parecer vulnerável, induzindo o perseguidor (Carro A) a gastar sua energia em um ataque. O Carro B, que na verdade está conservando energia, ativa seu modo de ataque completo e defende a posição facilmente.
Complexidade: O problema é modelado como um Jogo Estocástico Parcialmente Observável (POSG), que não pode ser resolvido por otimização de agente único.

2. Metodologia: Framework de Duas Camadas

Os autores propõem uma arquitetura tractável composta por duas camadas principais:

Camada 1: Modelo Oculto de Markov (HMM) de 40 Estados

O objetivo é inferir a distribuição de probabilidade sobre o estado oculto de cada rival com base em seis sinais observáveis de telemetria pública.

Espaço de Estados Ocultos ( $X$ ): 40 estados combinando:
- Nível de Carga ERS (4 modos):
  1. H (High): Alta carga.
  2. M (Medium): Carga moderada.
  3. $L_{harvest}$ (Low-Harvest): Inovação da v2. Modo de baixa carga deliberado (conservação estratégica). O carro gerencia o acelerador para acumular reserva oculta.
  4. $L_{derate}$ (Low-Derate): Inovação da v2. Modo de baixa carga física (teto de SOC). O carro exige potência total, mas a bateria não entrega mais energia.
- Status do Modo Override: Disponível ou Gasto.
- Degradação dos Pneus: 5 níveis (Novo a "Cliff"/Crítico).
Observáveis (6 Sinais):
1. $\Delta v_{trap}$ : Diferença de velocidade no speed trap.
2. $\Delta t_{sector}$ : Diferença no tempo de setor.
3. $\Delta b_{brake}$ : Diferença no ponto de frenagem.
4. $\sigma^2_{speed}$ : Variância da velocidade (desviada da tendência).
5. $z_{aero}$ : Uso de Aerodinâmica Ativa (Active Aero).
6. $\delta_{throttle}$ (Novo em v1.5/v2): Fração de tempo em que o acelerador está $\ge 98\%$ mas a velocidade está abaixo da linha de base. Este é o discriminador crucial entre $L_{harvest}$ (baixo $\delta$ ) e $L_{derate}$ (alto $\delta$ ).
Algoritmo: Atualização de crença via algoritmo de Forward do HMM, calibrado posteriormente pelo algoritmo Baum-Welch (EM) usando dados reais.

Camada 2: Política de Decisão via Deep Q-Network (DQN)

Entrada: O vetor de crença (belief state) de 40 dimensões gerado pelo HMM, combinado com o estado próprio do carro (66 dimensões no total).
Ações: "Burn" (gastar energia para atacar) ou "Harvest" (recuperar energia).
Treinamento: Utiliza Double DQN com experience replay, treinado inicialmente em dados sintéticos gerados pelo modelo paramétrico e refinado com dados reais.

3. Contribuições Principais

Formalização do Problema: Modelagem da gestão de energia na F1 2026 como um POSG e definição precisa da "Armadilha de Contra-Recuperação" como uma estratégia de equilíbrio enganoso.
Inferência de Estado com Decomposição $L_{harvest}/L_{derate}$ :
- A versão v2 eleva a distinção entre "conservação deliberada" e "depleção física" de um problema de emissão mista para uma distinção de estado no nível do HMM.
- Isso elimina a ambiguidade presente em versões anteriores, permitindo que a política de decisão receba diretamente a probabilidade de estar diante de uma armadilha ( $P(L_{harvest})$ ) versus uma oportunidade real de ataque ( $P(L_{derate})$ ).
Política de Decisão Robusta: Um agente DQN que opera sobre o estado de crença, superando baselines baseadas apenas em limiares observáveis.

4. Resultados (Validação Sintética)

Os resultados apresentados são baseados em simulações de 20 corridas sintéticas, servindo como um limite superior de desempenho antes da calibração com dados reais (GP da Austrália, Março de 2026).

Precisão do HMM:
- Nível de ERS: 96,8% de precisão (vs. 25% da linha base aleatória).
- Classificação $L_{harvest}$ vs. $L_{derate}$ : 89,4% de precisão (vs. 50% da linha base). Esta é a principal melhoria da v2.
- Detecção de "Cliff" de Pneus: 91,3%.
Detecção de Armadilhas (Counter-Harvest Trap):
- Recall: 96,3% (apenas 3,7% de falsos negativos).
- A taxa de falsos positivos foi significativamente reduzida em comparação com a v1.5, graças à separação clara dos estados $L$ .
Comparação com Baselines: O sistema completo (HMM + DQN) supera drasticamente políticas determinísticas e políticas baseadas apenas em observáveis (como limiares de velocidade).

5. Significado e Limitações

Significado:

Avanço Arquitetural: A separação explícita entre $L_{harvest}$ e $L_{derate}$ resolve o problema fundamental de distinguir entre um rival que está "jogando" (armadilha) e um que está "quebrado" (oportunidade real).
Viabilidade Prática: Demonstra que a inferência de estado oculto em tempo real é possível usando apenas telemetria pública, transformando a estratégia de F1 de um jogo de informação perfeita (para a equipe) para um jogo de inferência probabilística.
Base para Futuro: Este trabalho estabelece a "linha de base" (floor) para soluções mais complexas que envolvem agentes adaptativos e teoria dos jogos (citado como trabalho futuro em Kleisarchaki [2026b]).

Limitações e Próximos Passos:

Hipótese de Oponente Estacionário: O modelo assume que os rivais não adaptam sua estratégia com base em serem observados. Na realidade, pilotos racionais podem explorar isso, o que exigiria uma abordagem de Jogo Estocástico Parcialmente Observável (POSG) completa.
Dependência de Dados Reais: O modelo foi calibrado analiticamente e testado sinteticamente. A validação empírica real começará com o GP da Austrália (8 de março de 2026).
Suposição de Independência Condicional: O modelo assume independência entre alguns sinais observáveis para tractabilidade, o que pode levar a crenças superconfiantes (embora corrigível via temperature scaling ou modelos de emissão bivariados no futuro).

Conclusão:
O artigo apresenta um framework robusto para navegar na complexidade estratégica da F1 2026. Ao decompor o estado de baixa energia em componentes estratégicos distintos, o sistema permite que as equipes de estratégia tomem decisões informadas sobre quando atacar e quando evitar armadilhas, superando as limitações das abordagens tradicionais baseadas apenas em dados observáveis.

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy