Optimal strategies in Markov decision processes with finitely additive evaluations

Este artigo demonstra que, em processos de decisão de Markov com horizonte infinito e avaliações finitamente aditivas, não é garantida a existência de uma estratégia ótima (nem pura nem aleatória) quando a medida de agregação não satisfaz o princípio do valor temporal do dinheiro, apresentando um contraexemplo que refuta essa possibilidade.

János Flesch, Arkadi Predtetchinski, William D Sudderth, Xavier Venel

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

O Dilema do Jogador Infinito: Por que às vezes não existe a "Estratégia Perfeita"

Imagine que você é o gerente de uma fábrica que nunca fecha. Todos os dias, você precisa tomar uma decisão: Trabalhar duro (ganha muito hoje, mas cansa amanhã) ou Descansar (ganha pouco hoje, mas está fresco amanhã). O jogo dura para sempre.

A pergunta clássica da economia e da matemática é: "Qual é a melhor estratégia para eu ganhar o máximo de dinheiro possível ao longo de toda a minha vida?"

Geralmente, a resposta é "sim, existe uma estratégia perfeita". Mas este artigo de 2026 (escrito por Flesch, Predtetchinski, Sudderth e Venel) descobriu algo surpreendente: em certas condições muito específicas, a resposta é "não". Às vezes, não existe uma estratégia perfeita, nem mesmo uma aleatória.

Vamos entender como isso funciona usando três conceitos-chave:

1. O Jogo Infinito (MDP)

Pense no "Processo de Decisão de Markov" (MDP) como um tabuleiro de jogo infinito.

  • Você está em um estado (ex: na fábrica).
  • Você escolhe uma ação (Trabalhar ou Descansar).
  • Você ganha uma recompensa (dinheiro).
  • O jogo avança para o próximo dia.

O objetivo é somar todas as recompensas futuras. Mas como somar algo que nunca acaba?

2. A "Lente" de Avaliação (A Carga Difusa)

Aqui está o truque. Para calcular o total, você precisa de uma "lente" ou um "filtro" para olhar para o futuro.

  • Visão Padrão (Desconto): A maioria das pessoas diz: "Um real hoje vale mais que um real daqui a 100 anos". Isso é o "valor do dinheiro no tempo". Se você usa essa lógica, sempre existe uma estratégia perfeita.
  • Visão Média (Frequência): Outra lente diz: "Não importa quando ganho, importa a média". Se eu ganho 1 real em dias ímpares e 0 em pares, minha média é 0,5.
  • A Lente do Artigo (Carga Difusa): Os autores criaram uma lente matemática muito estranha e complexa. Ela é como um "olho de águia" que consegue ver padrões infinitos, mas não se importa com dias específicos. Ela é uma "média" que não dá peso a nenhum dia individual, mas olha para o infinito como um todo.

3. O Cenário "Par ou Ímpar" (O Exemplo do Artigo)

Os autores criaram um jogo de teste chamado "Par ou Ímpar":

  • Dia 1 (Ímpar): Você escolhe entre ganhar 1 agora e 0 amanhã, OU ganhar 0 agora e 1 amanhã.
  • Dia 2 (Par): O jogo volta ao início.
  • Dia 3 (Ímpar): Você escolhe de novo. E assim por diante, para sempre.

A lógica parece simples: se você sempre escolhe "ganhar 1 agora", você ganha 1 em todos os dias ímpares. Se escolhe "ganhar 1 amanhã", você ganha 1 em todos os dias pares.

O Problema da Lente Estranha:
Os autores construíram uma "lente" (chamada de aggregation charge) que é uma mistura de duas visões opostas:

  1. Visão A: Só se importa com os dias Ímpares.
  2. Visão B: Só se importa com os dias Pares (mas de uma forma matemática muito sutil e complexa).

Para ganhar o máximo com a Visão A, você precisa escolher "ganhar 1 agora" o tempo todo.
Para ganhar o máximo com a Visão B, você precisa escolher "ganhar 1 amanhã" com certa frequência.

O Conflito:

  • Se você foca na Visão A, você perde na Visão B.
  • Se você foca na Visão B, você perde na Visão A.
  • Se você tenta fazer um meio-termo (aleatoriamente), você não atinge o máximo de nenhuma das duas.

A descoberta matemática é que, com essa lente específica, é impossível atingir o valor máximo teórico (1). Você pode chegar muito perto (0,99999), mas nunca chegará a 1.

A Analogia do "Gato de Schrödinger" da Decisão

Imagine que você está tentando adivinhar se uma moeda vai dar "Cara" ou "Coroa" para sempre.

  • Se você sempre aposta em Cara, você ganha em um universo paralelo.
  • Se você sempre aposta em Coroa, você ganha em outro.
  • Mas a "lente" do artigo é como um juiz que diz: "Eu vou te pagar o máximo possível, mas a minha regra de pagamento muda dependendo de como você joga, de uma forma que você nunca consegue acertar o padrão perfeito".

É como tentar encher um balde que tem um buraco no fundo que se move exatamente na velocidade em que você joga a água. Você pode chegar perto de encher, mas o balde nunca fica 100% cheio.

Por que isso importa?

  1. Quebra de Intuição: A gente acha que, se o jogo é justo e as regras são claras, deve haver uma "melhor jogada". Este artigo diz: "Não necessariamente".
  2. Limites da Matemática: Mostra que, quando lidamos com o infinito e com medidas matemáticas muito abstratas (que não contam dia por dia, mas olham o todo), a lógica de "otimização" pode falhar.
  3. Aplicação Real: Embora pareça um quebra-cabeça teórico, isso afeta como modelamos sistemas complexos de longo prazo, como mudanças climáticas, economia global ou inteligência artificial que precisa planejar por séculos. Se a forma como "avaliamos" o futuro for muito complexa, pode não existir uma solução perfeita para o nosso problema.

Resumo Final

O artigo prova que, em um mundo infinito onde avaliamos o futuro com uma "lente" matemática muito peculiar e complexa, não existe uma estratégia vencedora perfeita. Você pode ficar cada vez melhor, mas nunca chegará ao topo. É a prova matemática de que, às vezes, o "melhor possível" é apenas um sonho inalcançável.