Minimax Optimal Strategy for Delayed Observations in Online Reinforcement Learning
Este artigo propõe um algoritmo minimax ótimo para aprendizado por reforço com observações de estado atrasadas, combinando métodos de augmentação e limites superiores de confiança para alcançar um limite de arrependimento que coincide com o limite inferior teórico.