Learning to Cover: Online Learning and Optimization with Irreversible Decisions
Este artigo propõe e analisa um algoritmo assintoticamente ótimo para um problema de aprendizado online e otimização com decisões irreversíveis de cobertura, demonstrando que uma política que equilibra exploração inicial e exploração subsequente minimiza o arrependimento de forma sublinear à medida que o número de instalações aumenta.