Smart Walkers in Discrete Space
Este artigo investiga as propriedades estatísticas de agentes treináveis em espaço discreto, demonstrando que a entropia de configuração serve como uma métrica confiável para avaliar a capacidade de aprendizado desses agentes, mesmo na ausência de informações sobre seus sinais de recompensa ou políticas.