Smart Walkers in Discrete Space
Este artículo estudia las propiedades estadísticas de agentes entrenables en espacios discretos, demostrando mediante modelos analíticos, simulaciones numéricas y un experimento con el motor de ajedrez Stockfish que la entropía de configuración sirve como un indicador fiable de la capacidad de aprendizaje de los agentes para maximizar recompensas, incluso sin acceso a su política interna.