Black Box Meta-Learning Intrinsic Rewards
Este trabalho propõe um método de meta-aprendizado que trata as atualizações de política como caixas-pretas para aprender recompensas intrínsecas, melhorando a eficiência de dados e a exploração em ambientes de controle contínuo com recompensas esparsas sem a necessidade de calcular meta-gradientes.