ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning
El artículo presenta ARM-FM, un marco que utiliza modelos fundacionales para generar automáticamente máquinas de recompensa a partir de especificaciones en lenguaje natural, permitiendo un diseño de recompensas composicional y una generalización cero en aprendizaje por refuerzo.