Evolving Diffusion and Flow Matching Policies for Online Reinforcement Learning
El artículo presenta GoRL, un marco de aprendizaje por refuerzo en línea que resuelve la tensión entre la estabilidad de la optimización y la expresividad de las políticas mediante la decouplaje de la optimización en un espacio latente tratable y la síntesis de acciones en un espacio generativo, logrando un rendimiento superior en tareas de control continuo.