Evolving Diffusion and Flow Matching Policies for Online Reinforcement Learning
Dit paper introduceert GoRL, een framework dat de stabiliteit en expressiviteit van online versterkend leren verbetert door optimalisatie te ontkoppelen van generatie via een tractabele latente ruimte en een conditionele generatieve decoder, wat leidt tot superieure prestaties op complexe controle-taken.