Graph-GRPO: Training Graph Flow Models with Reinforcement Learning
Dit paper introduceert Graph-GRPO, een online reinforcement learning-framework dat grafstroommodellen effectief traint door een analytische uitdrukking voor transitiekansen te gebruiken en een verfijningstrategie voor lokale exploratie, wat leidt tot state-of-the-art prestaties in grafgeneratie en moleculaire optimalisatie.