Graph-GRPO: Training Graph Flow Models with Reinforcement Learning
Die Arbeit stellt Graph-GRPO vor, ein Online-Reinforcement-Learning-Framework für Graph-Flow-Modelle, das durch eine analytische Übergangswahrscheinlichkeit und eine lokale Verfeinerungsstrategie eine effiziente Ausrichtung auf komplexe Ziele ermöglicht und dabei state-of-the-art-Ergebnisse in der molekularen Optimierung erzielt.