Graph-GRPO: Training Graph Flow Models with Reinforcement Learning
Le papier présente Graph-GRPO, un cadre d'apprentissage par renforcement en ligne qui améliore les modèles de flux graphiques grâce à une expression analytique des probabilités de transition et une stratégie de raffinement local, permettant d'atteindre des performances de pointe dans la génération de graphes et l'optimisation moléculaire.