Graph-GRPO: Training Graph Flow Models with Reinforcement Learning
O artigo apresenta o Graph-GRPO, um quadro de aprendizado por reforço online que otimiza modelos de fluxo gráfico através de uma expressão analítica para probabilidade de transição e uma estratégia de refinamento local, alcançando desempenho superior em tarefas de geração e otimização molecular.