Graph-GRPO: Training Graph Flow Models with Reinforcement Learning
Il paper presenta Graph-GRPO, un framework di apprendimento per rinforzo online che addestra modelli di flusso grafico tramite una formula analitica per le probabilità di transizione e una strategia di raffinamento locale, ottenendo prestazioni all'avanguardia nella generazione di grafi e nell'ottimizzazione molecolare.