Graph-GRPO: Training Graph Flow Models with Reinforcement Learning
El artículo presenta Graph-GRPO, un marco de aprendizaje por refuerzo en línea que entrena modelos de flujo gráfico mediante una expresión analítica de probabilidad de transición y una estrategia de refinamiento local, logrando un rendimiento superior en tareas de generación y optimización molecular.