Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization
本文提出了 Graph-GRPO 框架,通过引入组相对策略优化(Group Relative Policy Optimization)对多智能体通信拓扑进行相对性能评估,有效解决了传统强化学习方法中因任务难度差异导致的梯度方差大和信用分配困难问题,从而显著提升了基于大语言模型的多智能体系统的训练稳定性与通信拓扑学习效率。