Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

Het artikel introduceert Graph-GRPO, een nieuw framework dat Group Relative Policy Optimization toepast om de stabiliteit en effectiviteit van het leren van communicatietopologieën in multi-agent systemen op basis van grote taalmodellen te verbeteren door relatieve prestaties binnen een groep van topologieën te gebruiken in plaats van absolute beloningen.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao, Zehua Ji, Yuhang Liu, Yuchen He, Zhiyuan Ning, Chen Yijun, Wenge Que, Li Shi

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een team van slimme robots (of AI-assistenten) hebt die samen een lastige puzzel moeten oplossen. Soms is het antwoord een wiskundig probleem, soms een stuk code schrijven, en soms een vraag over geschiedenis beantwoorden.

De grote vraag is: Hoe moeten deze robots met elkaar praten?

Moeten ze allemaal met iedereen praten (een grote kring)? Moet er één leider zijn die de rest instrueert? Of moeten ze in een rij staan? Dit noemen we de communicatietopologie.

In het verleden probeerden onderzoekers dit vast te leggen of te leren met een simpele methode: "Als het antwoord goed is, krijgen alle robots die hebben meegepraat een 'goed gedaan'-plaatje. Als het fout is, krijgen ze allemaal een 'probeer het opnieuw'-plaatje."

Het probleem hiermee is dat dit niet eerlijk is.

  • Het "Gemakkelijke Vraag"-probleem: Als de vraag heel makkelijk is, kan het zijn dat zelfs een rommelige, onnodige manier van praten het juiste antwoord oplevert. De robots krijgen dan allemaal een beloning, ook voor de onnodige gesprekken. Ze leren dus niet wat echt belangrijk was, maar denken dat alles goed was.
  • Het "Moeilijke Vraag"-probleem: Als de vraag heel moeilijk is, kan het zijn dat zelfs de beste manier van praten faalt. Dan krijgen niemand een beloning, en de robots weten niet wat ze verkeerd deden. Ze raken in de war.

De Oplossing: Graph-GRPO (De "Groepsvergelijking")

De auteurs van dit paper, van de Universiteit van Tsinghua en de Donghua Universiteit, hebben een slimme nieuwe methode bedacht genaamd Graph-GRPO.

Stel je voor dat je een chef-kok bent die een nieuw recept wil perfectioneren.

  • De oude methode: Je kookt één keer een gerecht. Als het lekker is, zeg je: "Geweldig, gebruik precies deze ingrediënten en hoeveelheden voor de volgende keer!" Maar misschien was het gerecht gewoon makkelijk te maken, en had je ook met minder ingrediënten kunnen werken. Je weet niet welke ingrediënt echt het verschil maakte.
  • De Graph-GRPO methode: Je kookt een hele groep van 16 verschillende versies van hetzelfde gerecht tegelijkertijd. Sommige versies hebben veel extra kruiden, andere hebben minder.
    • Vervolgens proef je ze allemaal.
    • Je kijkt niet alleen naar "Was het lekker?". Je kijkt naar: "Welke versie was het lekkerst in vergelijking met de andere 15?"
    • Als een versie met extra kruiden net iets lekkerder was dan de gemiddelde versie, dan krijg je een extra punt voor dat specifieke kruid.
    • Als een versie met extra kruiden juist slechter was dan de gemiddelde versie, dan leer je dat die kruiden juist hinderlijk waren.

Waarom is dit zo slim?

  1. Het filtert ruis: Bij makkelijke vragen (waar iedereen het goed doet), ziet Graph-GRPO dat de "gemiddelde" versie al goed is. Alleen de versies die beter zijn dan gemiddeld (bijvoorbeeld sneller of efficiënter) krijgen een beloning. De robots leren dus niet om onnodig veel te praten, maar om slim en kort te zijn.
  2. Het is eerlijk (Credit Assignment): In plaats van te zeggen "Het hele team heeft gewonnen", zegt Graph-GRPO: "De robot die dit specifieke stukje informatie doorstuurde, heeft het verschil gemaakt. Die robot krijgt een sterretje." De robots die niets deden of verwarrende informatie gaven, krijgen geen sterretje.
  3. Geen "Onderwijzer" nodig: Veel andere methoden hebben een aparte "critic" (een soort onderwijzer) nodig die de prestaties beoordeelt. Dat kost veel rekenkracht. Graph-GRPO doet dit slim door de robots zelf met elkaar te vergelijken. Ze zijn hun eigen onderwijzer.

Het Resultaat

In tests hebben de robots met deze nieuwe methode veel beter gepresteerd dan de oude methoden. Ze konden moeilijke wiskundeproblemen oplossen en betere code schrijven.

Maar het mooiste is: ze werden ook efficiënter. Omdat ze leerden welke gesprekken echt nodig waren en welke niet, praatten ze minder. Ze gebruikten minder "tokens" (rekenkracht), maar kregen betere resultaten. Het is alsof je van een rommelige vergadering met 50 mensen die allemaal tegelijk praten, overgaat naar een strakke vergadering met 3 mensen die precies weten wat ze moeten zeggen.

Kortom: Graph-GRPO leert een team van AI-robots niet alleen wat het antwoord is, maar vooral hoe ze het slimst met elkaar moeten praten om dat antwoord te vinden, zonder tijd en energie te verspillen aan onzin.