Heterogeneous Agent Collaborative Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep studenten hebt die allemaal voor een heel moeilijk wiskundetoets moeten leren.

In de oude manier van werken (wat de auteurs "isoleerde training" noemen), zit elke student in zijn eigen stille kamer. Ze maken oefenopgaven, kijken of ze het goed hebben, en leren alleen van hun eigen fouten. Als Student A een slimme oplossing bedenkt, weet Student B daar niets van. Als Student C vastloopt op een lastig probleem, blijft hij daar alleen met zitten. Het is inefficiënt: iedereen doet hetzelfde werk, maar leert niet van elkaars ervaringen.

HACRL en HACPO (de nieuwe methode uit dit paper) veranderen dit verhaal volledig. Het is alsof we die studenten in één grote, gezellige studiezaal zetten, maar met een slimme twist.

De Kern: Samenwerken zonder samen te werken

De grote innovatie is dit: Tijdens het leren (de training) werken ze samen, maar tijdens het examen (de uitvoering) werken ze weer helemaal alleen.

De "Gedeelde Werkbank" (Collaborative Optimization):
Terwijl ze leren, mogen ze elkaars werkbladen bekijken. Als Student A (een slimme, maar misschien wat stijve student) een moeilijke som oplost, kan Student B (een creatieve, maar onzorgvuldige student) dat zien en er iets van leren. Omgekeerd kan Student A van Student B leren hoe je creatief een probleem benadert, zelfs als het antwoord niet perfect is. Ze delen hun "rollouts" (de reeks gedachten en stappen die ze hebben genomen) om elkaar sterker te maken.
De "Examen Zaal" (Independent Execution):
Het mooie is: op het moment dat ze daadwerkelijk een taak moeten uitvoeren (bijvoorbeeld een chatbot die een vraag beantwoordt), hoeft er maar één student aanwezig te zijn. Ze hoeven niet met zijn allen in een team te werken om één vraag te beantwoorden. De kennis die ze hebben opgedaan door naar elkaar te kijken, zit nu in hun eigen hoofd. Ze zijn individueel slimmer geworden dankzij de groep.

De Uitdaging: Niet iedereen is even slim

Er is een probleem: niet alle studenten zijn even goed.

Student A is een wiskundeprofees.
Student B is een beginnende leerling.

Als je de antwoorden van Student B zomaar aan Student A geeft, kan dat verwarrend zijn. Student A zou kunnen denken: "Waarom moet ik dit simpele ding doen?" of "Dit antwoord is verkeerd, ik moet het negeren."

De auteurs hebben HACPO bedacht, een slim algoritme dat deze verschillen oplost met vier creatieve regels:

De Slimme Vergelijker (Agent-Capability-Aware Advantage):
In plaats van te zeggen "dit antwoord is goed of fout", kijkt het systeem naar wie het antwoord heeft gegeven. Als de profees een fout maakt, is dat een grote les. Als de beginnende leerling een fout maakt, is dat ook een les, maar dan een andere. Het systeem past de "beloning" aan op basis van wie er heeft gewerkt, zodat iedereen eerlijk wordt beoordeeld.
De Weegschaal (Capability Discrepancy Coefficient):
Dit is als een leraar die zegt: "Student A, luister goed naar Student B, want die heeft een unieke invalshoek die jij mist." Maar ook: "Student B, luister heel goed naar Student A, want die weet de feiten." Het systeem versterkt de lessen van de sterkere studenten voor de zwakkere, en helpt de sterkere studenten om van de unieke (soms foutieve) pogingen van de zwakkeren te leren.
De Veilige Bril (Exponential Importance Sampling):
Soms zijn de antwoorden van een andere student zo anders dan je eigen manier van denken, dat het je hoofd op hol brengt. Dit algoritme draagt een "veilige bril". Het laat je zien wat de ander heeft gedaan, maar het filtert de extreme verschillen eruit zodat je niet overstuur raakt. Het zorgt ervoor dat je alleen leert van dingen die echt nuttig zijn voor jou.
De Trapsgewijze Rem (Stepwise Clipping):
Stel je voor dat je in een auto zit en plotseling iemand anders de stuurknuppel pakt. Dat is gevaarlijk. Dit mechanisme zorgt ervoor dat als een ander student een heel groot verschil maakt, je dat niet in één keer overneemt. Je neemt het stap voor stap over, zodat je niet uit de bocht vliegt. Het zorgt voor rust en stabiliteit tijdens het leren.

Waarom is dit geweldig?

Efficiëntie: In plaats van dat elke student 100 vragen moet maken, maken ze er samen 100, en leert iedereen van die 100. Het kost de helft van de tijd en energie om even sterk te worden.
Sterker resultaat: De tests tonen aan dat door deze methode alle studenten (of AI-modellen) beter worden. Zelfs de sterkste studenten worden nog sterker door van de zwakkere (maar creatieve) studenten te leren, en de zwakkere studenten halen de sterkste op.
Flexibiliteit: Het werkt zelfs als de studenten heel verschillend zijn (bijvoorbeeld een heel groot model en een heel klein model, of twee modellen van verschillende fabrikanten).

Kortom:
Dit paper introduceert een manier om AI-modellen te trainen alsof ze in een super-slimme studiegroep zitten. Ze leren van elkaars successen en fouten, maar zonder dat ze elkaar nodig hebben om een taak te doen. Het is als een "collectief brein" dat iedereen individueel slimmer maakt, met minder werk en betere resultaten.

Each language version is independently generated for its own context, not a direct translation.

Titel: Heterogeneous Agent Collaborative Reinforcement Learning (HACRL)

Auteurs: Zhixia Zhang, Zixuan Huang, Xin Xia, et al. (Beihang University, Bytedance, Tsinghua, Peking University).

1. Probleemstelling

Het paper adresseert de inefficiëntie van geïsoleerde on-policy optimalisatie in het trainen van Large Language Models (LLM's) voor redeneertaken, specifiek binnen het kader van Reinforcement Learning met Verifieerbare Beloningen (RLVR).

Huidige Beperkingen: Bestaande methoden zoals GRPO en GSPO trainen agents onafhankelijk van elkaar. Dit leidt tot dure on-policy sampling waarbij tussenresultaten (rollouts) alleen voor zelf-training worden gebruikt en vervolgens worden weggegooid.
Heterogeniteit: Moderne LLM-ecosystemen zijn inherent heterogeen (verschillende modelgroottes, architecturen, tokenizers en pre-trainingsdata). Traditionele Multi-Agent Reinforcement Learning (MARL) vereist gecoördineerde uitvoering, wat vaak niet praktisch is. Distillatie is vaak eenrichtingsverkeer (docent-naar-leerling) en vereist homogene agents.
De Kernvraag: Kan een agent effectiever en efficiënter worden getraind door rollouts te hergebruiken die gegenereerd zijn door andere, heterogene agents, in plaats van alleen te vertrouwen op eigen gegenereerde data?

2. Methodologie: HACRL en HACPO

De auteurs introduceren een nieuw paradigma genaamd Heterogeneous Agent Collaborative Reinforcement Learning (HACRL). Hierbij voeren agents hun taken onafhankelijk uit tijdens de inferentie, maar optimaliseren ze collaboratief tijdens het trainen door rollouts te delen.

Om dit te realiseren, stellen ze HACPO (Heterogeneous Agent Collaborative Policy Optimization) voor. Dit algoritme lost twee fundamentele uitdagingen op:

Capaciteitsverschillen: Agents hebben verschillende sterktes.
Verschuiving in Policy-distributie: Agents genereren data uit verschillende verdelingen.

HACPO introduceert vier specifieke mechanismen om deze uitdagingen te mitigeren:

A. Agent-Capability-Aware Advantage Estimation (Capaciteitsbewuste Schatting)

In plaats van een globale gemiddelde beloning te gebruiken, past HACPO de advantage (voordeel) schatting aan per agent.

De baseline voor een agent wordt berekend op basis van een gewogen gemiddelde van beloningen van alle agents.
Een capaciteitsratio ( $\omega$ ) wordt gebruikt om beloningen van andere agents te herschalen. Als agent A sterker is dan agent B, worden de beloningen van B minder zwaar gewogen bij het berekenen van de baseline voor A, en vice versa. Dit zorgt voor een eerlijke en onbevooroordeelde schatting.

B. Model Capabilities Discrepancy Coefficient (Coëfficiënt voor Capaciteitsverschil)

Dit mechanisme modereert de gradiënten tijdens het update-proces.

Wanneer een agent leert van een sterker agent, worden de gradiënten versterkt om sneller te leren.
Wanneer een agent leert van een zwakker agent, worden de gradiënten afgezwakt om ruis en slechte voorbeelden te minimaliseren.
Dit zorgt voor een adaptieve leersnelheid die rekening houdt met de relatieve competentie van de bron.

C. Exponentiële Importance Sampling

Om de distributiesverschillen tussen heterogene agents te corrigeren, wordt importance sampling toegepast.

Omdat de verschillen tussen heterogene agents groter kunnen zijn dan bij on-policy updates, gebruiken de auteurs een exponentiële reweighting met een parameter $\alpha$ .
Dit maakt het algoritme conservatiever: agents leren liever van agents met een output-distributie die meer overeenkomt met de eigen, en verminderen de impact van grote distributieverschuivingen.

D. Stapsgewijze Clipping (Stepwise Clipping)

Om instabiliteit te voorkomen door cross-agent data die de updates domineert:

In tegenstelling tot symmetrische clipping bij zelf-data, gebruikt HACPO asymmetrische clipping voor cross-agent data (bovengrens vast op 1.0). Dit zorgt dat cross-agent data nooit zwaarder weegt dan eigen data.
Stapsgewijze verstrakking: Binnen één trainingsstap worden de clipping-bounds strakker naarmate het aantal updates vordert. Dit voorkomt dat late mini-batches in een batch worden gedomineerd door cross-agent rollouts die te ver van de huidige policy verwijderd zijn.

3. Theoretische Analyse

Het paper biedt theoretische garanties voor HACPO:

Onbevooroordeeldheid: De voorgestelde Agent-Capability-Aware Advantage Estimator is wiskundig bewezen onbevooroordeeld (unbiased). De verwachte waarde van de gemengde baseline is gelijk aan de verwachte beloning van de agent zelf.
Gradiëntconsistentie: De optimalisatierichting van het heterogene doel (leren van anderen) is positief gecorreleerd met de richting van het homogene doel (zelfleren). Dit garandeert dat het leren van cross-agent rollouts de prestaties verbetert zonder de convergentie te saboteren.

4. Resultaten

De auteurs hebben HACPO getest op drie soorten heterogeniteit (verschil in trainingsstatus, modelgrootte, en modelarchitectuur) en zeven wiskundige redeneerbenchmarks (o.a. MATH, GSM8K, AIME2025).

Prestatieverbetering: HACPO presteert consistent beter dan bestaande baselines (GRPO, GSPO) en een "Resource-Equivalent" baseline (GSPO met dubbele data).
Efficiëntie: HACPO verbetert de prestaties met gemiddeld 3,3% ten opzichte van GSPO, terwijl het slechts 50% van de rollout-kosten gebruikt (omdat rollouts $N$ keer worden hergebruikt in een $N$ -agentensysteem).
Robuustheid: De methode werkt effectief voor:
- Heterogene State: Verschillende trainingsstadia van hetzelfde model (bijv. Base vs. Instruct).
- Heterogene Size: Verschillende modelgroottes (bijv. 1.7B vs 4B).
- Heterogene Model: Volledig verschillende architecturen (bijv. Qwen vs. Llama).
Ablatie-studies: Verwijdering van een van de vier mechanismen leidt tot significante prestatiedalingen, wat aantoont dat elk onderdeel essentieel is voor stabiliteit en effectiviteit.

5. Belang en Impact

Paradigmaverschuiving: HACRL breekt met het idee dat agents alleen van zichzelf moeten leren of dat samenwerking alleen werkt bij gecoördineerde uitvoering. Het maakt "independent execution with collaborative optimization" mogelijk.
Kostenefficiëntie: Door rollouts te delen, wordt de dure generatie van verifieerbare beloningen (zoals wiskundige verificatie) drastisch efficiënter.
Synergie: Het toont aan dat zelfs zwakkere agents waardevolle informatie kunnen bieden aan sterkere agents (bijvoorbeeld door unieke fouten of alternatieve redeneerpaden), wat leidt tot wederzijdse verbetering in plaats van een eenrichtingsverkeer van docent naar leerling.

Conclusie: HACPO biedt een robuust en theoretisch onderbouwd kader om heterogene LLM-ecosystemen efficiënter te trainen door wederzijdse kennisoverdracht, wat leidt tot betere redeneerprestaties met minder rekenkracht.