Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Dit paper introduceert Personalized GRPO (P-GRPO), een nieuw framework dat de beperkingen van standaard GRPO voor persoonlijke voorkeursuitlijning oplost door de voordeelsschatting te ontkoppelen van batchstatistieken en te normaliseren op basis van voorkeursgroepspecifieke geschiedenis, wat leidt tot snellere convergentie en een betere uitlijning met heterogene menselijke voorkeuren.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, universele assistent hebt die alles kan doen: van koken tot wiskunde. Maar deze assistent heeft een probleem: hij probeert iedereen tevreden te stellen met één standaardantwoord.

Als jij houdt van korte, bondige antwoorden en je buurman van uitgebreide, gedetailleerde verhalen, geeft de assistent aan jullie beiden een gemiddeld antwoord. Voor jou is het te langdradig, voor je buurman te kort. Niemand is echt blij.

Dit is precies het probleem dat de onderzoekers van Apple in dit papier proberen op te lossen met hun nieuwe methode, P-GRPO.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het oude probleem: De "Grote Groep" (GRPO)

Stel je een klaslokaal voor met 30 leerlingen. De leraar (de computer) vraagt: "Wie heeft het beste antwoord?"
In de oude methode (GRPO) kijkt de leraar naar alle antwoorden in de klas tegelijk.

  • Als 20 leerlingen een kort antwoord geven en 10 een lang antwoord, dan wordt het "gemiddelde" antwoord van de klas het korte antwoord.
  • De leraar denkt dan: "Het korte antwoord is het beste, want dat is wat de meerderheid doet."
  • Het resultaat: De 10 leerlingen die van lange antwoorden houden, krijgen een slechtere beoordeling, zelfs als hun antwoord perfect was voor hun stijl. De computer leert dan om alleen nog maar korte antwoorden te geven, en vergeet de andere groep.

In de AI-wereld noemen ze dit GRPO. Het werkt goed als iedereen hetzelfde wil, maar faalt als mensen heel verschillend zijn (zoals in de echte wereld).

2. De nieuwe oplossing: De "Persoonlijke Coach" (P-GRPO)

De onderzoekers bedachten een slimme truc: P-GRPO (Personalized Group Relative Policy Optimization).

Stel je nu voor dat elke leerling een eigen persoonlijke coach heeft.

  • De coach van de "korte-antwoorden-groep" vergelijkt het antwoord alleen met de andere korte antwoorden.
  • De coach van de "lange-antwoorden-groep" vergelijkt het antwoord alleen met de andere lange antwoorden.

De magische stap:
In plaats van te zeggen: "Dit antwoord is slecht omdat het anders is dan de rest van de klas," zegt de persoonlijke coach: "Dit antwoord is uitstekend voor jouw stijl, omdat het beter is dan de andere lange antwoorden die jij normaal krijgt."

Dit heet in de paper het normaliseren van beloningen op basis van je eigen groep.

3. Waarom is dit zo belangrijk?

  • Rechtvaardigheid: De "minderheid" (bijvoorbeeld mensen die van technische taal houden) wordt niet meer onderdrukt door de "meerderheid" (mensen die van simpele taal houden). Iedereen krijgt een eerlijke kans om te leren wat zij leuk vinden.
  • Sneller leren: Omdat de computer niet meer verward raakt door gemengde signalen, leert hij sneller wat elke specifieke gebruiker echt wil. Het is alsof je stopt met proberen iedereen tevreden te stellen met één middelmatig antwoord, en begint met het geven van het perfecte antwoord voor elk individu.

4. Wat hebben ze bewezen?

De onderzoekers hebben hun nieuwe methode getest op verschillende taken:

  • Films aanbevelen: Ze hebben gekeken of de AI betere films aanbeveelt voor mensen met verschillende smaken.
  • Boekrecensies schrijven: Ze hebben getest of de AI recensies kon schrijven die pasten bij de schrijfstijl van verschillende personen (soms kort en grappig, soms lang en serieus).

Het resultaat: De nieuwe methode (P-GRPO) was overal sneller in leren en gaf betere resultaten dan de oude methode. De AI werd beter in het begrijpen van jouw specifieke smaak, zonder dat hij zijn algemene intelligentie verloor.

Samenvattend

Stel je voor dat je een AI hebt die een universele vertaler is.

  • Oude manier: Hij vertaalt alles naar een saaie, gemiddelde taal die voor niemand echt lekker klinkt.
  • Nieuwe manier (P-GRPO): Hij heeft een team van vertalers. Eén vertaler spreekt de taal van de "korte, snelle mensen", een andere spreekt de taal van de "dromers en filosofen". Ze vergelijken hun werk alleen met elkaar, niet met de rest van de wereld.

Zo zorgt de AI ervoor dat jij, met jouw unieke smaak, eindelijk een antwoord krijgt dat écht voor jou gemaakt is.