Oorspronkelijke auteurs: Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

Gepubliceerd 2026-05-25✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een persoonlijke assistent-robot hebt. In het verleden leerden we deze robots om "correct" te zijn. Als je vroeg: "Plan een reis naar Tokio", zou de robot de enige, wiskundig perfecte reisroute leren die werkt voor de gemiddelde persoon. Het zou efficiënt, logisch en feitelijk accuraat zijn.

Maar in de echte wereld is "correct" niet genoeg. Als Gebruiker A een rustige museumliefhebber is die wandelen haat, en Gebruiker B een energieke anime-fan is die van nachtleven houdt, dan is de "perfecte" Tokio-reis voor hen volledig verschillend. Dezelfde vraag vereist twee verschillende antwoorden.

Dit artikel stelt een nieuwe manier voor om AI-agenten te trainen, zodat ze stoppen met proberen een "een-maat-voor-alles"-expert te zijn en beginnen met het worden van een echte persoonlijke metgezel. Hier is hoe ze dat deden, eenvoudig uitgelegd:

1. Het Probleem: De "Gemiddelde"-Valstrik

Huidige AI-training is als het leren van een chef-kok om één "gemiddeld" gerecht te koken dat iedereen lekker vindt. Als je om een pittig gerecht vraagt, geeft de chef misschien iets milds, omdat ze proberen de meerderheid tevreden te stellen.

Het Probleem: Echte gebruikers hebben unieke smaken, gewoonten en beperkingen. Een generiek beloningssysteem (zoals een score voor "heb je de taak voltooid?") kan geen onderscheid maken tussen een reisplan dat feitelijk correct is maar saai voor de gebruiker, versus een dat perfect op maat is gemaakt voor hen.
Het Ruis: Soms handelen gebruikers op een manier die niet overeenkomt met hun ware verlangens (misschien kochten ze iets gewoon omdat hun vrienden het deden). De AI moet uitzoeken wat de gebruiker echt wil, niet alleen wat ze deden.

2. De Oplossing: Een Driedelige Toolkit

De auteurs bouwden een raamwerk genaamd PARPO (Personalized Anchor Reward-Decoupled Policy Optimization). Denk hieraan als een drie-staps upgrade voor het brein van de AI:

Deel A: De "Tweesporige" Coach (PARPO)

Stel je een sportcoach voor die twee atleten tegelijkertijd traint.

Spor 1 (De Basis): De coach zorgt ervoor dat beide atleten een perfecte, veilige ronde lopen. Dit is de Algemene Kwaliteit-beloning. Hebben ze de race voltooid? Hebben ze de regels gevolgd?
Spor 2 (De Persoonlijke Stijl): De coach geeft vervolgens specifieke feedback op basis van de stijl van de atleet. Voor de sprinter is het "ga sneller". Voor de marathonloper is het "spaarde energie". Dit is de Gepersonaliseerde Voorkeur-beloning.
Het Anker: Om dingen stabiel te houden, gebruikt de coach een "persoonlijk anker" voor elke atleet. In plaats van de sprinter te vergelijken met de marathonloper (wat onrechtvaardig is), vergelijkt de coach de sprinter met hun eigen prestaties uit het verleden. Dit voorkomt dat de AI in de war raakt door de verschillende "schalen" van verschillende gebruikers.

Deel B: De "Ware Interesse"-Detector (Beloningsmodel)

Hoe weet de AI wat een gebruiker echt leuk vindt versus wat ze deden vanwege groepsdruk?

Het artikel introduceert een Tweefasige Detector.
- Fase 1: Het bouwt een profiel van de gebruiker vanuit vele hoeken (zoals het lezen van hun bio, hun geschiedenis en hun sociale kring).
- Fase 2: Het treedt op als een detective die "Ware Interesse" scheidt van "Conformiteit". Het vraagt: "Heeft deze gebruiker dit gedaan omdat ze ervan houden, of gewoon omdat iedereen het deed?" Het filtert het ruis om het signaal te vinden.

Deel C: De "Levende Bibliotheek" (PSGM)

Oude AI-geheugen is als een platte stapel papieren. Je stelt een vraag, en het doorzoekt de hele stapel.

Dit artikel bouwt een Vaardigheids-evolutiegrafiek. Stel je een dynamisch, 3D-spinnenweb voor waar elke knooppunt verbonden is.
- Eén knooppunt is "Gebruiker A".
- Het is verbonden met "Vaardigheid: Museumplanning".
- Dat is verbonden met "Scenario: Regenachtige dag".
- En "Hulpmiddel: Ticketreservering".
Wanneer een gebruiker een vraag stelt, zoekt de AI niet alleen; het reist door dit web om de exacte vaardigheden en hulpmiddelen te vinden die overeenkomen met de geschiedenis en voorkeuren van die specifieke gebruiker. Het is als een bibliothecaris die precies weet welk boek je vorig jaar leuk vond en een vergelijkbaar voorstelt, in plaats van je gewoon het bestverkochte boek te geven.

3. De Resultaten: Beter dan de Rest

Het team testte dit op drie verschillende uitdagingen:

ETAPP: Een standaardtest voor persoonlijke assistenten (dagelijkse taken plannen).
ETAPP-Hard: Een zwaardere versie met complexe, meerstapsproblemen.
SJAgent: Een real-world industriële test met data van een enorm Chinees e-commerceplatform (handelaars helpen bij het nemen van beslissingen).

Het Resultaat:
Hun nieuwe raamwerk sloeg consistent de beste bestaande methoden.

Het kreeg niet alleen de feiten goed, het kreeg ook de sfeer goed.
Het leerde proactief te zijn (behoeften anticiperen) en volgde complexe procedures beter.
Cruciaal behield het hoge kwaliteit terwijl het zich aanpaste aan individuele gebruikers, wat bewijst dat je geen "correctheid" hoeft op te offeren om "persoonlijk" te zijn.

Samenvattende Analogie

Denk aan de oude AI als een reisleider die één perfect script voor Tokio heeft uit het hoofd geleerd en dit aan iedereen voorleest.
De nieuwe AI is een lokale vriend die je persoonlijk kent. Ze weten dat je wandelen haat, van anime houdt en een beperkt budget hebt. Ze geven je niet alleen een kaart; ze ontwerpen een dag die voelt alsof het speciaal voor jou is gemaakt, gebruikmakend van hun geheugen van wat je eerder leuk vond, terwijl ze er toch voor zorgen dat je de bezienswaardigheden ziet die je wilde zien.

Het artikel beweert dat dit wordt bereikt door "het werk goed doen" te scheiden van "het werk doen op de manier die jij leuk vindt", en het gebruik van een slim geheugensysteem om precies te onthouden wie je bent.

Technische Samenvatting: Van Correctheid naar Voorkeur: Een Kader voor Gepersonaliseerde Agentic Versterkende Leer

1. Probleemdefinitie

Hoewel Agentic Versterkende Leer (Agentic RL) aanzienlijke successen heeft geboekt in verifieerbare taken met duidelijke ground-truth antwoorden (bijvoorbeeld codegeneratie, webnavigatie), staat het voor fundamentele uitdagingingen in real-world toepassingen waar optimaal gedrag afhankelijk is van de gebruiker. In domeinen zoals e-commerce-assistentie, reisplanning en dagelijkse planning staat een enkele query (bijvoorbeeld "plan een eendaagse trip in Tokio") meerdere plausibele trajecten toe, waarbij het voorkeurspad wordt bepaald door individuele gebruikersvoorkeuren, gewoonten en beperkingen.

Bestaande methoden optimaliseren doorgaans voor generieke doelen (algemene kwaliteit, nuttigheid) of voeren personalisatie alleen tijdens de inferentie uit via prompting of geheugenterugroeping. Ze missen een native trainingskader om beleidsplannen te optimaliseren voor gebruikersafhankelijke trajecten. Deze setting introduceert drie kernuitdagingen:

Vervaging van Gepersonaliseerde Beloningen: Generieke beloningen vangen taakcorrectheid, maar falen in het uitdrukken hoe specifieke gebruikers trajecten evalueren of hoe ze omgaan met heterogene beloningsschalen tussen gebruikers.
Ontkoppeling van Voorkeuren: Waargenomen gebruikersgedrag is vaak verweven met intrinsieke interesses en externe conformiteit of contextuele effecten, waardoor voorkeurssignalen ruis bevatten.
Gebruikersbewust Geheugen: Bestaande agentgeheugens zijn vaak plat en query-gericht, en falen in het modelleren van gestructureerde relaties tussen gebruikers, intenties, vaardigheden, tools en scenario's die nodig zijn voor gepersonaliseerde terugroeping.

2. Methodologie

De auteurs stellen een unificerend kader voor Gepersonaliseerde Agentic RL voor dat personalisatie inbouwt in de optimalisatielus tijdens het trainen. Het kader functioneert als een gesloten lus van voorkeuridentificatie, beleidsoptimalisatie en gestructureerde vaardigheidsaccumulatie, bestaande uit drie kerncomponenten:

2.1 PARPO: Gepersonaliseerde Anker Belonings-ontkoppelde Beleidsoptimalisatie

PARPO is het kernalgoritme voor beleidsoptimalisatie dat is ontworpen om heterogene gebruikersvoorkeuren te hanteren.

Beloningsontkoppeling: Het splitst de optimalisatie op in twee tracks: een Basis Track voor generieke taakkwaliteit (correctheid, logische coherentie) en een Gepersonaliseerde Track voor verbetering van gebruikersafhankelijke voorkeuren.
Gebruikersspecifieke Ankers: Om het leren te stabiliseren onder heterogene beloningsschalen, onderhoudt PARPO een persistent, gebruikersspecifiek anker (lopend gemiddelde en variantie) voor gepersonaliseerde beloningen.
Voordeelsschatting:
- Het Basis Voordeel ( $A_{base}$ ) gebruikt standaard relatieve normalisatie binnen groepen.
- Het Gepersonaliseerde Voordeel ( $A_{pers}$ ) gebruikt een gebruikersbewuste baseline: $b_{u,g} = \max(\bar{R}_{pers}^{(g)}, m_u - \gamma_p \sqrt{v_u})$ , waarbij $m_u$ en $v_u$ de historische beloningsstatistieken van de gebruiker zijn. Dit voorkomt dat de baseline te ver boven het historische centrum van de gebruiker drijft.
- Het totale voordeel is een gewogen som: $A_{total} = w_{base}A_{base} + w_{pers}A_{pers}$ .
Theoretische Rechtvaardiging: De auteurs bewijzen dat onder heterogene voorkeuren gebruikersbewuste optimalisatie nooit slechter is dan gebruikersonafhankelijke optimalisatie. Ze tonen aan dat standaard GRPO structurele bias incurreert door gepoolde baselines en normalisatie, terwijl PARPO deze bias vermindert door beloningsdecompositie en ankerkalibratie.

2.2 Tweestaps Voorkeur-ontkoppelend Beloningsmodel

Om schone gepersonaliseerde supervisie te bieden, hanteert het kader een beloningsmodel dat intrinsieke interesses scheidt van conformiteit.

Stap 1 (Multi-view Profielrepresentatie): Construeert gebruikersembeddings door meerdere semantische weergaven van het gebruikersprofiel te fuseren met behulp van attention-mechanismen en reconstructieverliezen om weergavespecifieke informatie te behouden.
Stap 2 (Collaboratieve Ontkoppeling): Gebruikt een LightGCN-gebaseerde graaf om collaboratieve signalen te propageren. Het leert twee distincte takken:
- Interesse Encoder: Geeft minder populaire items meer gewicht om intrinsieke voorkeuren te vangen.
- Conformiteit Encoder: Geeft populaire items meer gewicht om conformiteitseffecten te vangen.
- Orthogonaliteitsregularisatie: Zorgt ervoor dat de twee takken distinct blijven.
De uiteindelijke gepersonaliseerde score is een gefuseerde representatie van deze takken, gekalibreerd en geïntegreerd met evaluatie op basis van LLM's.

2.3 Voorkeur-uitgelijnde Vaardigheids-evolutie Graafgeheugen (PSGM)

Om gepersonaliseerde rollout-contexten te ondersteunen, vervangt PSGM platte terugroeping door een heterogene graafgeheugen.

Structuur: De graafknopen vertegenwoordigen gebruikers, vaardigheden, tools, scenario's en trajecten. Randen coderen eigendom, toepasbaarheid, complementariteit, conflict en uitvoeringsgeschiedenis.
Community-detectie: Hiërarchische community-detectie (Leiden/Louvain) organiseert gebruikers en vaardigheden in communities om multi-granulariteitsstructuur te vangen.
Terugroepmechanisme:
1. Semantische Initialisatie: Haalt de top- $K$ vaardigheden op basis van query-相似iteit op.
2. 2-Hop Expansie: Breidt kandidaten uit van de vaardigheid naar de eigenaar-gebruiker, en vervolgens naar de zuster-vaardigheden van die gebruiker, waardoor gepersonaliseerde lokale structuur wordt ingebracht.
3. Graafbewuste Scorebepaling: Rangschikt kandidaten op basis van query-vaardigheidsimilariteit, gebruiker-vaardigheidsimilariteit, community-relevantie, complementariteit en conflictpenaliteiten.

3. Kernbijdragen

Probleemformulering: Het artikel formuleert gepersonaliseerde Agentic RL als een door gebruiker geconditioneerd Markov Beslissingsproces (MDP) waarbij optimaal gedrag afhankelijk is van individuele voorkeuren in plaats van een enkele ground truth.
PARPO-algoritme: Stelt een anker-gestabiliseerde, belonings-ontkoppelde beleidsoptimalisatiemethode voor die effectief gepersonaliseerde beleidsplannen leert onder heterogene gebruikersbeloningsschalen.
Ontkoppelde Supervisie en Geheugen: Introduceert een tweestaps voorkeur-ontkoppelend beloningsmodel om ware interesses te isoleren van conformiteit, en een gestructureerd Vaardigheids-evolutie Graafgeheugen (PSGM) voor voorkeur-uitgelijnde vaardigheidsterugroeping.
Empirische Validatie: Toont consistente winsten over meerdere benchmarks, waarbij het kader aantoont dat het personalisatie en procedurele kwaliteit verbetert terwijl het feitelijke en logische integriteit behoudt.

4. Experimentele Resultaten

Het kader werd geëvalueerd op ETAPP, ETAPP-Hard (een uitdagender split die coördinatie van meerdere tools en impliciete redenering vereist) en SJAgent (een real-world industriële scenario van een Chinees e-commerceplatform).

Prestaties: De voorgestelde methode (PARPO + PSGM) presteerde significant beter dan sterke baselines, waaronder prompting-methoden (ReAct), geheugen-gebaseerde agents (Mem0) en diverse RL-algoritmen (GRPO, DAPO, GSPO, GiGPO, SkillRL).
- Op ETAPP-Hard behaalde het de hoogste "Judge"-scores en "Personal"-scores, wat robuustheid in complexe gepersonaliseerde scenario's aangeeft.
- Op SJAgent leidde het op sleuteldimensies zoals Data Authenticiteit, Bedrijfslogica en Taakvoltooiing, wat generalisatie over domeinen aantoont.
Ablatiestudies:
- Het verwijderen van vaardigheidsgeheugen veroorzaakte de grootste daling in prestaties, wat de centraliteit ervan voor gepersonaliseerd besluitvorming bevestigt.
- Het vervangen van PARPO door standaard GRPO of het verwijderen van gebruikers-anker-kalibratie resulteerde in significante prestatiedegradatie, wat de noodzaak valideert van de ontkoppelde, anker-gestabiliseerde aanpak.
- Het ontkoppelen van het beloningsmodel (verwijderen van interesse/conformiteit-takken) verminderde ook de prestaties, wat het belang benadrukt van het scheiden van ware voorkeuren van ruis.
Menselijke en LLM-evaluatie: In een geblindeerde studie over 20 ETAPP-taken behaalde PARPO de hoogste gemiddelde scores van zowel menselijke experts als LLM-jurys, met name op "Gebruikersrelevantie", wat bevestigt dat de verbeteringen te wijten waren aan echte personalisatie en niet alleen aan vlotheid.
Trainingsdynamiek: PARPO toonde superieure trainingsstabiliteit, hogere succespercentages en een beter succespercentage bij tool-aanroepen vergeleken met andere RL-strategieën, met een stabiele KL-divergentie die efficiënte beleidsverbetering aangeeft zonder excessieve afwijking.

5. Betekenis en Beperkingen

Betekenis:
Het artikel stelt dat personalisatie fundamenteel de optimalisatiedoelstelling van Agentic RL verandert. Door verder te gaan dan "one-size-fits-all" beleidsplannen naar gebruikersafhankelijke trajectoptimalisatie, overbrugt het voorgestelde kader de kloof tussen generieke taakbekwaamheid en gebruiker-specifieke uitlijning. Het toont aan dat optimalisatie tijdens het trainen, ondersteund door ontkoppeld beloningsmodelleren en gestructureerd geheugen, essentieel is voor agents die opereren in real-world, door voorkeuren gedreven omgevingen.

Beperkingen:
De auteurs erkennen dat de schaal van menselijke evaluatie beperkt is vanwege annotatiekosten, met oordelen van slechts 15 experts over 20 geselecteerde voorbeelden. Hoewel deze resultaten overeenkomen met LLM-evaluaties, merken de auteurs op dat toekomstig werk menselijke studies moet uitbreiden naar grotere, diversere pools om robuustheid en real-world validiteit beter te beoordelen. Bovendien vertrouwt de huidige implementatie op specifieke graafstructuren en ankermechanismen die mogelijk aanpassing vereisen voor verschillende toepassingsdomeinen.

From Correctness to Preference: A Framework for Personalized Agentic Reinforcement Learning