Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Deze paper introduceert de token-gradiëntannulatie als een noodzakelijke ontwerprichtlijn voor intra-groepleren met sequence-level beloningen, waarbij het herstel van gradiëntuitwisselbaarheid trainingsstabiliteit en sample-efficiëntie verbetert door de structurele drift van oplossingskansen te voorkomen.

Fei Ding, Yongkang Zhang, youwei wang, Zijian Zeng

Gepubliceerd 2026-04-16
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep slimme studenten (de AI) traint om wiskundige raadsels op te lossen. Je geeft ze allemaal hetzelfde probleem, en ze komen met verschillende oplossingen. De ene oplossing is perfect, de andere is fout.

In de wereld van kunstmatige intelligentie noemen we dit versterkende leerling (Reinforcement Learning). De AI krijgt een beloning als ze het goed doen. Maar hier zit een groot probleem: de beloning komt pas aan het einde van het verhaal. De AI weet niet precies welke zin of welk woord in haar lange antwoord precies goed was, en welke zin gewoon "vullende tekst" was.

Dit artikel, geschreven door onderzoekers van Alibaba en Tsinghua, legt uit waarom deze training vaak vastloopt en hoe ze dat oplossen.

Het Probleem: De "Leerbelasting" en de "Verkeerde Weg"

Stel je voor dat de studenten in een klas zitten. De leraar zegt: "Jullie hebben het antwoord '20' goed, maar '25' is fout."

  • Het oude systeem (zoals GRPO of GSPO): De leraar kijkt naar het hele antwoord van elke student. Als student A een heel lang, ingewikkeld antwoord gaf dat eindigde op '20', en student B een kort antwoord gaf dat ook op '20' eindigde, dan krijgt student A een veel grotere "beloning" voor het hele verhaal dan student B.
  • Het gevolg: De AI leert niet alleen dat '20' goed is, maar ook dat de lange, ingewikkelde zinnen die voorafgingen aan '20' goed zijn.
  • De ramp: De AI begint steeds vaker die lange, ingewikkelde zinnen te gebruiken, zelfs als ze niets met het antwoord te maken hebben. Ze "leert" woorden die ze niet nodig heeft. Dit noemen de auteurs Learning Tax (een belasting op het leren). Het is alsof je een student dwingt om elke dag 100 pagina's over de geschiedenis van de school te lezen, alleen omdat die pagina's toevallig voor het goede antwoord stonden.
  • Entropy Collapse: Uiteindelijk wordt de AI zo vastgepind op die ene manier van praten, dat ze geen andere manieren meer durft te proberen. Ze wordt saai en star.

De Oplossing: De "Gelijke Pot" Methode

De onderzoekers zeggen: "Wacht even. Als twee studenten hetzelfde woord gebruiken op hetzelfde moment (bijvoorbeeld het woord 'de' of 'is'), dan zou dat woord niet moeten tellen voor de beloning. Het is immers hetzelfde woord!"

In het oude systeem werd dit woord echter wel beïnvloed door de rest van het antwoord van die specifieke student. Dat is onlogisch.

De auteurs stellen een nieuwe regel voor: Gradient Cancellation (Gradiënt-annulering).
Dit klinkt ingewikkeld, maar het is simpel:

  • Als alle studenten in de groep hetzelfde woord gebruiken, moet de AI die woorden genegeerd worden bij het berekenen van de beloning.
  • Alleen de woorden die verschillen tussen de studenten, mogen de AI iets leren.

De Creatieve Analogie: De Orkestrepetitie

Stel je een orkest voor dat een symfonie repeteert.

  • Het oude probleem: De dirigent (de AI-algoritme) luistert naar elke muzikant. Als de eerste viool een fout maakt, maar de tweede viool speelt het perfect, en ze spelen precies hetzelfde stuk, dan zou de dirigent moeten zeggen: "Het stuk dat jullie samen spelen, is goed. We hoeven daar niets aan te veranderen."
  • Maar in het oude systeem: De dirigent kijkt naar de hele prestatie van de eerste viool. Omdat de eerste viool later in het stuk een fout maakt, zegt de dirigent: "Jouw hele partituur is minderwaardig!" Hierdoor stopt de eerste viool met het spelen van de goede delen, en begint hij te twijfelen aan de goede noten die hij eerder speelde. Dit is de Learning Tax.

De nieuwe methode (DFPO):
De dirigent kijkt alleen naar de noten die verschillen.

  1. Als alle violen op hetzelfde moment een 'C' spelen, zegt de dirigent: "Die 'C' is voor iedereen gelijk. Die veranderen we niet." (Dit is annulering).
  2. Hij kijkt alleen naar de noten waar de ene viool een 'C' speelt en de andere een 'D'. Daar leert hij van.

Door dit te doen, voorkomt de dirigent dat de violen gaan twijfelen aan de noten die ze al goed spelen. Ze blijven stabiel en leren sneller de moeilijke stukken.

Wat levert dit op?

Door deze simpele, maar slimme aanpassing (ze noemen het "Min-Replace" of "Orth-Proj", wat in feite betekent: "maak de beloning voor iedereen in de groep gelijk voor de gedeelde delen"):

  1. Stabielere training: De AI raakt niet in paniek en gaat niet wild heen en weer bewegen.
  2. Sneller leren: De AI verspilt geen tijd aan het "leren" van woorden die ze al goed kent of die irrelevant zijn.
  3. Beter resultaat: De AI wordt uiteindelijk slimmer en flexibeler, omdat ze niet vastloopt in saai, herhalend gedrag.

Samenvatting in één zin

Deze paper zegt: "Als je een groep AI's traint, zorg dan dat ze niet struikelen over de woorden die ze allemaal al goed kennen; focus alleen op de verschillen, anders leren ze de verkeerde dingen en worden ze dom."

Het is een fundamentele verbetering die zorgt dat AI's niet meer "leren" om te praten als robots die alleen maar herhalen wat ze al wisten, maar echt gaan denken.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →