Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Dit paper introduceert Fine-grained Group Policy Optimization (FGO), een versterkt leer-algoritme dat de inefficiëntie en entropie-inzakking van GRPO oplost en effectieve compressie van Chain-of-Thought-redeneringen mogelijk maakt zonder prestatieverlies.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme robot hebt die heel goed wiskundige problemen kan oplossen. Maar er is een probleem: deze robot denkt te veel na.

Wanneer je hem een vraag stelt, begint hij niet alleen met het antwoord, maar schrijft hij ook een heel lang verhaal over hoe hij er aan komt. Hij zegt dingen als: "Oké, laten we eerst kijken... wacht even, misschien moet ik het anders proberen... nee, dat klopt niet... laten we het nog eens proberen..."

Dit noemen onderzoekers "Chain-of-Thought" (een denkketting). Het probleem is dat deze ketting vaak veel te lang is. De robot verspillen tijd en computerkracht aan dubbelchecken en onnodige gedachten, terwijl het antwoord vaak al lang duidelijk had kunnen zijn. Het is alsof je een briefje met het antwoord op een briefkaart schrijft, maar eerst 50 pagina's vol schrijft over hoe je de pen vasthoudt.

De oplossing: FGO (De Slimme Redacteur)

In dit paper stellen de auteurs een nieuwe methode voor, genaamd FGO (Fine-grained Group Policy Optimization). Om dit uit te leggen, gebruiken we een paar analogieën:

1. De "Groepsdiscussie" (Hoe het werkt)

Stel je voor dat je een groep leerlingen (de robot) een moeilijke wiskundetaak geeft.

  • De oude methode (GRPO): De leraar kijkt naar alle antwoorden. Als iedereen het goed heeft, zegt de leraar: "Goed gedaan!" en als iedereen het fout heeft, zegt hij: "Fout gedaan!" Maar als de groep heel langdurig en rommelig heeft nagedacht, krijgt niemand een specifieke feedback. De leerlingen leren niet hoe ze korter en slimmer kunnen denken.
  • De nieuwe methode (FGO): De leraar (FGO) kijkt veel scherper. Hij verdeelt de groep in twee teams:
    • Team Goed: Diegenen die het juiste antwoord hebben.
    • Team Fout: Diegenen die het verkeerde antwoord hebben.

2. De "Prijsuitreiking" (Beloningen en Straffen)

Nu komt het slimme deel. De leraar geeft niet iedereen dezelfde prijs.

  • Voor Team Goed (Het juiste antwoord):
    De leraar zegt: "Jullie hebben het goed, maar wie het kortst en duidelijkst heeft uitgelegd, krijgt de gouden medaille!"

    • Analogie: Het is alsof je een schrijfwedstrijd hebt. Als twee mensen hetzelfde verhaal vertellen, win je niet door 1000 woorden te schrijven, maar door het in 200 woorden perfect te zeggen. FGO beloont de robot dus voor korte, krachtige denkketens.
  • Voor Team Fout (Het verkeerde antwoord):
    De leraar zegt: "Jullie hebben het fout. Maar ik wil dat jullie dapper zijn en verschillende manieren proberen, zelfs als het niet lukt. Wie het meest creatief is in zijn fouten, krijgt een troostprijs."

    • Analogie: Soms is het goed om te experimenteren. Als de robot alleen maar op één manier probeert te falen, stopt hij met denken. FGO zorgt ervoor dat de robot blijft proberen en niet "vastloopt" in een saaie, herhalende modus.

3. Het probleem dat opgelost wordt

De oude methode had twee grote zwaktes:

  1. Verspilling: Als iedereen hetzelfde antwoord gaf, leerde de robot niets. FGO zorgt dat elk antwoord telt, zelfs als het fout is.
  2. Verveling (Entropie-collaps): De robot werd saai. Hij begon steeds hetzelfde, saaie verhaal te vertellen. FGO houdt de robot "fris" door te variëren in hoe hij denkt, zodat hij niet in een loopje belandt.

Wat is het resultaat?

De tests in het paper laten zien dat FGO wonderen doet:

  • De robot denkt sneller (minder woorden, minder tijd).
  • De robot maakt niet meer fouten (soms zelfs minder dan voorheen).
  • De robot blijft slim en kan zichzelf corrigeren (hij denkt nog steeds na, maar niet onnodig lang).

Kort samengevat:
FGO is als een slimme coach die een atleet leert om niet alleen harder te rennen, maar ook slimmer. De coach zegt: "Je kunt het doel bereiken, maar doe het niet door 10 rondjes extra te lopen. Loop de kortste, meest efficiënte route, en blijf ook nog even creatief als je struikelt."

Het resultaat is een robot die sneller, slimmer en zuiniger is, zonder zijn intelligentie te verliezen.