Agentic Critical Training

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper "Agentic Critical Training" (ACT) in gewone, begrijpelijke taal, met behulp van creatieve vergelijkingen.

Het Grote Probleem: De "Kopieer-Aap" vs. De "Denkende Chef"

Stel je voor dat je een nieuwe kok wilt leren koken.

De oude manier (Imitatie Learning):
Je geeft de kok een recept en laat hem precies doen wat je doet. Hij ziet jou een ei breken, dan roeren, dan bakken. Hij doet exact hetzelfde.

Het nadeel: Hij weet hoe het moet, maar niet waarom. Als hij per ongeluk het ei op de grond laat vallen, weet hij niet wat hij moet doen. Hij blijft proberen het ei op de grond te bakken, omdat hij dat in zijn "recept" heeft gezien. Hij heeft geen idee dat er een betere manier is. Hij is een blinde kopieer-aap.

De nieuwe manier (Early Experience / Zelfreflectie):
De onderzoekers probeerden dit op te lossen door de kok te laten kijken naar wat er gebeurt als je het ei op de grond laat vallen (mislukking) versus op de pan (succes). Ze lieten de kok een tekst schrijven: "Oh, ik heb het ei op de grond laten vallen, dat is stom." En dan lieten ze hem die tekst uit het hoofd leren.

Het nadeel: De kok leert nog steeds alleen maar de woorden uit het hoofd ("Oh, dat is stom"). Hij heeft het niet echt begrepen. Als hij in een nieuwe situatie komt, kan hij die tekst niet meer toepassen omdat hij alleen maar de tekst heeft gekopieerd, niet de logica erachter.

De Oplossing: Agentic Critical Training (ACT)

De auteurs van dit paper hebben een slimme nieuwe methode bedacht, genaamd ACT.

Stel je voor dat je de kok niet laat kopiëren, maar hem een keuzetest geeft.

Hoe werkt ACT?

Je geeft de kok twee opties:
- Optie A: Het ei in de pan doen (de goede manier).
- Optie B: Het ei op de grond gooien (de slechte manier).
Je vraagt de kok: "Welke optie is beter en waarom?"
De truc: Je geeft de kok geen antwoord. Je zegt alleen: "Als je de juiste keuze maakt, krijg je een sterretje (beloning). Als je de verkeerde kiest, krijg je niets."

Omdat de kok de tekst niet uit het hoofd hoeft te leren, maar moet bedenken waarom Optie A beter is om de sterretjes te krijgen, begint hij echt na te denken. Hij ontwikkelt zijn eigen "kritische geest". Hij leert: "Ah, als ik het ei op de grond gooi, is het kapot. Dus moet ik het in de pan doen."

Dit noemen ze echte zelfreflectie. De kok leert niet wat hij moet zeggen, maar hoe hij moet redeneren.

Wat hebben ze ontdekt?

De onderzoekers hebben deze methode getest op drie verschillende "keukens" (computerprogramma's die taken moeten uitvoeren):

ALFWorld: Een robot die huishoudelijke taken moet doen (zoals een doek in een kast leggen).
WebShop: Een agent die online moet winkelen en producten moet vinden.
ScienceWorld: Een wetenschappelijk experiment doen.

De resultaten waren geweldig:

Beter dan kopiëren: Agents die met ACT werden getraind, waren veel slimmer dan diegene die alleen maar kopieerden. Ze maakten minder fouten.
Beter dan de "oude reflectie": Ze waren ook slimmer dan de methode waarbij de agent de "stomme tekst" uit het hoofd moest leren.
Het verrassende geheim: De agents die met ACT waren getraind, werden niet alleen beter in koken (hun specifieke taak), maar ook in wiskunde en logica.
- Vergelijking: Het is alsof je een kok traint om te kiezen tussen goed en slecht eten, en plotseling blijkt hij ook een briljant wiskundeleraar te zijn geworden. Omdat hij heeft geleerd om kritisch na te denken over keuzes, kan hij die vaardigheid toepassen op wiskundeproblemen (zoals: "Is dit antwoord logisch of niet?").

Waarom is dit belangrijk?

Tot nu toe leerden we computers vooral door ze te laten nabootsen (kopiëren). Dat werkt goed, maar ze worden niet echt slim of creatief. Ze blijven vastlopen als ze iets tegenkomen wat ze niet hebben gezien.

Met ACT leren we computers om te oordelen. Ze leren het verschil zien tussen een goede en een slechte beslissing.

Als ze vastlopen (bijvoorbeeld: "Ik kan de kast niet openen"), denken ze niet: "Oh, ik moet het opnieuw proberen zoals in het boekje."
Ze denken: "Wacht even, ik ben niet bij de kast. Ik moet eerst naar de kast lopen."

Samenvatting in één zin

In plaats van een computer te leren wat hij moet zeggen (nabootsen), leren we hem met ACT te denken over wat hij moet doen, waardoor hij echt slim wordt en fouten kan oplossen, zelfs in situaties die hij nog nooit heeft gezien.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Agentic Critical Training" (ACT) in het Nederlands.

Titel: Agentic Critical Training (ACT)

Auteurs: Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang (University of Maryland, College Park)

1. Het Probleem: Beperkingen van Imitatie Learning

Het trainen van autonome agents op basis van Large Language Models (LLM) begint vaak met Imitatie Learning (IL) (Supervised Fine-Tuning op expert-demonstraties). Hoewel dit effectief is om agents te leren wat ze moeten doen, heeft het een fundamenteel tekort:

Gebrek aan begrip van "waarom": Agents leren alleen succesvolle trajecten na te bootsen, maar begrijpen niet waarom bepaalde acties superieur zijn of waarom andere acties suboptimaal zijn.
Afwezigheid van kritisch redeneren: Agents hebben geen bewustzijn van de kwaliteit van acties en kunnen geen onderscheid maken tussen goede en slechte keuzes.
Beperkingen van bestaande oplossingen: Recent werk (zoals "Early Experience") probeert dit op te lossen door zelfreflectie-tekst te genereren en deze te laten imiteren via IL. Het paper stelt echter dat dit de kernproblemen niet oplost: het model imiteert een vooraf gegenereerde tekst in plaats van autonoom te leren redeneren. De "zelfreflectie" is dus nagebootst, niet echt.

2. Methodologie: Agentic Critical Training (ACT)

De auteurs introduceren Agentic Critical Training (ACT), een Reinforcement Learning (RL) paradigma dat agents traint om de kwaliteit van acties te beoordelen en te vergelijken, in plaats van ze simpelweg te imiteren.

Kernprincipes:

Van imitatie naar discriminatie: Het leerdoel verschuift van "imitate the expert action" naar "identify the better action".
Autonoom redeneren: In plaats van reflectietekst te imiteren, wordt het model beloond voor het correct selecteren van de beste actie. Dit dwingt het model om zelf een chain-of-thought (CoT) redenering te ontwikkelen om tot de juiste keuze te komen.

Het Trainingsproces (Drie Fasen):

Data Constructie:
- Voor elke expert-staat-actie-paar $(s_i, a_i)$ wordt een set van $K$ alternatieve acties gesampled vanuit een initiële policy $\pi_{\theta_0}$ .
- Alternatieven die identiek zijn aan de expert-actie worden verwijderd.
- Er worden contrastieve paren gevormd: $(s_i, a^+_i, a^-_i)$ , waarbij $a^+$ de expert-actie is en $a^-$ een suboptimale alternatieve actie.
Agentic Critical Training (Fase 1):
- Het model wordt getraind via Group Relative Policy Optimization (GRPO).
- Het model krijgt twee kandidaat-acties (expert vs. alternatief) in willekeurige volgorde gepresenteerd.
- De taak is om te redeneren welke actie beter is en de keuze te taggen.
- Beloning: Het model krijgt alleen een beloning als het de juiste actie selecteert. Er is geen toezicht op de redeneringstekst zelf; het model moet autonoom leren waarom een actie beter is om de beloning te maximaliseren.
RL Action Training (Fase 2):
- Het model dat nu "kritisch denken" heeft geleerd, wordt verder getraind met GRPO voor directe actiegeneratie op expert-trajecten.
- De verbeterde begrip van actiekwaliteit helpt het model om effectievere policies te ontwikkelen.

Beloningsfunctie:

De beloning is samengesteld uit drie componenten:

$R_{acc}$ : Exacte match met de expert-actie (1.0).
$R_{adm}$ : Deelcredit voor een geldige maar suboptimale actie (0.1).
$R_{fmt}$ : Strafpunt (-0.5) als de output geen correcte <action> tags bevat.

3. Belangrijkste Bijdragen

Nieuw Paradigma: ACT traint agents om via RL te oordelen over actiekwaliteit, wat leidt tot echte zelfreflectie in plaats van nagebootste reflectie.
Superieure Prestaties: ACT verbetert consistent de prestaties van zowel Imitatie Learning als standaard Reinforcement Learning op drie uitdagende benchmarks.
Generalisatie: Het methode toont sterke generalisatie naar onbekende distributies (OOD) en verbetert zelfs prestaties op algemene redeneerbenchmarks zonder specifieke trainingsdata voor redeneren.

4. Resultaten

De experimenten zijn uitgevoerd op drie benchmarks: ALFWorld (embodied tasks), WebShop (web navigatie) en ScienceWorld (wetenschappelijke reasoning). Het model dat werd gebruikt is Qwen3-8B.

Prestatieverbetering:
- ACT in combinatie met IL levert een gemiddelde verbetering van 5,07 punten op ten opzichte van standaard IL.
- ACT in combinatie met RL levert een verbetering van 4,62 punten op ten opzichte van standaard RL.
- ACT presteert 2,42 punten beter dan de "Early Experience" baseline (die reflectie imiteert via knowledge distillation).
Out-of-Distribution (OOD) Generalisatie:
- Op de OOD splits van ALFWorld is de verbetering door ACT zelfs groter (3,73 punten bovenop RL) dan op in-distribution taken (2,15 punten). Dit suggereert dat het geleerde redeneren niet overfit op de trainingsdata.
General Reasoning Benchmarks:
- Op MATH-500 en GPQA-Diamond (wiskunde en wetenschap), waar andere methoden (zoals IL) de redeneercapaciteit van het model vaak verslechteren ("reasoning collapse"), behaalt ACT de hoogste scores.
- IL op agentic data leidt tot een daling van 6,91 punten op GPQA-Diamond, terwijl ACT een verbetering van 1,85 punten bovenop de baseline toont.
- Case Study: ACT-modellen vertonen "zelfverificatie" (self-verification) gedrag, waarbij ze antwoorden controleren tegen de oorspronkelijke vergelijkingen, een gedrag dat niet voorkomt bij standaard IL-modellen.

5. Betekenis en Conclusie

Het paper toont aan dat het trainen van LLM-agents om kritisch te oordelen over acties via Reinforcement Learning een krachtigere methode is dan het imiteren van reflectietekst.

Fundamenteel inzicht: Het vermogen om te evalueren en te vergelijken (discriminatie) is een fundamentele bouwsteen voor autonoom redeneren.
Toekomstperspectief: ACT biedt een pad naar het ontwikkelen van meer reflectieve en capabele agents. Het suggereert dat agentic RL-omgevingen kunnen dienen als een route om de algemene redeneercapaciteit van LLM's te verbeteren, zelfs zonder expliciete trainingsdata voor redeneren.
Praktische impact: Agents getraind met ACT kunnen fouten herkennen en herstellen (bijvoorbeeld in een loop van mislukte acties breken), wat cruciaal is voor robuuste autonome systemen in complexe omgevingen.

Kortom, ACT vervangt passief nadoen door actief kritisch denken, wat leidt tot agents die niet alleen weten wat ze moeten doen, maar ook begrijpen waarom het de juiste keuze is.