From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

Each language version is independently generated for its own context, not a direct translation.

Van Passieve Toeschouwer naar Actieve Criticus: Hoe Robots Leren "Nadenken"

Stel je voor dat je een robot wilt bouwen die complexe taken uitvoert, zoals het koken van een maaltijd of het opruimen van een rommelige kamer. Het grootste probleem is niet het bewegen van de armen, maar het weten of het goed gaat.

Tot nu toe waren de slimme computers (AI) die naar video's van robots keken, als een passieve toeschouwer op de bank. Ze zagen wel wat er gebeurde ("Ah, de robot pakt een mes"), maar ze konden niet goed inschatten of de taak echt bijna klaar was of dat de robot net een enorme fout had gemaakt. Ze keken alleen naar wat er nu gebeurde, zonder de context van het begin of het einddoel.

De auteurs van dit paper hebben een nieuwe oplossing bedacht genaamd PRIMO R1. Hier is hoe het werkt, vertaald naar simpele beelden:

1. Het Probleem: De "Blinde" Toeschouwer

Stel je voor dat je naar een film kijkt die halverwege begint. Als iemand vraagt: "Is de film al klaar?", zegt de oude AI misschien: "Nee, want ik zie nog geen eindtekst." Maar als de film net een ongelukje heeft gehad en de hoofdpersoon valt, zegt de oude AI misschien nog steeds: "Ja, het ziet eruit alsof het goed gaat," omdat de beelden er gewoon "bewegend" uitzien.

Deze AI's zijn getraind om te beschrijven, niet om te oordelen. Ze missen het vermogen om te zeggen: "Hé, we zijn pas bij stap 2 van de 10, dus we zijn nog niet klaar," of "Hé, die stap is verkeerd gegaan, de taak is nu mislukt."

2. De Oplossing: De Actieve Criticus

PRIMO R1 verandert de robot van een toeschouwer in een scherpe criticus (zoals een strenge filmrecensent). In plaats van alleen te zeggen wat er gebeurt, denkt de AI eerst na over hoe het had moeten gaan.

Ze gebruiken een slimme truc met drie elementen, alsof je een verhaal vertelt:

Het Begin (De Startfoto): Hoe zag de kamer eruit voordat de robot begon?
Het Midden (De Video): Wat doet de robot nu?
Het Heden (De Huidige Foto): Hoe ziet de situatie er nu uit?

Door deze drie dingen tegelijk te bekijken, kan de AI de "tijdslijn" vastpinnen. Het is alsof je een boek leest en je houdt de eerste pagina en de huidige pagina vast om te zien hoeveel je al hebt gelezen, in plaats van alleen naar de huidige zin te kijken.

3. De Motor: Leren door "Durf en Fouten" (Versterkend Leren)

Hoe leer je een computer om te denken? Je kunt het niet gewoon een lijstje met antwoorden geven. In plaats daarvan gebruiken ze een methode die lijkt op het trainen van een hond of het spelen van een videospel.

De Regels: De AI krijgt een taak. Als hij een goed antwoord geeft (bijvoorbeeld: "We zijn 80% klaar"), krijgt hij een beloning. Als hij fouten maakt of hallucineert (droomt hij dingen die er niet zijn), krijgt hij geen punt.
Het Nadenken (Chain-of-Thought): De AI wordt gedwongen om eerst zijn gedachten te schrijven (een "denkproces") voordat hij het antwoord geeft. Hij moet zeggen: "Ik heb stap 1 gedaan, stap 2 is half klaar, maar stap 3 is nog niet begonnen."
De Resultaten: Door duizenden keren te oefenen met deze beloningssysteem, leert de AI dat het nadenken de sleutel is tot het juiste antwoord. Het wordt een expert in het inschatten van voortgang.

4. Waarom is dit zo speciaal?

De onderzoekers hebben getoond dat hun model (dat slechts 7 miljard "hersencellen" heeft, wat klein is voor AI-standaarden) veel beter presteert dan modellen die 10 keer zo groot zijn (72 miljard).

Voorbeeld: Als je vraagt of een robot een taak heeft gefaald (bijvoorbeeld: "Heeft hij de kom kapot gemaakt?"), kan dit model dat zien, zelfs als het een situatie is die het nooit eerder heeft gezien.
De Analogie: Stel je voor dat je een nieuwe taal leert. Een groot model is als iemand die een woordenboek van 1000 pagina's heeft, maar niet begrijpt hoe zinnen werken. PRIMO R1 is als iemand met een kleiner woordenboek, maar die de grammatica en de logica perfect begrijpt. Daardoor maakt hij minder fouten.

Samenvatting

Kortom, PRIMO R1 is een slimme robot-assistent die niet alleen kijkt, maar begrijpt. Door te leren nadenken over het begin, het midden en het einde van een taak, en door te oefenen met beloningen, wordt hij een betrouwbare "scheidsrechter" voor robots. Hij kan precies zeggen hoe ver een taak is gevorderd en of er iets misgaat, zelfs in nieuwe en moeilijke situaties.

Dit is een grote stap naar robots die echt onafhankelijk kunnen werken in onze huizen en fabrieken, omdat ze zelf kunnen oordelen of ze hun werk goed doen.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Passieve Observatie vs. Actieve Supervisie

De kernuitdaging in het gebied van Embodied AI en robotica is het effectief superviseren van langdurige manipulatie-taken. Huidige Video Multimodale Large Language Models (Video MLLMs) functioneren voornamelijk als passieve "Observators".

Beperkingen: Deze modellen zijn getraind om gebeurtenissen te beschrijven (captioning) of vragen te beantwoorden, maar ze missen het vermogen om de voortgang van een taak kwantitatief te evalueren ten opzichte van het uiteindelijke doel.
Foutenpatroon: Ze neigen ernaar om visuele trajecten die lijken op succesvolle bewegingen als "succesvol" te labelen, zelfs als de taak faalt. Ze kunnen geen causale redenering toepassen om de afstand tussen de huidige staat en het doel te meten.
Reward-tekort: Het ontbreken van betrouwbare, dichte beloningssignalen (dense rewards) voor complexe omgevingen maakt het leren van beleid (policy learning) inefficiënt. Bestaande methoden vertrouwen vaak op handmatige engineering of privilege-toegang tot grondwaarheid (ground-truth), wat in de echte wereld niet beschikbaar is.

2. Methodologie: PRIMO R1

Het paper introduceert PRIMO R1 (Process Reasoning Induced MOnitoring), een 7B-parameter framework dat Video MLLMs transformeert van passieve observators naar actieve "Critics".

A. Architectuur en Input Structuur

In plaats van alleen een video te analyseren, gebruikt PRIMO R1 een gestructureerde temporale input die drie elementen combineert:

Initiële staat ( $I_{init}$ ): Een afbeelding van de omgeving voor de start.
Procesvideo ( $V_{seq}$ ): De tijdsreeks van acties.
Huidige staat ( $I_{curr}$ ): De afbeelding van de huidige situatie.

Doel: Door de video expliciet te "ankeren" tussen de begin- en eindtoestand, wordt het redeneertask omgezet van generieke tijdsperceptie naar gestructureerde staat-uitlijning (state-alignment).

B. Reinforcement Learning met GRPO

Het model wordt niet alleen getraind via Supervised Fine-Tuning (SFT), maar vooral via Outcome-based Reinforcement Learning (RL) met Group Relative Policy Optimization (GRPO).

Chain-of-Thought (CoT): Het model wordt gestimuleerd om expliciete redeneerketens te genereren voordat het een antwoord geeft. De output bestaat uit:
1. Planning: Het opstellen van een logische stappenlijst voor de taak.
2. Observation: Het analyseren van de video en het huidige beeld.
3. Reasoning: Het afleiden van de voortgang door de observaties te vergelijken met het plan.
Reward Functie: De beloning is gebaseerd op de nauwkeurigheid van de uiteindelijke voortgangsschatting (een getal tussen 0 en 100), niet op de tussenstappen. Dit dwingt het model om zelfstandief de juiste redenering te vinden om de juiste score te behalen.
GRPO Voordelen: In tegenstelling tot PPO (Proximal Policy Optimization) vereist GRPO geen aparte, rekenintensieve waarde-functie (value function critic), wat essentieel is voor de hoge geheugenkosten van video-MLLMs.

C. PRIMO Dataset en Benchmark

Dataset: Een verzameling van 116k samples voor SFT en 182k samples voor RL, afkomstig uit simulaties (BEHAVIOR-1k, RoboTwin) en echte robotdata (AgiBot). De data bevat gedetailleerde CoT-annotaties.
PRIMO Bench: Een benchmark voor het evalueren van generalisatie, verdeeld in In-Domain (bekende taken/omgevingen) en Out-of-Domain (nieuwe taken, nieuwe fysieke humanoid robots in ongestructureerde omgevingen).

3. Belangrijkste Resultaten

PRIMO R1 presteert state-of-the-art (SOTA) op diverse benchmarks, vaak met een modelgrootte van slechts 7B parameters.

Voortgangsschatting (Progress Estimation):
- Bereikt een gemiddelde Mean Relative Accuracy (MRA) van 82,90 en een Mean Absolute Error (MAE) van 15,52.
- Vergelijking: Het presteert significant beter dan gespecialiseerde 7B-modellen en verslaat zelfs grote, gesloten 72B-modellen (zoals Qwen2.5-VL-72B) met een marge van +9,10 punten in MRA.
- Het reduceert de foutmarge met 50% ten opzichte van gespecialiseerde baselines.
Zero-Shot Generalisatie (RoboFail Benchmark):
- Het model toont sterke generalisatie in het detecteren van falen in nieuwe omgevingen (Real Humanoid).
- Bereikt 67,0% nauwkeurigheid op de RoboFail-benchmark, wat beter is dan gesloten modellen zoals OpenAI o1 (61,0%) en GPT-4o (63,0%).
Ablatie Studies:
- Het gebruik van zowel de initiële als de huidige staat (naast de video) is cruciaal voor nauwkeurigheid. Modellen die alleen op de huidige staat of alleen op de video vertrouwen, presteren aanzienlijk slechter.
- RL-training is essentieel voor generalisatie; SFT alleen leidt tot overfitting op de trainingsverdeling.

4. Bijdragen

Paradigmaverschuiving: De introductie van PRIMO R1, dat Video MLLMs transformeert van passieve observators naar interpreteerbare, actieve critici via RL-gestuurde redenering.
Data en Benchmark: Het creëren van de PRIMO Dataset (met CoT-annotaties voor SFT en RL) en de PRIMO Bench voor systematische evaluatie van out-of-domain generalisatie.
Gestructureerde Input: Een nieuwe strategie om video's te ankeren tussen begin- en eindtoestanden, wat leidt tot een 50% reductie in foutmarge.
Koppeling tussen Voortgang en Falen: Het bewijs dat het optimaliseren voor continue voortgangsredenering intrinsiek zorgt voor robuuste zero-shot generalisatie bij het detecteren van discrete uitvoeringsfouten.

5. Significantie en Impact

Dit werk is van groot belang voor de toekomst van autonome robotica:

Betrouwbare Beloningssignalen: Het biedt een manier om betrouwbare, dichte beloningssignalen af te leiden uit visuele waarnemingen zonder menselijke tussenkomst of privilege-toegang tot grondwaarheid.
Efficiëntie: Het toont aan dat kleinere, gespecialiseerde modellen (7B) via de juiste trainingsmethodiek (RL + CoT) beter kunnen presteren dan enorme, generieke modellen (72B+), wat kosten en energie bespaart.
Toepasbaarheid: De sterke zero-shot generalisatie naar echte, ongestructureerde omgevingen (zoals fabrieken en service-scenario's) maakt het een veelbelovende technologie voor het trainen van langdurige, complexe robottaken in de echte wereld.

Kortom, PRIMO R1 bewijst dat het stimuleren van expliciet procesredeneren via Reinforcement Learning de sleutel is tot het overbruggen van de kloof tussen visuele waarneming en robuuste, causale taakbeoordeling in robotica.