Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die net zo slim lijkt als een mens, maar die eigenlijk heel dom is als het misgaat. Als hij een kopje laat vallen, denkt hij: "Oeps," en probeert hij het exact dezelfde manier opnieuw. En opnieuw. En opnieuw. Hij leert niet uit zijn fouten; hij herhaalt ze maar.

Dit artikel introduceert een nieuwe manier om robots (of "Embodied LLMs") slimmer te maken. Ze noemen het Reflective Test-Time Planning. Laten we dit uitleggen alsof het een verhaal is over een kok die een recept probeert.

Het Probleem: De Robot die niet leert

Stel je een robot voor die moet koken. Hij moet een taart maken.

De oude manier: De robot pakt deeg, rolt het uit en bakt het. Als het deeg aan de pan plakt, zegt hij: "Oeps, dat was raar." Hij gooit het weg en probeert het exact hetzelfde opnieuw. Hij blijft steken in een cyclus van fouten.
De nieuwe manier (Reflective Test-Time Planning): De robot is nu een echte kok die nadenkt. Hij heeft drie manieren om te leren: Vóór, Tijdens en Na het koken.

De Drie Manieren van Nadenken

1. Reflectie in Actie (Vóór het doen)

De "Droomtest" in je hoofd

Stel je voor dat je gaat koken en je twijfelt of je de taart in een grote of kleine vorm moet bakken.

De oude robot: Pakt direct de eerste vorm die hij ziet en stopt erin.
De nieuwe robot: Hij doet alsof hij het al doet, maar in zijn hoofd. Hij zegt: "Oké, als ik dit in de grote vorm doe, past het misschien niet. Als ik het in de kleine doe, is het te krap. Laten we even alle opties doorlopen."
Hoe het werkt: De robot bedenkt verschillende dingen die hij zou kunnen doen (bijvoorbeeld: "Zet de auto in de groene doos" of "Zet de auto in de oranje doos"). Hij geeft elke optie een score in zijn hoofd. Hij kiest alleen de actie met de hoogste score.
De metafoor: Het is alsof je een schakenpartij speelt en eerst drie zetten vooruit denkt voordat je je pion beweegt. Je probeert het niet echt, je "droomt" het na om te zien of het werkt.

2. Reflectie op Actie (Direct na het doen)

De "Directe Feedback"

De robot heeft nu echt iets gedaan. Hij heeft de auto in de doos gezet.

Wat gebeurt er: De doos is te klein! De auto past er niet in.
De reactie: De robot zegt direct: "Oei, ik heb een fout gemaakt. De doos was te klein. Ik moet onthouden dat ik niet in die doos moet proberen."
Hoe het werkt: De robot kijkt naar wat er echt is gebeurd (niet wat hij dacht) en maakt een notitie. Hij past zijn "geheugen" direct aan.
De metafoor: Het is alsof je een bal gooit en hij botst tegen een muur. Je zegt direct: "Ah, die muur was er, ik wist het niet." Je past je strategie direct aan voor de volgende worp.

3. Retro-Reflectie (Terugkijken met het benefit van de achteruitkijkspiegel)

De "Grote Duiding" later

Soms is een fout pas echt duidelijk als je verder bent.

Het scenario: Stel, de robot zet een klein speelgoedautootje in een grote doos. Dat lijkt een goed idee. Maar later merkt hij dat hij een grote auto moet zetten in diezelfde doos, en door het kleine autootje is er nu geen plek meer.
De oude robot: Zou zeggen: "Ik heb de kleine auto in de doos gezet, dat was goed!" en zou de grote auto niet kunnen kwijt.
De nieuwe robot: Kijkt later terug en zegt: "Wacht even. Ik heb die kleine auto in de doos gezet, maar dat was dom! Dat blokkeerde de plek voor de grote auto. Ik had die doos leeg moeten houden."
Hoe het werkt: De robot kijkt terug naar zijn eerdere beslissingen en zegt: "Als ik nu terugkijk, was dat een slechte keuze." Hij past zijn "hersenen" aan zodat hij de volgende keer voordat hij de kleine auto zet, al weet dat hij die doos moet sparen.
De metafoor: Het is alsof je een reis maakt. Onderweg dacht je: "Ik neem deze afslag, dat lijkt snel." Pas als je bij de bestemming bent, realiseer je je: "Oh, die afslag bracht me in een doodlopende straat. De volgende keer neem ik de andere weg, zelfs als die er eerst saai uitzag."

Waarom is dit zo cool?

Normaal gesproken zijn robots als een statische spiegel: ze laten je zien wat er is, maar ze veranderen niet als je er tegenop slaat.

De robot in dit artikel is als een levendige leerling:

Hij droomt vooruit (Reflectie in Actie) om fouten te voorkomen.
Hij luistert direct naar wat er gebeurt (Reflectie op Actie) om zijn gedrag aan te passen.
Hij leert uit zijn verleden (Retro-Reflectie) om zijn hele denkproces te verbeteren, zodat hij niet dezelfde fouten twee keer maakt.

Het Resultaat

In de tests (waar robots moesten spelen met speelgoed in huiskamers en in een simulator met kasten) bleek dat deze robot veel minder vaak vastliep. Waar andere robots 10 keer dezelfde fout maakten, leerde deze robot na 1 of 2 keer: "Ah, dit werkt niet, ik doe het anders."

Het is alsof je een robot hebt die niet alleen werkt, maar ook nadenkt over zijn eigen werk. Hij leert niet alleen van succes, maar vooral van zijn mislukkingen, en wordt daardoor steeds slimmer, precies zoals wij mensen dat doen.

Kort samengevat:
Deze robot is niet langer een domme uitvoerder die blijft herhalen. Hij is een slimme denker die vooruitkijkt, terugkijkt en leert van elke fout, zodat hij de volgende keer beter presteert.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Embodied Large Language Models (LLMs) hebben robots in staat gesteld om complexe taken te plannen en uit te voeren. Echter, deze systemen zijn vaak "brittle" (kwetsbaar) en fungeren als statische orakels. Ze kunnen niet leren uit fouten die tijdens de uitvoering worden gemaakt.

Huidige beperking: Bestaande methoden behandelen implementatie als een reeks onafhankelijke proefpogingen. Als een robot een fout maakt, wordt deze niet opgeslagen als ervaring die de onderliggende beslissingsprocessen verbetert.
Het gap: Mensen zijn natuurlijke "reflecterende beoefenaars" (volgens het kader van Schöns). Ze wisselen af tussen reflectie tijdens actie (intern simuleren) en reflectie na actie (leren uit resultaten). Bestaande AI-methoden missen vaak een van deze twee modi of slaan reflecties slechts op als tekst zonder de modelparameters aan te passen, wat leidt tot het herhalen van fouten bij distributieveranderingen.

Methodologie: Reflective Test-Time Planning

De auteurs introduceren een raamwerk dat twee vormen van reflectie integreert tijdens de testtijd (tijdens de daadwerkelijke uitvoering van de taak), ondersteund door een derde vorm voor langetermijnleren:

Reflectie-in-actie (Reflection-in-Action):
- Doel: Voorkomen van fouten voordat een actie wordt uitgevoerd.
- Mechanisme: In plaats van direct de eerste plausibele actie te kiezen, genereert het agent $N$ kandidaat-acties (via high-temperature sampling).
- Interne Evaluatie: Een intern reflectie-model ( $V_{\phi_i}$ ) simuleert en scoort elke kandidaat-actie intern. Het model genereert een natuurlijke taalreflectie en een score (0-100) voor elke optie.
- Selectie: De actie met de hoogste score wordt uitgevoerd. Dit fungeert als een "mentale simulatie" om de beste route te kiezen.
Reflectie-op-actie (Reflection-on-Action):
- Doel: Leren uit de daadwerkelijke uitkomst van een uitgevoerde actie.
- Mechanisme: Na uitvoering genereert een extern reflectie-model ( $V_{\phi_e}$ ) een evaluatie van wat er is gebeurd en waarom (succes of mislukking).
- Geheugen: Deze ervaringen worden opgeslagen in een werkgeheugenbuffer. Bij mijlpalen (bijv. kamerwisseling) of na een bepaalde hoeveelheid stappen wordt dit geheugen gebruikt voor retrospectieve reflectie. Hierbij worden eerdere beslissingen opnieuw beoordeeld met het vooruitzicht (hindsight) van latere resultaten (bijv. "deze actie leek goed, maar blokkeerde later een groter object").
Test-Time Training (Leren tijdens de uitvoering):
- Het unieke aspect is dat de reflecties worden omgezet in zelftoezichtssignalen om de modellen direct bij te werken tijdens de deploy-fase.
- Update van het Actiemodel ( $\pi_\theta$ ): Gebruikt Policy Gradient (REINFORCE) met de retrospectieve scores als beloning. Acties die later als succesvol worden beoordeeld, krijgen een hogere kans.
- Update van het Interne Reflectiemodel ( $V_{\phi_i}$ ): Gebruikt Supervised Learning om de interne voorspellingen (voorafgaand aan uitvoering) te aligneren met de externe werkelijkheid (na uitvoering). Hierdoor leert het model beter te voorspellen welke acties goed zullen werken.
- Regularisatie: Om "catastrophic forgetting" te voorkomen, worden ook niet-geëxploreerde acties gebruikt om het model te stabiliseren.

Belangrijkste Bijdragen

Unificatie van Reflectiemodi: Het eerste raamwerk dat zowel reflection-in-action (intern simulatie/scoring) als reflection-on-action (extern evaluatie/model-updates) naadloos combineert voor embodied agents.
Retrospectieve Reflectie: Een mechanisme voor "double-loop learning" waarbij agents niet alleen leren van de uitkomst, maar ook de onderliggende oorzaken van fouten diagnosticeren en hun interne aannames corrigeren.
Nieuwe Benchmarks:
- Long-Horizon Household Benchmark: Gebaseerd op BEHAVIOR-1K, met taken die herstel van fouten vereisen (bijv. objecten in kisten passen, selectie van objecten, voorbereiding van maaltijden).
- MuJoCo Cupboard Fitting Benchmark: Een gecontroleerde omgeving om geometrische plaatsingsfouten te isoleren en te meten.
Efficiënte Test-Time Adaptatie: Demonstratie dat het updaten van modellen via LoRA (Low-Rank Adaptation) tijdens de uitvoering mogelijk is zonder dure retraining, met behoud van prestaties.

Resultaten

De methode is getest op de twee nieuwe benchmarks en vergeleken met state-of-the-art baselines (zoals Reflexion, PPO, DreamerV3, en 3D-LLM met geheugen).

Prestatieverbetering: Het model toont aanzienlijke winst ten opzichte van alle baselines.
- Op de Fitting-taken (objecten in kisten passen) bereikte het model een succesratio van 44,7%, vergeleken met slechts 10,6% voor de sterkste baseline (3DLLM-Mem) en 0% voor PPO.
- Op de Cupboard Fitting-taken werd een "fit rate" van 60,2% behaald met LoRA-based training.
Ablatiestudies:
- Zowel reflection-in-action als reflection-on-action zijn essentieel en complementair. Het verwijderen van een van beide leidt tot een drastische prestatiedaling (soms zelfs slechter dan het verwijderen van beide, omdat een onvolledige reflectie leidt tot oververtrouwen of inefficiënt leren).
- Het updaten van zowel het actiemodel als het interne reflectiemodel is noodzakelijk voor optimale resultaten.
Generalisatie: Het model toont robuustheid bij overdracht naar nieuwe omgevingen (zoals HM3D), waar het significant beter presteert dan baselines die vastlopen bij distributieveranderingen.
Real-robot Validatie: Kwalitatieve analyses met een fysieke Franka Panda-robot tonen aan dat het systeem in staat is om herhalende fouten te doorbreken en beslissingen te corrigeren op basis van reflectie.

Significantie en Impact

Dit werk markeert een verschuiving in de visie op embodied AI: van statische, vooraf getrainde agenten naar adaptieve systemen die tijdens de uitvoering leren.

Betrouwbaarheid: Door fouten te analyseren en het interne wereldmodel bij te werken, worden robots robuuster in ongestructureerde omgevingen (zoals huishoudens).
Efficiëntie: Hoewel de methode een extra rekenkosten (latency) introduceert (ongeveer 3x per stap), wordt dit gerechtvaardigd door het vermijden van kostbare fysieke fouten en het verminderen van herhaalde mislukkingen. De "tijd" die wordt besteed aan reflectie is investering in langetermijncompetentie.
Toekomst: Het biedt een pad naar veiligere en zelfcorrigerende robots die kunnen opereren in dynamische, menselijke omgevingen zonder constante menselijke tussenkomst of dure offline retraining.

Kortom, de paper bewijst dat het integreren van menselijke reflectiepatronen (intern simuleren en extern evalueren) in combinatie met test-time training, een krachtige oplossing biedt voor de beperkingen van huidige embodied LLMs.

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Het Probleem: De Robot die niet leert

De Drie Manieren van Nadenken

1. Reflectie in Actie (Vóór het doen)

2. Reflectie op Actie (Direct na het doen)

3. Retro-Reflectie (Terugkijken met het benefit van de achteruitkijkspiegel)

Waarom is dit zo cool?

Het Resultaat

Probleemstelling

Methodologie: Reflective Test-Time Planning

Belangrijkste Bijdragen

Resultaten

Significantie en Impact

Meer zoals dit

Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Skeleton-based Coherence Modeling in Narratives

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets