ICLR: In-Context Imitation Learning with Visual Reasoning

Each language version is independently generated for its own context, not a direct translation.

ICLR: De "Denk Eerst, Doe Dan"-Robot

Stel je voor dat je een robot wilt leren om een nieuwe taak uit te voeren, zoals het oppakken van een knuffel en het in een doosje leggen. Normaal gesproken moet je die robot duizenden keren laten oefenen, of je moet hem heel precies uitleggen wat hij moet doen. Dat is tijdrovend en saai.

De onderzoekers van dit paper (ICLR) hebben een slimme oplossing bedacht. Ze noemen hun methode ICLR, wat staat voor In-Context Imitation Learning with Visual Reasoning. Laten we dit uitleggen met een paar leuke vergelijkingen.

1. Het Probleem: De Robot die alleen kijkt, maar niet denkt

Stel je voor dat je een robot een video laat zien van iemand die een dumpling (een Chinese vulling) pakt en in een rode doos legt.

De oude robots kijken alleen naar de bewegingen: "Hand gaat naar dumpling, hand pakt dumpling, hand gaat naar doos." Ze kopiëren de bewegingen letterlijk.
Het probleem: Als de situatie verandert (bijvoorbeeld: er staat nu ook een rode bal in de weg, of de doos staat op een andere plek), raken deze robots in de war. Ze weten niet waarom de mens die beweging maakte. Ze zien alleen wat er gebeurde, niet wat er in het hoofd van de mens speelde.

2. De Oplossing: De "Gedachtegang" van de Robot

De onderzoekers hebben een nieuw idee: laat de robot niet alleen de bewegingen kopiëren, maar ook de gedachten kopiëren.

Ze gebruiken een trucje dat lijkt op hoe mensen werken. Als jij iemand ziet een dumpling pakken, denk jij misschien: "Oké, eerst moet ik naar de dumpling gaan, dan vastpakken, dan naar de rode doos gaan, en dan loslaten."

Deze robot doet precies hetzelfde, maar dan visueel:

De "Gedachte" (Visual Reasoning): Voordat de robot een beweging maakt, tekent hij in zijn hoofd een lijn in de lucht. Hij "ziet" voor zich waar de grijper van de robot over een paar seconden zal zijn. Dit is als een GPS-route die de robot voor zichzelf tekent voordat hij begint te rijden.
De "Actie": Pas nadat hij die route heeft getekend in zijn hoofd, voert hij de daadwerkelijke beweging uit.

3. Hoe werkt het in de praktijk? (De Analogie van de Dansles)

Stel je voor dat je danslessen neemt.

Oude methode: Je kijkt naar de leraar en probeert exact dezelfde beenbewegingen na te bootsen. Als de leraar een stap naar links maakt, maak jij ook een stap naar links. Als de leraar struikelt, struikel jij ook.
Nieuwe methode (ICLR): De leraar zegt niet alleen "beweeg je been", maar hij denkt hardop: "Ik ga nu naar links omdat daar de muziek begint, en ik ga mijn arm omhoog om balans te houden."
De robot doet dit ook. Hij "denkt" eerst: "Ik moet naar het dumpling gaan, want dat is het doel." Hij tekent die route in zijn hoofd (de visuele redenering). Pas daarna beweegt hij zijn arm.

Dit helpt de robot om te begrijpen dat als er een obstakel in de weg staat, hij misschien een andere route moet nemen, maar het doel (de dumpling in de doos) hetzelfde blijft.

4. Waarom is dit zo slim?

De onderzoekers hebben getest of dit werkt in een virtuele wereld (simulatie) en in de echte wereld met een echte robotarm.

Resultaat: De robots met deze "denk-eerst-methode" waren veel beter in het oplossen van nieuwe puzzels dan robots die alleen bewegingen nabootsten.
De "Dropout"-truc: Interessant genoeg ontdekten ze dat de robot soms zelfs beter werkt als hij niet de route in zijn hoofd tekent, maar die route wel heeft geleerd te begrijpen tijdens het oefenen. Het is alsof je een fietsrijder bent die de route uit zijn hoofd kent; je hoeft niet meer te kijken naar de weg, je rijdt gewoon. Maar in de echte, chaotische wereld (met echte objecten die verschuiven) werkt het het beste als de robot wel blijft nadenken en zijn route blijft tekenen voordat hij beweegt.

Samenvatting

Kortom, dit paper introduceert een robot die niet alleen een "apen" is die bewegingen kopieert, maar een "denker" is die begrijpt waarom hij iets doet.

Oude robots: "Ik zie hand gaan naar links, dus ik ga naar links."
Nieuwe robot (ICLR): "Ik zie dat de doos links staat, dus ik teken eerst een lijn naar links in mijn hoofd, en dan beweeg ik mijn hand daarheen."

Door die extra stap van "visueel nadenken" (het tekenen van de lijn in de lucht) worden robots veel slimmer, flexibeler en beter in het aanpassen aan nieuwe situaties, net als een mens die niet alleen kijkt, maar ook begrijpt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "In-Context Imitation Learning with Visual Reasoning" (ICLR) in het Nederlands.

Titel: In-Context Imitation Learning with Visual Reasoning (ICLR)

Auteurs: Toan Nguyen, Weiduo Yuan, Songlin Wei, Hui Li, Daniel Seita, Yue Wang (USC & Autodesk Research)
Publicatie: ICLR 2026 (voorgesteld)

1. Het Probleem

Robotica staat voor een groot uitdaging: datascarciteit. Het verzamelen van grote hoeveelheden demonstratiegegevens voor robotmanipulatie in de echte wereld is arbeidsintensief, tijdrovend en kan veiligheidsrisico's met zich meebrengen.

Contextueel Imitatieleren (In-Context Imitation Learning): Een veelbelovende aanpak waarbij robots nieuwe taken leren van een klein aantal demonstraties zonder extra training. Het model past zich aan op basis van "prompt-demonstraties" (state-action paren).
De Beperking: Bestaande methoden conditioneren alleen op staten (proprioceptie en camera-beelden) en acties. Ze missen een expliciete representatie van de taakintentie of het redeneerproces.
De Gevolgen: In complexe of ambiguë omgevingen (bijv. veel objecten, meerdere mogelijke doelen) kunnen dezelfde acties leiden tot verschillende intenties. Zonder expliciet redeneren faalt het model vaak omdat het alleen oppervlakkige actie-imitatie leert in plaats van het onderliggende doel te begrijpen.

2. Methodologie: ICLR

De auteurs stellen ICLR (In-Context Imitation Learning with Visual Reasoning) voor, een raamwerk dat visueel redeneren integreert in het imitatieleren.

A. Visuele Redeneersporen (Visual Reasoning Traces)

In plaats van alleen staten en acties te gebruiken, worden demonstraties verrijkt met visuele redeneersporen.

Definitie: Dit zijn gestructureerde traces die de verwachte toekomstige trajecten van de robot in beeldruimte (image space) voorstellen.
Format: Een polylijn bestaande uit 5 punten die de positie van de grijper in de pixelruimte van een derde-persoons camera aangeven. Deze punten corresponderen met de fasen van een taak (bijv. bewegen naar object, grijpen, vervoeren, plaatsen).
Generatie: In simulatie wordt dit berekend via 3D-positie en camera-parameters. In de echte wereld wordt een Vision-Language Model (VLM), specifiek Molmo2, gebruikt om de grijperpositie te detecteren op basis van de commando "Point to the robot gripper".

B. Model Architectuur

Het model is gebaseerd op een autoregressieve Transformer (vergelijkbaar met ICRT en Llama2-stijl).

Input: De input bestaat uit een geïnterleaved sequentie van:
1. State-tokens (gecodeerde camera-beelden en proprioceptie).
2. Reasoning-tokens (de visuele traces).
3. Action-tokens (de robotacties).
Training: Het model leert om eerst de volgende visuele trace te voorspellen, gevolgd door de bijbehorende actie.
- Verliesfunctie: Een gecombineerde loss: $L = L_{action} + 0.3 \times L_{reasoning}$ .
- Regularisatie: Tijdens het training worden willekeurige reasoning-tokens gemaskerd (random masking) om te voorkomen dat het model te afhankelijk wordt van de gegenereerde traces. Dit zorgt voor robuustheid als de traces imperfect zijn.
Inferentie:
- Het model genereert eerst een visuele trace op basis van de prompt en de huidige staat.
- Vervolgens wordt de actie voorspeld op basis van die trace.
- Reasoning Dropout: Een variant waarbij het model tijdens training leert redeneren, maar tijdens inferentie de trace-slag overslaat (vervangt door een nul-vector) om de trace te "internaliseren".

3. Belangrijkste Bijdragen

Nieuw Framework: Introductie van ICLR, dat expliciete, embodied visuele redenering integreert in prompt-demonstraties en beleidsinferentie.
Unificatie: Het model leert zowel het redeneerproces als de lage-niveau acties in één enkel autoregressief raamwerk na te bootsen.
Uitgebreide Evaluatie: Systematische benchmarking in zowel simulatie (LIBERO) als de echte wereld, inclusief ablatiestudies en analyse van verschillende prompt-configuraties.

4. Resultaten

Simulatie (LIBERO-Object & LIBERO-90)

Prestaties: De ICLR-modellen (zowel de volledige versie als de dropout-versie) presteerden consistent beter dan de state-of-the-art baseline (ICRT) en andere methoden.
Verrassende bevinding: In de simulatie presteerde de Dropout-variant (zonder generatie van traces tijdens inferentie) vaak het beste. De auteurs verklaren dit doordat de simulatie-omgevingen relatief klein variëren, waardoor het model het redeneerproces kan "internaliseren" zonder de onnauwkeurigheden van gegenereerde traces te hoeven verwerken.

Echte Wereld (Franka Panda Robot)

Opdrachten: Prikken (poking) en oppakken/plaatsen (pick-and-place) met nieuwe objecten en configuraties.
Prestaties: Hier presteerde de volledige ICLR-variant (met actieve trace-generatie) significant beter dan de dropout-variant en alle baselines.
Reden: De echte wereld kent veel meer variatie en complexiteit dan simulatie. Expliciete visuele redenering is hier cruciaal om de taakintentie correct te begrijpen en acties te sturen.
Efficiëntie: Experimenten met "reasoning intervals" (redeneren elke 8, 16, 32 stappen) toonden aan dat het redeneren elke 8 stappen bijna even goed presteert als volledige redenering, maar 8x sneller is.

Foutanalyse

Fouten in visuele traces (bijv. naar het verkeerde object wijzen) waren niet de primaire oorzaak van falen. De meeste fouten kwamen voort uit uitvoeringsproblemen (grijpen of plaatsen). Dit bevestigt dat het redeneercomponent effectief de intentie vastlegt, maar dat de uitvoering (low-level control) nog verbeterd kan worden.

5. Betekenis en Conclusie

Het paper demonstreert dat het integreren van embodied visuele redenering een veelbelovende richting is voor robuust en generaliserend robotleren.

Generalisatie: ICLR toont superieure generalisatie naar ongezette taken en nieuwe objectconfiguraties.
Interpreteerbaarheid: De gegenereerde visuele traces bieden inzicht in het "gedachteproces" van de robot, wat helpt bij het analyseren van fouten.
Toekomst: De auteurs wijzen op de potentie om dit uit te breiden naar meer complexe taken, verschillende robotlichamen en het gebruik van menselijke video-demonstraties.

Kortom, ICLR bewijst dat robots niet alleen moeten leren wat ze moeten doen (acties), maar ook waarom ze het doen (redenering), wat essentieel is voor succes in complexe, onvoorspelbare omgevingen.