Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek, vertaald naar simpel Nederlands met behulp van creatieve vergelijkingen.

De Kernvraag: Vergeten robots hun oude vaardigheden?

Stel je voor dat je een robot leert om verschillende klusjes te doen. Eerst leert hij een kopje thee zetten. Daarna leert hij zijn schoenen aanbinden. Vervolgens leert hij een auto parkeren.

Het probleem bij robots (en ook bij ons brein) is het fenomeen "catastrofaal vergeten". Als de robot te hard zijn aandacht richt op het parkeren, kan het zijn dat hij plotseling vergeet hoe hij een kopje thee zet. Het nieuwe leren "overschrijft" het oude.

In de robotwereld probeerden wetenschappers dit op te lossen door de robot een herinneringsboek te geven (in de tech-taal: Experience Replay). Dit boek bevat een paar voorbeelden van de oude taken. Maar tot nu toe werkte dit alleen goed als je een enorme bibliotheek met herinneringen had. Als je maar een klein boekje gaf, vergat de robot alsnog snel zijn oude trucs.

De Ontdekking: Grote, vooraf getrainde modellen zijn "slimmer"

De auteurs van dit paper hebben iets verrassends ontdekt. Ze hebben gekeken naar de nieuwste, gigantische robot-robots (zogenaamde VLA-modellen, zoals GR00T en Pi0). Deze robots zijn niet vanaf nul opgeleid, maar zijn eerst "voorgelezen" op een enorme hoeveelheid internetbeelden, teksten en robotvideo's.

De ontdekking:
Deze grote, vooraf getrainde robots zijn verbazingwekkend goed in het niet vergeten.

De kleine robots (die vanaf nul beginnen) hebben een enorme bibliotheek nodig om niet te vergeten. Zonder die bibliotheek is het raak: ze vergeten alles.
De grote, vooraf getrainde robots hebben nauwelijks een bibliotheek nodig. Zelfs met een klein notitieboekje (slechts 2% van de data) vergeten ze bijna niets. Soms leren ze zelfs hun oude taken beter na het leren van nieuwe taken!

De Analogie: De "Alleskunner" vs. De "Leeghoofd"

Om dit te begrijpen, kunnen we twee studenten vergelijken:

De "Leeghoofd" (De kleine robot):
Deze student begint met een leeg hoofd. Als hij vandaag wiskunde leert, moet hij alles zelf uitvinden. Als hij morgen geschiedenis leert, moet hij zijn hoofd leegmaken om ruimte te maken. Omdat hij geen basis heeft, vervaagt de wiskunde snel als hij zich richt op geschiedenis. Hij heeft een enorme map met aantekeningen nodig om de oude stof te blijven herhalen.
De "Alleskunner" (De grote, vooraf getrainde robot):
Deze student is al een universitair professor voordat hij begint. Hij heeft al duizenden boeken gelezen over wiskunde, geschiedenis, taal en logica.
- Als hij nu een nieuwe taak krijgt (bijv. "koken"), hoeft hij niet alles opnieuw te leren. Hij past gewoon zijn bestaande kennis aan.
- Omdat zijn "basis" zo sterk is, blijft de oude kennis (wiskunde) stevig verankerd, zelfs als hij zich richt op koken.
- Het verrassende: Zelfs als het lijkt alsof hij de oude kennis een beetje kwijtraakt, is het er nog steeds. Het zit diep in zijn "onderbewustzijn". Als je hem een paar minuten laat oefenen, komt de kennis direct weer boven.

Wat betekent dit voor de toekomst?

De onderzoekers hebben drie belangrijke dingen ontdekt:

Pre-training is de sleutel: Het feit dat deze robots eerst op een enorme dataset zijn getraind, maakt ze van nature resistent tegen vergeten. Ze hoeven niet meer te "panikeren" om ruimte te maken voor nieuwe kennis.
Kleine herinneringen volstaan: Je hoeft geen enorme databases meer te bouwen om robots bij te houden. Een klein beetje herhaling is genoeg voor deze slimme modellen.
Het is niet echt weg: Soms lijkt een robot een taak te vergeten (de prestatie zakt), maar de kennis is er nog steeds. Het is alsof je een fietsrijden vergeten lijkt te zijn na 10 jaar niet te hebben gedaan, maar zodra je opstapt, zit het er weer in. Bij deze robots kun je die kennis met een paar klikken (finetuning) direct weer volledig activeren.

Conclusie

Vroeger dachten we dat robots continu moesten vechten tegen het vergeten, met enorme hoeveelheden data als wapen. Dit paper laat zien dat als je robots eerst goed "opvoedt" (pre-training) met veel kennis, ze van nature veel beter worden in het leren van nieuwe dingen zonder hun oude vaardigheden te verliezen.

Het is alsof je een robot niet meer als een lege doos ziet die je moet vullen, maar als een ervaren vakman die gewoon een nieuwe tool uit zijn gereedschapskist pakt, zonder de oude tools kwijt te raken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning", geschreven in het Nederlands.

1. Probleemstelling

Continu leren (Continual Learning - CL) is een langdurige uitdaging in robotica, waarbij een beleid (policy) nieuwe vaardigheden moet verwerven zonder eerder geleerde kennis catastrofisch te vergeten. Dit staat bekend als het stabiliteit-plasticiteit compromis: het vermogen om nieuwe taken te leren (plasticiteit) versus het behoud van oude kennis (stabiliteit).

Tot nu toe is onderzoek naar continu leren voornamelijk gefocust op kleine, van nul opgebouwde (from scratch) gedragsimitatie-modellen (Behavior Cloning - BC). Deze modellen lijden vaak onder ernstig vergeten en vereisen complexe oplossingen zoals grote replay-buffers of geavanceerde regularisatietechnieken (bijv. EWC).

De centrale vraag van dit paper is: Hoe gedragen moderne, groot-schalig voorgetrainde Vision-Language-Action (VLA) modellen zich in een continu leeromgeving? Gedragen ze zich anders dan de kleinere modellen waarvoor de huidige theorieën zijn ontwikkeld?

2. Methodologie

De auteurs hebben een uitgebreide empirische studie uitgevoerd om het gedrag van VLAs te vergelijken met traditionele BC-modellen.

Benchmarks: Het onderzoek gebruikt de LIBERO-benchmark suite (LIBERO-Spatial, LIBERO-Object, LIBERO-Goal, LIBERO-10), die bestaat uit sequentiële robotmanipulatiestaken.
Modellen:
- Pretrained VLAs: Pi0 (Black et al., 2026) en GR00T N1.5 (NVIDIA et al., 2025). Deze modellen zijn voorgetraind op enorme datasets van internetbeelden, tekst en robottrajecten.
- Baselines (Van nul opgebouwd): BC-Transformer, BC-Diffusion Policy en BC-ViT. Deze worden getraind zonder voorafgaande kennis, alleen op de specifieke robotdata.
Experimenteel Opzet:
- Continu Leren: Modellen leren 10 taken sequentieel. De parameters van checkpoint $i$ worden geinitialiseerd vanuit checkpoint $i-1$ .
- Experience Replay (ER): De belangrijkste methode die wordt getest. Bij het leren van een nieuwe taak wordt een klein subset van data uit eerdere taken (replay buffer) gemengd met de huidige trainingsdata.
- Variatie in Buffergrootte: Er wordt getest met verschillende buffergroottes (0,2%, 2% en 20% van de dataset per taak) om de robuustheid te meten.
- Ablatie-studies: Om de rol van pretraining te isoleren, vergelijken ze drie varianten van Pi0:
  1. Volledig voorgetraind (VL + Action data).
  2. Alleen voorgetraind op Vision-Language (zonder robotdata).
  3. Van nul opgebouwd (zelfde architectuur, geen pretraining).

3. Belangrijkste Bijdragen en Resultaten

A. VLA-modellen zijn verrassend resistent tegen vergeten

De belangrijkste bevinding is dat voorgetrainde VLAs, in tegenstelling tot kleine modellen, vermoeilijkend weinig vergeten zelfs met zeer kleine replay-buffers.

Resultaat: Met een buffer van slechts 2% van de data (100 samples per taak) bereiken VLAs zoals Pi0 en GR00T een Negative Backward Transfer (NBT) van bijna nul of zelfs negatief. Een negatieve NBT betekent dat het leren van nieuwe taken de prestaties op oude taken zelfs verbetert (positieve backward transfer).
Vergelijking: Kleine BC-modellen vertonen bij dezelfde buffergrootte (2%) een NBT van 0,4–0,5, wat wijst op ernstig vergeten. Ze hebben buffers van >20% nodig om vergelijkbare resultaten te bereiken.

B. De cruciale rol van Pretraining

De studie toont aan dat pretraining de dynamiek van continu leren fundamenteel verandert.

Ablatie: Een Pi0-model dat alleen is voorgetraind op Vision-Language (zonder robotdata) presteert al veel beter dan een model dat volledig van nul is opgebouwd.
Pareto-frontier: Er is een duidelijke trade-off tussen buffergrootte en vergeten. Voorgetrainde modellen liggen op een veel gunstiger frontier: ze behouden kennis bij minimale data, terwijl niet-voorgetrainde modellen snel vergeten zodra de buffer klein wordt.
Plasticiteit: Pretraining lost het stabiliteit-plasticiteit dilemma op. VLAs behouden niet alleen oude kennis, maar leren nieuwe taken ook sneller en beter dan modellen van nul.

C. Kennis is niet volledig verloren, maar "verborgen"

Zelfs wanneer de prestaties op een oude taak lijken te dalen (catastrofaal vergeten), is de onderliggende kennis in de interne representaties van het VLA-model vaak nog intact.

Snelle Herstel (Recovery): Als een model dat een taak lijkt te hebben vergeten, wordt gefinetuned met slechts een paar stappen op die specifieke taak, herstelt het zijn oorspronkelijke piekprestatie veel sneller dan bij de eerste training.
- Voorbeeld: Pi0 herstelt in <10% van de oorspronkelijke trainingsstappen. BC-Transformer heeft vaak evenveel of meer tijd nodig, wat aangeeft dat de kennis volledig is gewist en opnieuw moet worden geleerd.
Component Analyse: Door onderdelen van het model (VL-backbone vs. Action-head) te verwisselen, blijkt dat de VL-backbone de belangrijkste bron van vergeten is, maar dat deze kennis nog steeds aanwezig is en snel kan worden "ontgrendeld".

4. Significantie en Conclusie

Dit paper biedt een paradigmaverschuiving in het denken over continu leren in robotica:

Vereenvoudiging van Algoritmen: Voor grote, voorgetrainde VLAs zijn complexe continu-leeralgoritmen (zoals ingewikkelde regularisatie of enorme buffers) mogelijk niet langer nodig. Simpele Experience Replay met een zeer kleine buffer is vaak voldoende om catastrofisch vergeten te voorkomen.
Pretraining als Fundament: De schaal van pretraining is een kritieke factor. Het creëert een robuuste representatieruimte die minder gevoelig is voor interferentie bij het leren van nieuwe taken.
Toekomstige Richting: In plaats van te focussen op het vergroten van replay-buffers, moeten toekomstige onderzoeken zich richten op het effectief hergebruiken van de kennis die al in de VLA-representaties is opgeslagen.

Conclusie: Grote voorgetrainde Vision-Language-Action modellen vertonen een fundamenteel ander gedrag in continu leren dan kleinere modellen. Ze zijn inherent resistent tegen vergeten, wat hen ideaal maakt voor levenslang robotleren, mits er gebruik wordt gemaakt van eenvoudige replay-mechanismen.

Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

De Kernvraag: Vergeten robots hun oude vaardigheden?

De Ontdekking: Grote, vooraf getrainde modellen zijn "slimmer"

De Analogie: De "Alleskunner" vs. De "Leeghoofd"

Wat betekent dit voor de toekomst?

Conclusie

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen en Resultaten

A. VLA-modellen zijn verrassend resistent tegen vergeten

B. De cruciale rol van Pretraining

C. Kennis is niet volledig verloren, maar "verborgen"

4. Significantie en Conclusie

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA