SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om complexe taken te doen, zoals een vaatwasser inladen of een flesje overhandigen. Je doet dit door de robot te laten kijken naar video's van een mens die het goed doet. Dit noemen we "Imitatie Leren".

Deze paper introduceert een nieuwe, slimme manier om die robot te trainen, genaamd SeedPolicy. Hier is de uitleg in gewone taal, met een paar leuke vergelijkingen.

Het Probleem: De "Korte Aandacht" van Robots

Vroeger hadden robots een groot probleem: ze hadden een heel kort geheugen.

De Vergelijking: Stel je voor dat je een film kijkt, maar je mag alleen naar de laatste 3 seconden kijken. Als je probeert te raden wat er nu gebeurt, is dat lastig. Als de film langer duurt (bijvoorbeeld een hele taak van 1 minuut), raken de oude robots in de war. Ze vergeten wat ze 10 seconden geleden deden.
Het Paradox: De onderzoekers ontdekten iets raars: hoe langer ze de robot lieten kijken naar het verleden (meer beelden), hoe slechter de robot het deed. Het was alsof je een boek probeert te lezen, maar je houdt te veel bladzijden tegelijk voor je gezicht, waardoor je de tekst niet meer kunt zien. De robot raakte overbelast door "ruis" (onbelangrijke beelden) en vergat de belangrijke momenten.

De Oplossing: SeedPolicy (De Slimme Regisseur)

De auteurs hebben een nieuwe techniek bedacht, SeedPolicy, die dit probleem oplost. Ze gebruiken een module die SEGA heet (Self-Evolving Gated Attention).

Laten we SEGA uitleggen met een vergelijking:

1. De "Time-Evolving Latent State" (Het Slimme Dagboek)
In plaats van dat de robot elke seconde een nieuwe foto van het verleden moet onthouden (wat veel ruimte kost), heeft de robot nu een digitaal dagboek.

Hoe het werkt: Elke keer als er iets nieuws gebeurt, schrijft de robot dit niet letterlijk op, maar samenvat hij het in zijn dagboek.
De Analogie: Stel je voor dat je een lange reis maakt. In plaats van elke foto die je maakt op te slaan, schrijf je elke avond één zin in je dagboek: "Vandaag hebben we de berg beklommen." De volgende dag lees je dat zinnetje, en dan weet je nog steeds waar je was, zonder dat je duizenden foto's hoeft te bekijken. Dit houdt het geheugen klein en snel.

2. De "Self-Evolving Gate" (De Deurwachter)
Dit is het slimste deel. Niet alles wat er gebeurt is belangrijk. Soms beweegt de camera een beetje, of loopt er een kat langs. Dat is "ruis".

Hoe het werkt: SEGA heeft een deurwachter (een poort). Deze deurwachter kijkt naar alles wat er gebeurt en zegt: "Is dit belangrijk voor de taak?"
- Als de robot een blokje vastpakt: JA, slaan we dit op in het dagboek.
- Als de robot even stilstaat of de achtergrond beweegt: NEE, dit wordt genegeerd.
Het resultaat: De robot wordt niet afgeleid door onbelangrijke dingen. Hij houdt zich alleen bezig met de echte actie.

Waarom is dit zo goed?

De onderzoekers hebben dit getest op 50 verschillende taken, van simpele tot hele moeilijke (zoals blokken stapelen of flessen overhandigen).

Lange taken worden makkelijker: Waar de oude robots faalden bij lange taken (omdat ze het verleden vergaten), wordt SeedPolicy juist beter naarmate de taak langer duurt. Het is alsof de robot een beter geheugen krijgt naarmate hij meer ervaring opdoet.
Het is slim én snel: Er zijn andere robots die "gigantische hersenen" hebben (miljarden parameters, zoals grote AI-modellen die alles op internet hebben gelezen). SeedPolicy doet het bijna net zo goed, maar met 10 tot 100 keer minder rekenkracht.
- Vergelijking: Het is alsof SeedPolicy een slimme, ervaren kok is die met een klein keukenmes perfect kan koken, terwijl de andere robots gigantische, dure machines gebruiken die veel stroom verbruiken.
Het werkt in de echte wereld: Ze hebben het ook getest op een echte robotarm. De oude robots bleven vaak steken (bijvoorbeeld: "Ik heb het blok al gepakt, maar ik zie het er nog steeds staan, dus ik doe niets"). SeedPolicy wist: "Nee, ik heb het al gepakt, ik ga nu door met de volgende stap."

Samenvatting in één zin

SeedPolicy is als het geven van een slim dagboek en een scherpe deurwachter aan een robot: het helpt hem om het verleden te onthouden zonder in de war te raken, en zorgt dat hij zich alleen focust op wat echt belangrijk is, waardoor hij zelfs de langste en moeilijkste taken kan voltooien.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation" in het Nederlands.

Probleemstelling

Imitatielearning (IL) heeft robots in staat gesteld om manipulatievaardigheden te leren uit expertdemonstraties. Diffusion Policy (DP) is een toonaangevende methode die multi-modale expertgedragingen modelleert en uitstekende prestaties levert. Echter, het paper identificeert een kritieke beperking: de prestaties van standaard Diffusion Policies verslechteren paradoxaal genoeg naarmate de observatiehorizon (het aantal opgeslagen frames) toeneemt.

De auteurs stellen dat dit komt doordat standaard DP-modellen observaties behandelen als een simpele stapel van beeldframes. Dit faalt om complexe temporale afhankelijkheden te vangen, vooral bij lange taken. Bovendien introduceert het toevoegen van meer frames vaak irrelevante informatie (zoals achtergrondbewegingen of occlusies), wat het historisch verband "vervuilt". Bestaande oplossingen met aandacht (attention) hebben een kwadratische rekentijd die niet schaalbaar is voor real-time robotica, en ze filteren niet actief ruis uit de tijdsreeks.

Methodologie: SeedPolicy en SEGA

Om dit probleem op te lossen, introduceren de auteurs SeedPolicy (Self-Evolving Diffusion Policy), gebaseerd op een nieuw tijdsmodule genaamd Self-Evolving Gated Attention (SEGA).

De kern van de methode bestaat uit de volgende componenten:

Zelf-evoluerende Latente Toestand:
In plaats van een vaste venster van frames te gebruiken, onderhoudt SEGA een tijd-evoluerende latente toestand ( $S_t$ ). Deze toestand wordt recursief bijgewerkt en comprimeert de volledige historische context in een vaste grootte representatie. Dit maakt het mogelijk om lange horizons te verwerken zonder dat de rekentijd exponentieel toeneemt.
Dual-Stream Transformer Architectuur:
SEGA gebruikt een parallelle dual-stream ontwerp:
- State Update (Bovenste stroom): Integreert nieuwe sensorische informatie in de bestaande latente toestand.
- State Retrieval (Onderste stroom): Gebruikt de historische context om de huidige waarneming te verrijken met relevante tijdsgebonden aanwijzingen.
Zelf-evoluerende Poort (Self-Evolving Gate - SEG):
Een cruciale innovatie is de poortmechanisme die dynamisch ruis filtert. In tegenstelling tot traditionele poorten, gebruikt SEG de cross-attention kaarten (de aandachtsscores tussen de huidige observatie en de historische toestand) als "relevantiesignalen".
- Als de aandachtsscore laag is (wat wijst op irrelevante informatie zoals achtergrondverschuivingen), wordt het signaal onderdrukt.
- Alleen semantisch relevante informatie wordt geïntegreerd in de latente toestand.
- Dit zorgt voor temporale sparsiteit, waardoor de robot zich kan focussen op wat echt belangrijk is voor de taak.
Integratie met Diffusion Policy:
De verrijkte observatiekenmerken ( $EObst$ ) die uit SEGA komen, worden ingevoerd in een Diffusion Action Expert (een transformer-gebaseerd diffusiemodel) dat een reeks toekomstige acties genereert.

Belangrijkste Bijdragen

SEGA Module: Een tijdsmodule die aandacht combineert met een dynamisch poortmechanisme om een compacte, evoluerende latente toestand te onderhouden. Dit vangt lange-termijn afhankelijkheden op terwijl irrelevante tijdsstoringen worden gefilterd.
Horizon Scaling: SeedPolicy keert het negatieve trendpatroon van eerdere diffusion policies om: de prestaties verbeteren consistent naarmate de observatiehorizon groter wordt, in plaats van te verslechteren.
Efficiëntie en Schaalbaarheid: SeedPolicy bereikt state-of-the-art prestaties met aanzienlijk minder parameters (1-2 orde van grootte minder) dan grote Vision-Language-Action (VLA) modellen zoals RDT (1.2B parameters), terwijl het toch concurrerend presteert.

Resultaten

De methode is getest op de RoboTwin 2.0 benchmark met 50 manipulatie-taken en op een echte robot (Dexmal Dos W1).

Prestatieverbetering:
- In schone omgevingen ("Easy"): 36,8% relatieve verbetering ten opzichte van standaard Diffusion Policy (DP).
- In uitdagende, gerandomiseerde omgevingen ("Hard"): 169% relatieve verbetering.
- SeedPolicy presteert beter dan DP en andere IL-baselines in 45 van de 50 taken (met Transformer-backbone).
Lange-Horizon Taken:
- De prestatiekloof tussen SeedPolicy en de baseline wordt groter naarmate de taaklengte toeneemt. Bij lange taken (meer dan 1000 stappen) behoudt SeedPolicy robuuste prestaties, terwijl baselines vaak vastlopen of falen door contextverlies.
Robuustheid:
- SeedPolicy lost problemen op zoals executiestagnatie (de robot blijft stilstaan omdat de huidige waarneming lijkt op een eerdere toestand) en ruimtelijke onnauwkeurigheid (bijv. "air grabs" door gebrek aan dieptekennis). Door de historische context te onthouden, kan de robot onderscheid maken tussen identieke beelden in verschillende fasen van een taak.
Efficiëntie:
- SeedPolicy (Transformer variant) heeft slechts 33,36 miljoen parameters, vergeleken met 1,2 miljard voor RDT, maar levert vergelijkbare of betere resultaten op specifieke manipulatie-taken.

Betekenis en Impact

Dit paper is significant omdat het een fundamentele bottleneck in imitatielearning voor robotica oplost: het vermogen om lange-termijn taken succesvol uit te voeren zonder dat de rekenkosten of het ruisniveau onbeheersbaar worden.

Schaalbaarheid: Het bewijst dat robots kunnen leren van langere observatievensters, wat essentieel is voor complexe, multi-stap taken.
Efficiëntie: Het toont aan dat gespecialiseerde, efficiënte architecturen (SeedPolicy) kunnen concurreren met enorme foundation modellen, wat de weg vrijmaakt voor implementatie op resource-beperkte randapparatuur (edge devices).
Toekomstige Richting: De auteurs suggereren dat de SEGA-module in de toekomst kan worden geïntegreerd in Vision-Language-Action (VLA) architecturen om nog betere generalisatie in open-wereld scenario's te bereiken.

Kortom, SeedPolicy biedt een nieuwe, schaalbare en robuuste aanpak voor robotmanipulatie die de beperkingen van huidige diffusion policies overwint door slimme tijdsmodellering en dynamische ruisfiltering.

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Het Probleem: De "Korte Aandacht" van Robots

De Oplossing: SeedPolicy (De Slimme Regisseur)

Waarom is dit zo goed?

Samenvatting in één zin

Probleemstelling

Methodologie: SeedPolicy en SEGA

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers