Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: "Compose Your Policies!" – Een slimme manier om robots slimmer te maken zonder ze opnieuw te leren

Stel je voor dat je een robot wilt leren een taak uitvoeren, zoals een blikje van de tafel pakken of een kopje ophangen. Normaal gesproken moet je deze robot duizenden uren laten oefenen met duizenden voorbeelden, wat heel duur en tijdrovend is.

Deze paper introduceert een nieuwe, slimme truc: General Policy Composition (GPC). In plaats van de robot opnieuw te trainen, combineren we de "intuïtie" van verschillende robots die al goed zijn getraind, om er één super-robot van te maken.

Hier is hoe het werkt, uitgelegd met alledaagse vergelijkingen:

1. Het Probleem: De "Eenzame Expert"

Stel je hebt twee experts:

Expert A is een meester in het zien van kleuren en vormen (zoals een schilder), maar ziet diepte en afstand slecht.
Expert B is een meester in 3D-ruimte en afstanden (zoals een architect), maar ziet kleuren en details slecht.

Als je Expert A alleen laat werken, kan hij een blikje zien, maar hij mist de diepte en stoot er tegenaan. Als je alleen Expert B gebruikt, weet hij waar het blikje is, maar hij kan het niet goed grijpen omdat hij de textuur niet ziet.

2. De Oplossing: Het "Panel van Experts"

De auteurs zeggen: "Waarom kiezen we? Laten we ze samen laten werken!"

GPC is als een vergadering van experts die beslissen wat de robot moet doen.

In plaats van dat de robot zelf leert, laten we de robot op het moment van uitvoeren (tijdens het werk) luisteren naar beide experts tegelijk.
Ze geven elk een mening over de beste beweging.
De robot neemt een gemiddelde van deze meningen. Als Expert A zegt "ga naar links" en Expert B zegt "ga naar rechts", en ze zijn beide niet 100% zeker, dan kan de combinatie van hun meningen leiden tot een perfecte beweging "naar voren".

3. De Magie: Waarom werkt dit?

Het klinkt misschien logisch, maar de paper bewijst wiskundig dat dit niet zomaar een gemiddelde is. Het is als het samenvoegen van twee imperfecte kaarten.

Vergelijking: Stel je voor dat je twee oude, vervaagde kaarten hebt van dezelfde stad. Op kaart 1 is de weg naar het centrum vaag, maar de weg naar het station is duidelijk. Op kaart 2 is het omgekeerd. Als je de twee kaarten op elkaar legt en de lijnen combineert, krijg je plotseling een perfecte, scherpe kaart die beter is dan elk van de twee originele kaarten apart.
De robot gebruikt deze "perfecte kaart" om zijn bewegingen te plannen. Het resultaat is dat de gecombineerde robot vaak slimmer is dan de beste van de twee individuele experts.

4. Hoe kiezen we wie er meer mag zeggen? (De Weegschaal)

Niet alle experts zijn even goed voor elke taak.

Voor het taakje "blikje pakken" is Expert A misschien 70% zeker en Expert B 30%.
Voor "kopje ophangen" is Expert B misschien 80% zeker en Expert A 20%.

GPC heeft een slimme manier om dit te regelen. Het zoekt op het moment van uitvoeren even uit: "Welke combinatie van meningen werkt het beste voor deze specifieke situatie?" Het is alsof je een mixer hebt: je draait de knop voor Expert A iets harder op als hij het beter weet, en Expert B iets zachter, zodat het eindresultaat altijd perfect is.

5. Waarom is dit zo cool?

Geen extra training nodig: Je hoeft de robot niet maandenlang te laten oefenen. Je gebruikt gewoon robots die al bestaan en combineert ze.
Mix & Match: Je kunt een robot die alleen naar beelden kijkt combineren met een robot die naar 3D-punten kijkt, of een robot die alleen naar bewegingen kijkt met een die ook taal begrijpt. Alles werkt samen.
Beter dan het origineel: Vaak doet de gecombineerde robot het beter dan de beste enkele robot. Het is alsof je twee goede spelers samenbrengt in een team dat onverslaanbaar is.

Conclusie

Deze paper laat zien dat we robots niet altijd hoeven te "leren" door ze duizenden uren te laten oefenen. In plaats daarvan kunnen we hun bestaande kennis combineren, net als het samenvoegen van verschillende gerechten tot een heerlijk gerecht dat beter smaakt dan de losse ingrediënten. Het is een snelle, goedkope en slimme manier om robots slimmer te maken voor de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "COMPOSE YOUR POLICIES! IMPROVING DIFFUSION-BASED OR FLOW-BASED ROBOT POLICIES VIA TEST-TIME DISTRIBUTION-LEVEL COMPOSITION", gepubliceerd bij ICLR 2026.

Probleemstelling

Diffusie-gebaseerde modellen (zoals Diffusion Policies) en flow-matching modellen hebben zich bewezen als krachtige methoden voor robotbesturing, vooral in Vision-Language-Action (VLA) en Vision-Action (VA) scenario's. Ze kunnen complexe, multi-modale actie-distributies modelleren. Echter, hun vooruitgang wordt fundamenteel beperkt door twee factoren:

Data-knelpunten: Het verzamelen van grote schaal interactie-datasets is extreem kostbaar en tijdrovend.
Modelcapaciteit: Het vergroten van de modelarchitectuur om de prestaties te verbeteren vereist vaak nog meer data.
Traditionele post-training strategieën, zoals Supervised Fine-Tuning (SFT) of Reinforcement Learning (RL), brengen hun eigen uitdagingen met zich mee: SFT vereist nieuwe, dure datacollectie, terwijl RL complexiteit introduceert in het ontwerpen van beloningssystemen en extensive online interactie vereist. Er is behoefte aan een methode om bestaande, voorgeïmplementeerde beleidsmodellen (policies) te verbeteren zonder extra training.

Methodologie: General Policy Composition (GPC)

De auteurs introduceren General Policy Composition (GPC), een trainingsvrij (training-free) raamwerk dat de prestaties van robots verbetert door de distributiescores van meerdere voorgeïmplementeerde modellen te combineren tijdens de inferentie (test-time).

Kernprincipes:

Convex Score Compositie: In plaats van de modellen te fusioneren op architecturaal niveau, combineert GPC de scores (de gradiënten van de log-dichtheid) van verschillende modellen. Voor een diffusieproces wordt de update-regel van een gecombineerd beleid $\hat{s}_{comp}$ gedefinieerd als een convexe combinatie van de scores van individuele beleidsmodellen $s_i$ :
$\hat{s}_{comp}(\tau_t, t, c) = \sum_{i=1}^n w_i s_\theta(\tau_t, t, c_i)$
waarbij $\sum w_i = 1$ en $w_i \geq 0$ . Hierbij vertegenwoordigen $c_i$ verschillende condities (bijv. verschillende visuele modaliteiten zoals RGB vs. Point Cloud, of verschillende modelarchitecturen).
Test-time Zoekstrategie: De optimale gewichten ( $w^*$ ) zijn niet universeel maar taakafhankelijk. GPC voert een zoektocht uit over de gewichten tijdens de inferentie (bijvoorbeeld door te scannen van $w=0.0$ tot $1.0 $in stappen van$ 0.1$) om de combinatie te vinden die de hoogste succesratio oplevert voor een specifieke taak.
Universaliteit: Het framework is ontworpen om heterogene modellen te combineren, ongeacht of ze gebaseerd zijn op diffusie of flow-matching, en ongeacht of ze VA (Vision-Action) of VLA (Vision-Language-Action) zijn. Het maakt ook compositie mogelijk tussen modellen met verschillende voorspellingstypen (bijv. noise prediction vs. data prediction) door deze eerst naar een gemeenschappelijke score-representatie te converteren.

Theoretische Onderbouwing

Het paper biedt een wiskundige onderbouwing waarom deze methode werkt:

Functie-niveau verbetering (Propositie 4.1): Het wordt aangetoond dat een convexe combinatie van scoreschatters een lagere gemiddelde kwadratische fout (MSE) kan hebben dan elk individueel model, mits de fouten van de modellen niet perfect gecorreleerd zijn. De "ware" score ligt vaak dichter bij een gewogen gemiddelde dan bij een enkel model.
Systeem-niveau stabiliteit (Propositie 4.2): Met behulp van een Grönwall-type ongelijkheid wordt bewezen dat een verbetering in de score-functie (op elk tijdstap) leidt tot een gebonden verbetering in de totale traject-fout. De fout in het gegenereerde pad groeit maximaal exponentieel met de Lipschitz-constanten, maar is direct begrensd door de geïntegreerde score-fout.
Conclusie: Als de convexe combinatie de score-fout verkleint, verkleint dit ook de theoretische bovengrens van de sampling-fout over het hele traject.

Resultaten

GPC werd uitgebreid getest in simulatie en in de echte wereld op diverse benchmarks:

Simulatie Benchmarks:
- Robomimic & PushT: GPC toonde consistente verbeteringen ten opzichte van de basisbeleidsmodellen. Bijvoorbeeld, het combineren van een VLA-model (Florence) en een VA-model (Diffusion Policy) resulteerde in een gemiddelde stijging van +5.51% in succesratio.
- RoboTwin (Tweearmig): Op deze complexe taakset toonde GPC verbeteringen tot +7% ten opzichte van de beste individuele basisbeleidsmodellen. Het combineren van RGB-gebaseerde en Point Cloud-gebaseerde modellen (DPimg + DPpcd) leverde een +5% verbetering op, wat aantoont dat complementaire sensorische informatie effectief wordt benut.
Echte Wereld Experimenten:
- Experimenten met een Piper-robot op taken zoals "Place Bottles", "Hang Mug", "Clean Table" en "Punch Holes" bevestigden de simulatieresultaten. GPC presteerde consistent beter dan de individuele beleidsmodellen, met successraten die vaak 10-20% hoger lagen dan de zwakste basis en vaak ook beter dan de sterkste basis.
Analyse van Gewichten:
- De studie toonde aan dat de optimale gewichtverdeling taakafhankelijk is. Wanneer één beleid significant beter presteert, moet dit een hoger gewicht krijgen (>0.5) om het beste resultaat te behalen.
- GPC werkt ook effectief met alternatieve compositie-operatoren zoals "Logisch AND" en "Logisch OR", hoewel de convexe combinatie het meest robuust bleek.

Belangrijke Bijdragen

Theoretisch Fundament: Het eerste bewijs dat convexe compositie van distributiescores leidt tot een strikt betere functionele doelstelling en dat dit voordeel zich door de gehele generatietrajecten voortplant via stabiliteitsgaranties.
General Policy Composition (GPC): Een flexibel, trainingsvrij framework dat heterogene modellen (diffusie/flow, VA/VLA, verschillende modaliteiten) kan combineren zonder de onderliggende modellen aan te passen.
Empirische Validatie: Uitgebreide experimenten die aantonen dat GPC consistent prestatieverbeteringen levert in zowel simulatie als de echte wereld, met een focus op de mechanica van waarom en wanneer compositie werkt.

Betekenis en Impact

Dit werk biedt een nieuwe paradijgmatische aanpak voor robotleren: in plaats van het trainen van steeds grotere en duurdere modellen, kunnen bestaande, gespecialiseerde beleidsmodellen worden "samengesteld" tot een superieur systeem.

Kostenefficiëntie: Het elimineert de noodzaak voor dure datacollectie en hertraining.
Veelzijdigheid: Het maakt het mogelijk om de sterke punten van verschillende modellen (bijv. de ruimtelijke precisie van point-cloud modellen en de semantische begrip van VLA-modellen) te combineren.
Toekomstperspectief: GPC legt de basis voor modulair robotleren, waarbij nieuwe vaardigheden en modaliteiten eenvoudig kunnen worden geïntegreerd in bestaande systemen via compositie in plaats van hertraining. Dit is een cruciale stap richting robuuste, schaalbare en aanpasbare robotbesturing.

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

1. Het Probleem: De "Eenzame Expert"

2. De Oplossing: Het "Panel van Experts"

3. De Magie: Waarom werkt dit?

4. Hoe kiezen we wie er meer mag zeggen? (De Weegschaal)

5. Waarom is dit zo cool?

Conclusie

Probleemstelling

Methodologie: General Policy Composition (GPC)

Theoretische Onderbouwing

Resultaten

Belangrijke Bijdragen

Betekenis en Impact

Meer zoals dit

XConv: Low-memory stochastic backpropagation for convolutional layers

A Survey on Decentralized Federated Learning

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Provable Filter for Real-world Graph Clustering

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps