Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren een taak uitvoeren, zoals het openen van een kast of het oppakken van een banaan. De beste manier om dit te doen, is door de robot te laten kijken naar video's van mensen die de taak perfect uitvoeren. Dit noemen we "leren van demonstraties".

Maar hier zit een probleem: niet alle video's zijn goed. Soms maakt de mens een foutje, soms is de camera te wazig, en soms is de mens gewoon een beetje slordig. Als je de robot al die video's (zowel de goede als de slechte) laat zien, leert hij de verkeerde dingen en wordt hij onbetrouwbaar.

De meeste mensen proberen dit op te lossen door kwaliteit boven kwantiteit te kiezen: ze kijken handmatig naar alle video's en selecteren alleen de beste. Dit is echter extreem tijdrovend, duur en vaak gebaseerd op een "buikgevoel" (wat niet altijd klopt).

Dit paper introduceert een slimme nieuwe methode genaamd QoQ (Quality over Quantity). Hier is hoe het werkt, uitgelegd in simpele taal:

1. Het Probleem: De "Slechte Koffie"

Stel je voor dat je een barista wilt trainen om de perfecte koffie te zetten. Je geeft hem 100 recepten.

60 recepten zijn perfect.
40 recepten hebben een fout (te veel suiker, verkeerde temperatuur).

Als je de barista alle 100 recepten laat oefenen, gaat hij de fouten ook leren. De kunst is dus: welke 60 recepten moeten we bewaren en welke 40 moeten we weggooien?

2. De Oplossing: De "Proefnemer" (Influence Functions)

De auteurs gebruiken een wiskundig trucje genaamd Influence Functions. In plaats van te raden welke video's goed zijn, laten ze de robot een kleine proefnemer spelen.

Stel je voor dat je een groepje "proefnemers" (de robot die al een beetje getraind is) hebt. Je vraagt hen: "Als we deze ene specifieke video uit de lesboeken halen, wordt de barista dan beter of slechter?"

Goede video: Als je deze weghaalt, wordt de barista slechter. -> Behouden!
Slechte video: Als je deze weghaalt, wordt de barista juist beter (want hij stopt met het kopiëren van de fout). -> Weggooien!

Dit is de kern van QoQ: het meet de directe bijdrage van elke video aan het succes van de robot.

3. De Twee Slimme Trucs

De auteurs merkten dat de "proefnemer" soms verward raakt. Daarom hebben ze twee regels toegevoegd om het slimmer te maken:

A. De "Meest Belangrijke Moment" Regel (Maximum Influence)

Stel je voor dat je een video hebt van iemand die een banaan pakt. In die video gebeurt van alles: lopen, kijken, grijpen, tillen.

De oude manier: Kijkt naar het gemiddelde van de hele video. Misschien is het grijpen perfect, maar is het lopen saai. Het gemiddelde wordt dan "oké".
De QoQ-methode: Kijkt alleen naar het belangrijkste moment. "Is dit specifieke moment van het grijpen superbelangrijk voor het succes?" Ja? Dan telt de hele video als waardevol.
Analogie: Het is alsof je een film beoordeelt. In plaats van te kijken naar het gemiddelde van alle scènes, kijk je naar de ene scène die de plot redt. Als die scène briljant is, is de film waardevol, zelfs als de rest saai is.

B. De "Geheel of Niets" Regel (Trajectory-wise Curation)

Soms kiezen robots alleen de perfecte momenten uit verschillende video's en maken ze een "Frankenstein"-video.

Het probleem: De robot leert dan hoe je een banaan vastpakt (uit video A), maar niet hoe je erheen loopt (uit video B). Hij raakt in de war.
De QoQ-oplossing: Ze selecteren hele video's (trajecten). Als een video waardevol is, nemen ze de hele video mee.
Analogie: Het is beter om een heel boek te lezen dan losse zinnen uit verschillende boeken te plakken. Zo blijft de context en de volgorde van de handelingen behouden.

4. Wat is het resultaat?

De auteurs hebben dit getest in computersimulaties en met echte robots in de wereld.

Resultaat: Robots die getraind werden met de door QoQ geselecteerde video's, waren veel succesvoller dan robots die met alle video's (of met de oude methoden) werden getraind.
Realiteit: Zelfs met data uit de "wildernis" (data van verschillende robots in verschillende omgevingen, zoals de DROID-dataset), wist QoQ de goede van de slechte video's te scheiden.

Samenvatting in één zin

QoQ is als een slimme chef-kok die niet zomaar alle ingrediënten in de pan gooit, maar precies weet welke specifieke ingrediënten (video's) de smaak (het gedrag van de robot) verbeteren en welke de maaltijd bederven, zodat de robot sneller en beter leert.

Dit maakt robotleren veel efficiënter: je hoeft niet duizenden uren aan video's te maken, maar alleen de allerbeste, zorgvuldig geselecteerde stukjes.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning" in het Nederlands.

Probleemstelling

Het leren van robotgedrag uit demonstraties (Learning from Demonstrations, LfD), met name via Behavior Cloning (BC), is een veelbelovende benadering voor end-to-end robotbesturing. Echter, de kwaliteit van de trainingsdata, die vaak via menselijke teleoperatie wordt verzameld, vormt een kritieke bottleneck. Deze datasets bevatten vaak ruis, menselijke fouten, operationele beperkingen en variabiliteit in de vaardigheid van de operator.

Bestaande methoden voor data-curatie (het selecteren van de beste data) zijn over het algemeen:

Handmatig en duur: Afhankelijk van menselijke beoordeling.
Heuristisch: Gebaseerd op proxy-metrics zoals gelijkenis met expert-data of wederzijdse informatie tussen toestanden en acties.
Onvoldoende: Deze metrics vangen vaak niet de werkelijke bijdrage van een trainingsvoorbeeld aan de prestaties van het uiteindelijke beleid (policy) op.

Methodologie: Quality over Quantity (QoQ)

De auteurs stellen Quality over Quantity (QoQ) voor, een gestructureerde aanpak om hoge-kwaliteitsdata te identificeren door de kwaliteit te definiëren als de bijdrage van elk trainingsvoorbeeld aan het verminderen van de fout (loss) op een kleine set validatiedemonstraties.

De kern van de methode is het gebruik van Invloedfuncties (Influence Functions). Deze wiskundige techniek schat hoe het verwijderen of opwaarderen van een enkel trainingspunt de prestaties van het model op een validatieset beïnvloedt, zonder dat het model volledig opnieuw getraind hoeft te worden.

Om invloedfuncties effectief toe te passen op robotdemonstraties, introduceert QoQ twee cruciale technieken om ruis en redundantie te verminderen:

Maximum Invloed Scoren (Maximum Influence Scoring):
- In plaats van de invloed te middelen over alle validatievoorbeelden (wat ruis introduceert omdat niet alle validatiestaten relevant zijn voor elke trainingsactie), meet QoQ de invloed van een trainings-toestand/actie-paar $(s, a)$ door de maximale gradient-product te nemen over alle validatievoorbeelden.
- Dit focust op het meest relevante validatievoorbeeld en negeert irrelevante data, wat de betrouwbaarheid van de schatting verhoogt.
- De score wordt berekend als: $QoQ-score(s, a) = \max_{(s',a') \in D_{val}} g(s', a')^\top g(s, a)$ , waarbij $g$ de genormaliseerde gradient is.
Traject-gebaseerde Curatie (Trajectory-wise Curation):
- Na het berekenen van scores voor individuele state-action paren, worden deze scores geaggregeerd per traject (door het gemiddelde te nemen).
- Het systeem selecteert vervolgens de top $N$ trajecten in plaats van individuele state-action paren.
- Reden: Het selecteren van individuele paren leidt vaak tot redundantie (bijv. alleen "grijpmomenten" worden geselecteerd) en slechte dekking van de toestandsruimte. Het selecteren van hele trajecten zorgt voor een diversere dekking en behoudt complete gedragssequenties.

Efficiëntie: Om de berekening haalbaar te houden voor grote modellen (zoals Vision-Language-Action modellen met miljarden parameters), worden gradients alleen berekend voor een subset van de netwerklagen (bijv. de actiekoppen) en wordt de OPORP-techniek (One-Permutation One-Random-Projection) gebruikt om gradientvectoren te comprimeren.

Belangrijkste Bijdragen

Definitie van Datakwaliteit: Een nieuwe, fundamentele definitie van robotdata-kwaliteit gebaseerd op de directe bijdrage aan de vermindering van de validatiefout, in plaats van op heuristische gelijkenis.
QoQ Framework: Een systeem dat invloedfuncties aanpast voor robotica door middel van "Maximum Influence Scoring" en "Trajectory-wise Curation".
Scalabiliteit: Een efficiënte implementatie die werkt met moderne, grote robotmodellen door het selectief berekenen van gradients en het gebruik van compressietechnieken.

Resultaten

De methode is geëvalueerd in zowel gesimuleerde omgevingen (Robomimic benchmark) als in realiteit (Franka Research 3 robotarm) op diverse taken (blikken verplaatsen, banaan grijpen, kast openen, DROID dataset).

Prestatieverbetering: QoQ overtreft bestaande baselines (zoals Behavior Retrieval en Flow Retrieval) aanzienlijk.
- In simulatie: Tot 23,2% verbetering in succesratio.
- In realiteit: Tot 30,0% verbetering in succesratio.
Curatie Nauwkeurigheid: QoQ slaagt er beter in om falende trajecten te filteren en alleen succesvolle, informatieve trajecten te behouden. In de "Multi-object" experimenten (waar trainingsdata verschillende objecten bevatte) faalden baselines volledig (20% succes), terwijl QoQ 93,3% succes behaalde.
Robuustheid: De methode werkt goed op "in-the-wild" data (DROID dataset) met diverse omgevingen en objectlocaties, waar baselines door heterogeniteit in de visual input faalden.
Validatie zonder aparte set: Het paper toont aan dat QoQ ook kan werken met rollouts van het beleid zelf als validatieset, zelfs als deze rollouts falen (door negatieve scores toe te kennen aan falende rollouts).

Betekenis en Impact

Dit werk markeert een verschuiving van "meer data" naar "betere data" in robotica. Door systematisch te identificeren welke demonstraties daadwerkelijk bijdragen aan een beter beleid, maakt QoQ data-gedreven robotlering efficiënter en betrouwbaarder.

Kostenefficiëntie: Het reduceert de noodzaak voor menselijke curatie en het verzamelen van enorme hoeveelheden data.
Generalisatie: Het verbetert de generalisatiecapaciteit van beleidsmodellen door ruis en suboptimale gedragingen te elimineren.
Toekomstperspectief: Hoewel de methode momenteel beperkt is tot Behavior Cloning en gedeelde robotlichamen (embodiments), biedt het een solide basis voor uitbreiding naar Offline Reinforcement Learning en cross-embodiment scenario's.

Samenvattend biedt QoQ een grondige, wiskundig onderbouwde oplossing voor het "vuile data"-probleem in robotica, wat essentieel is voor het schalen van robotlering naar complexe, real-world taken.

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

1. Het Probleem: De "Slechte Koffie"

2. De Oplossing: De "Proefnemer" (Influence Functions)

3. De Twee Slimme Trucs

A. De "Meest Belangrijke Moment" Regel (Maximum Influence)

B. De "Geheel of Niets" Regel (Trajectory-wise Curation)

4. Wat is het resultaat?

Samenvatting in één zin

Probleemstelling

Methodologie: Quality over Quantity (QoQ)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

XConv: Low-memory stochastic backpropagation for convolutional layers

A Survey on Decentralized Federated Learning

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Provable Filter for Real-world Graph Clustering

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps