From Local Corrections to Generalized Skills: Improving Neuro-Symbolic Policies with MEMO

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die heel slim is, maar een beetje als een beginnende kok die alleen de theorie kent, maar nog nooit echt heeft gekookt.

Deze robot kan een recept lezen (bijvoorbeeld: "Maak toast") en begrijpt de stappen: "Haal het brood uit de verpakking, doe het in de broodrooster, druk op de knop." Dit noemen de onderzoekers neuro-symbolisch: de robot gebruikt een "hersenen" (een AI) om te redeneren wat er moet gebeuren.

Het probleem:
De robot weet wat hij moet doen, maar niet hoe hij zijn armen moet bewegen om dat te doen. Hij heeft geen "spiergeheugen". Als hij de broodrooster moet openen, weet hij niet hoe hij de hendel moet vastgrijpen of hoe hard hij moet duwen. Hij probeert het, faalt, en stopt.

De oude oplossing (en waarom die niet werkt):
Vroeger gaven programmeurs de robot een vaste lijst met bewegingen (een "vaardigheden-boek"). Bijvoorbeeld: "Grijp", "Duw", "Trek". Maar als de robot een nieuwe taak krijgt waar geen beweging voor in dat boek staat, faalt hij. Het is alsof je een kok een recept geeft, maar je hebt hem alleen de vaardigheid "brood snijden" geleerd, niet "broodrooster openen".

De nieuwe oplossing: MEMO (Het Slimme Kookboek)
De onderzoekers van Virginia Tech hebben MEMO bedacht. Dit is een systeem dat de robot helpt om leren van fouten om te zetten in nieuwe vaardigheden.

Hier is hoe het werkt, vertaald naar een alledaags verhaal:

1. De Fout en de Correctie (Het "Nee, niet zo!" moment)

Stel, de robot probeert de broodrooster open te maken, maar hij duwt de deur te hard naar beneden in plaats van hem omhoog te trekken.

De mens: "Nee! Je moet de hendel omhoog trekken, niet duwen!"
De robot: "Oké, ik heb het begrepen voor deze keer."

In oude systemen zou de robot dit onthouden voor deze specifieke broodrooster. Maar MEMO doet iets slimmers.

2. Het "Vaardigheden-boek" (De Skillbook)

MEMO verzamelt al deze correcties in een digitaal boek, een Skillbook. Maar het slaat niet alleen de tekst op ("Trek omhoog"). Het doet drie dingen:

Het vertalen: Als één persoon zegt "Trek de hendel omhoog" en een ander zegt "Draai de knop naar boven", begrijpt de robot dat dit hetzelfde is. Het boek schrijft dit om naar een algemene regel: "Open de deur door de hendel omhoog te bewegen."
Het groeperen (Clustering): Stel, de robot krijgt 50 keer feedback over het openen van verschillende deuren (koelkast, kast, broodrooster). In plaats van 50 aparte regels te onthouden, zoekt MEMO naar het patroon. Het zegt: "Ah, alle deuren werken hetzelfde: grijp de hendel en beweeg in de richting van de scharnieren."
Het maken van een sjabloon: Dit is het magische deel. MEMO verandert de tekst in een programmeercode-sjabloon. Het maakt een generieke functie: open_deur(hendel_positie, deur_grootte).

3. De Analogie: De Kok met een Groeiend Receptenboek

Stel je voor dat de robot een kok is.

Zonder MEMO: Hij heeft een receptenboek met alleen de basisrecepten. Als hij een nieuw gerecht moet maken, raakt hij in paniek omdat hij de techniek niet kent.
Met MEMO: Elke keer als hij een fout maakt, schrijft een sous-chef (de mens) een tip op.
- Tip 1: "De soep is te heet, wacht even."
- Tip 2: "De soep is te heet, wacht even."
- Tip 3: "De soep is te heet, wacht even."
MEMO is de sous-chef die deze tips leest, ze samenvat tot één algemene regel ("Laat hete gerechten afkoelen"), en dit toevoegt aan het algemene kookboek. De volgende keer dat de kok een nieuw gerecht maakt (bijvoorbeeld een hete soep of een gebakken vis), kijkt hij niet naar één specifieke tip, maar naar de algemene regel "Laat hete gerechten afkoelen". Hij kan nu ook een nieuwe techniek toepassen die hij eerder niet kende.

Wat levert dit op?

In hun experimenten lieten ze de robot taken doen die hij nooit eerder had gezien (zoals "leeg de kast" of "giet een blikje uit").

Andere robots faalden omdat ze geen vaardigheid hadden voor die specifieke situatie.
De robot met MEMO slaagde vaak, omdat hij zijn "Skillbook" raadpleegde. Hij haalde daar de algemene regel "open de deur" op, paste deze aan op de kast, en voerde de taak uit.

Kortom:
MEMO maakt robots niet alleen slimmer door ze meer data te geven, maar door ze te leren leren van hun fouten en die fouten om te zetten in nieuwe, algemene vaardigheden. Het is alsof je een robot een "geheugen" geeft dat niet alleen herinnert wat er misging, maar dat ook de les eruit haalt en die les toepast op de volgende, nieuwe uitdaging.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "From Local Corrections to Generalized Skills: Improving Neuro-Symbolic Policies with MEMO" in het Nederlands.

Titel: Van Lokale Correcties naar Generaliseerde Vaardigheden: Neuro-Symbolische Beleidsplanning Verbeteren met MEMO

1. Het Probleem

Neuro-symbolische frameworks voor robotica combineren de kracht van neurale redenering (via visie- en taalmodellen) met symbolische controle. Deze systemen kunnen complexe taken ontleden in semantische subtaken (bijv. "open de deur"). De fundamentele beperking van deze aanpak is echter dat de robot afhankelijk is van een vooraf gedefinieerde bibliotheek met vaardigheden (skills), zoals bewegingsprimitieven of code-functies, om deze subtaken te vertalen naar fysieke bewegingen.

De Bottleneck: Als de robot de juiste vaardigheid niet kent of niet kan genereren voor een specifieke taak, faalt het beleid, ongeacht hoe goed het taalredenering is.
Huidige Aanpak: Bestaande methoden gebruiken vaak menselijke feedback om lokale correcties toe te passen op een specifieke fout (bijv. "draai meer"). Dit leidt echter niet tot langetermijnverbetering of het creëren van nieuwe, generaliseerbare vaardigheden.
Doel: Het overbruggen van de kloof tussen lokale, menselijke correcties en het dynamisch uitbreiden van de robotvaardigheden naar generaliseerde, parametrische functies die op nieuwe taken kunnen worden toegepast.

2. Methodologie: MEMO (Memory Enhanced Manipulation)

MEMO is een framework dat menselijke feedback en succesvolle taakuitvoeringen verzamelt in een "vaardigheidsboek" (skillbook) en dit gebruikt om nieuwe, generaliseerde vaardigheden te synthetiseren. Het proces verloopt in drie hoofdfasen:

A. Het Vaardigheidsboek (Skillbook) Opbouwen
MEMO gebruikt een vector-database als kennisbron ( $S$ ) die bestaat uit paren van inbeddingsvectoren ( $v$ ) en vaardigheidsinformatie ( $s$ ).

Feedback Verzamelen: Wanneer een mens de robot corrigeert (bijv. "ga hoger"), wordt deze tekst door een taalmodel geparafraseerd om taak-specifieke details te verwijderen en generaliseerbare instructies te creëren.
Contextualisatie: Elke entry wordt geïndexeerd op basis van de actie (bijv. "openen") en het object (bijv. "koelkast").
Implicit Feedback: Succesvolle code die de robot schrijft voor een subtaak wordt omgezet in een generieke functie-template (zonder harde waarden) en ook opgeslagen in het vaardigheidsboek.

B. Retrieval-Augmented Generation (RAG)
Tijdens de uitvoering van een taak ( $\tau$ ) en het observeren van de omgeving ( $G$ ):

De robot-policy ( $\pi$ ) bepaalt eerst de semantische subtaken.
Voor elke subtaak zoekt de robot in het vaardigheidsboek naar relevante entries op basis van cosine-ähnelijkheid tussen de geplande actie/objecten en de opgeslagen vectoren.
De opgehaalde tekst en code-template worden gebruikt als context voor het taalmodel om nieuwe, geparametriseerde code te genereren voor de huidige situatie.

C. Clustering en Generalisatie (Offline Proces)
Dit is het kerninnovatiepunt van MEMO. Naarmate het vaardigheidsboek groeit, worden entries geclusterd om redundantie en tegenstrijdigheden te elimineren.

Clustering: Entries met vergelijkbare inbeddings worden gegroepeerd.
Synthese: Een taalmodel analyseert een cluster (bijv. 50 verschillende manieren om een deur te openen) in combinatie met de bijbehorende succesvolle code-template.
Resultaat: Het model genereert een gecondenseerde, generaliseerde instructie en een verbeterde code-template die alle specifieke gevallen dekt. Dit zorgt voor een compacte, robuuste set vaardigheden die verder gaan dan de oorspronkelijke lokale feedback.

3. Belangrijkste Bijdragen

Het Skillbook-concept: Een database die menselijke feedback en robotcode combineert, waarbij feedback automatisch wordt omgezet in zowel taak-specifieke als taak-invariante entries.
Clustering rond Code-Templates: Een methode om menselijke feedback te clusteren en te samenvatten, waarbij succesvolle code als "waarheid" dient om tegenstrijdige feedback te filteren en generaliseerde functies te creëren.
Verbetering Boven Lokale Feedback: Het aantonen dat het aggregeren van feedback over meerdere gebruikers en taken leidt tot vaardigheden die generaliseren naar volledig nieuwe taken, in plaats van alleen lokale correcties toe te passen.

4. Resultaten

De auteurs hebben MEMO getest in simulatie en in de echte wereld met een 7-DoF Franka Emika Panda-robotarm.

Zero-Shot Generalisatie: In simulatie bereikte MEMO een 78% succesrate op onbekende taken (hold-out tasks), vergeleken met 40% voor DROC-V (een vergelijkbare neuro-symbolische methode zonder clustering/templates) en 28% voor TrajGen.
Effect van Clustering: De versie zonder clustering (MEMO-C) presteerde slechter dan de volledige MEMO, vooral bij complexe taken zoals "De fles sluiten" of "De blik leegmaken". Clustering voorkwam dat de robot irrelevante of tegenstrijdige feedback ophaalde.
Real-World Transfer: MEMO kon succesvol code genereren voor taken in de echte wereld, zelfs wanneer de training-gegevens (feedback) volledig uit simulatie kwamen.
Efficiëntie: MEMO had significant minder menselijke feedback nodig om een taak succesvol uit te voeren dan de baselines (gemiddeld 1,52 feedbackpunten per taak versus 2,76 voor DROC-V).
Vergelijking met Baselines: MEMO overtrof zowel neuro-symbolische baselines als een state-of-the-art Vision-Language-Action model ( $\pi_0.5$ ) in totale succesrate en adaptiviteit.

5. Betekenis en Impact

Dit werk is een belangrijke stap naar algemeen inzetbare robots die hun capaciteiten op lange termijn kunnen uitbreiden door menselijke feedback te leren.

Van Lokaal naar Globaal: Het bewijst dat robots niet alleen specifieke fouten kunnen corrigeren, maar ook nieuwe, abstracte vaardigheden kunnen leren die op een breed scala aan situaties van toepassing zijn.
Autonome Evolutie: Door het gebruik van clustering en code-synthese evolueert het systeem autonoom van een statische vaardigheidsbibliotheek naar een dynamisch, groeiend kennisbestand.
Robuustheid: De methode lost het probleem op van "overfitting" op specifieke feedback door generaliseerde templates te creëren, waardoor de robot beter bestand is tegen variaties in taken en omgevingen.

Kortom, MEMO transformeert menselijke correcties van tijdelijke fixes naar permanente, generaliseerbare vaardigheden, waardoor neuro-symbolische robots effectiever en adaptiever worden in onbekende omgevingen.

From Local Corrections to Generalized Skills: Improving Neuro-Symbolic Policies with MEMO

1. De Fout en de Correctie (Het "Nee, niet zo!" moment)

2. Het "Vaardigheden-boek" (De Skillbook)

3. De Analogie: De Kok met een Groeiend Receptenboek

Wat levert dit op?

Titel: Van Lokale Correcties naar Generaliseerde Vaardigheden: Neuro-Symbolische Beleidsplanning Verbeteren met MEMO

1. Het Probleem

2. Methodologie: MEMO (Memory Enhanced Manipulation)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers