From Local Corrections to Generalized Skills: Improving Neuro-Symbolic Policies with MEMO

Dit paper introduceert MEMO, een systeem dat door menselijke feedback te verzamelen, te clusteren en te herformuleren, lokale correcties omzet in gegeneraliseerde vaardigheden om neuro-symbolische robotbeleid te verbeteren en zo de generalisatie naar nieuwe taken mogelijk te maken.

Benjamin A. Christie, Yinlong Dai, Mohammad Bararjanianbahnamiri, Simon Stepputtis, Dylan P. Losey

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die heel slim is, maar een beetje als een beginnende kok die alleen de theorie kent, maar nog nooit echt heeft gekookt.

Deze robot kan een recept lezen (bijvoorbeeld: "Maak toast") en begrijpt de stappen: "Haal het brood uit de verpakking, doe het in de broodrooster, druk op de knop." Dit noemen de onderzoekers neuro-symbolisch: de robot gebruikt een "hersenen" (een AI) om te redeneren wat er moet gebeuren.

Het probleem:
De robot weet wat hij moet doen, maar niet hoe hij zijn armen moet bewegen om dat te doen. Hij heeft geen "spiergeheugen". Als hij de broodrooster moet openen, weet hij niet hoe hij de hendel moet vastgrijpen of hoe hard hij moet duwen. Hij probeert het, faalt, en stopt.

De oude oplossing (en waarom die niet werkt):
Vroeger gaven programmeurs de robot een vaste lijst met bewegingen (een "vaardigheden-boek"). Bijvoorbeeld: "Grijp", "Duw", "Trek". Maar als de robot een nieuwe taak krijgt waar geen beweging voor in dat boek staat, faalt hij. Het is alsof je een kok een recept geeft, maar je hebt hem alleen de vaardigheid "brood snijden" geleerd, niet "broodrooster openen".

De nieuwe oplossing: MEMO (Het Slimme Kookboek)
De onderzoekers van Virginia Tech hebben MEMO bedacht. Dit is een systeem dat de robot helpt om leren van fouten om te zetten in nieuwe vaardigheden.

Hier is hoe het werkt, vertaald naar een alledaags verhaal:

1. De Fout en de Correctie (Het "Nee, niet zo!" moment)

Stel, de robot probeert de broodrooster open te maken, maar hij duwt de deur te hard naar beneden in plaats van hem omhoog te trekken.

  • De mens: "Nee! Je moet de hendel omhoog trekken, niet duwen!"
  • De robot: "Oké, ik heb het begrepen voor deze keer."

In oude systemen zou de robot dit onthouden voor deze specifieke broodrooster. Maar MEMO doet iets slimmers.

2. Het "Vaardigheden-boek" (De Skillbook)

MEMO verzamelt al deze correcties in een digitaal boek, een Skillbook. Maar het slaat niet alleen de tekst op ("Trek omhoog"). Het doet drie dingen:

  • Het vertalen: Als één persoon zegt "Trek de hendel omhoog" en een ander zegt "Draai de knop naar boven", begrijpt de robot dat dit hetzelfde is. Het boek schrijft dit om naar een algemene regel: "Open de deur door de hendel omhoog te bewegen."
  • Het groeperen (Clustering): Stel, de robot krijgt 50 keer feedback over het openen van verschillende deuren (koelkast, kast, broodrooster). In plaats van 50 aparte regels te onthouden, zoekt MEMO naar het patroon. Het zegt: "Ah, alle deuren werken hetzelfde: grijp de hendel en beweeg in de richting van de scharnieren."
  • Het maken van een sjabloon: Dit is het magische deel. MEMO verandert de tekst in een programmeercode-sjabloon. Het maakt een generieke functie: open_deur(hendel_positie, deur_grootte).

3. De Analogie: De Kok met een Groeiend Receptenboek

Stel je voor dat de robot een kok is.

  • Zonder MEMO: Hij heeft een receptenboek met alleen de basisrecepten. Als hij een nieuw gerecht moet maken, raakt hij in paniek omdat hij de techniek niet kent.

  • Met MEMO: Elke keer als hij een fout maakt, schrijft een sous-chef (de mens) een tip op.

    • Tip 1: "De soep is te heet, wacht even."
    • Tip 2: "De soep is te heet, wacht even."
    • Tip 3: "De soep is te heet, wacht even."

    MEMO is de sous-chef die deze tips leest, ze samenvat tot één algemene regel ("Laat hete gerechten afkoelen"), en dit toevoegt aan het algemene kookboek. De volgende keer dat de kok een nieuw gerecht maakt (bijvoorbeeld een hete soep of een gebakken vis), kijkt hij niet naar één specifieke tip, maar naar de algemene regel "Laat hete gerechten afkoelen". Hij kan nu ook een nieuwe techniek toepassen die hij eerder niet kende.

Wat levert dit op?

In hun experimenten lieten ze de robot taken doen die hij nooit eerder had gezien (zoals "leeg de kast" of "giet een blikje uit").

  • Andere robots faalden omdat ze geen vaardigheid hadden voor die specifieke situatie.
  • De robot met MEMO slaagde vaak, omdat hij zijn "Skillbook" raadpleegde. Hij haalde daar de algemene regel "open de deur" op, paste deze aan op de kast, en voerde de taak uit.

Kortom:
MEMO maakt robots niet alleen slimmer door ze meer data te geven, maar door ze te leren leren van hun fouten en die fouten om te zetten in nieuwe, algemene vaardigheden. Het is alsof je een robot een "geheugen" geeft dat niet alleen herinnert wat er misging, maar dat ook de les eruit haalt en die les toepast op de volgende, nieuwe uitdaging.