Neuro-Symbolic Skill Discovery for Conditional Multi-Level Planning

Dit artikel presenteert een neuro-symbolische architectuur die uit een paar ongelabelde demonstraties generaliseerbare symbolische vaardigheden leert, waarmee complexe, langdurige taken in onbekende en rommelige omgevingen kunnen worden gepland en uitgevoerd door middel van visuele taalmodellen en gradiëntgebaseerde planning.

Hakan Aktas, Yigit Yildirim, Ahmet Firat Gamsiz, Deniz Bilge Akkoc, Erhan Oztop, Emre Ugur

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een complexe taak te doen, zoals het maken van een kop koffie of het afwassen. Het grootste probleem is dat robots vaak "blind" zijn voor het grote plaatje. Ze zien duizenden kleine bewegingen (handen bewegen, grijpen, draaien), maar ze begrijpen niet dat al die bewegingen samen één zinnetje vormen: "Koffie zetten".

Dit artikel beschrijft een slimme nieuwe manier om robots dit te leren, met een systeem dat we een "Neuro-Symbolische Vaardigheidsontdekker" kunnen noemen. Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De "Recepten" vs. De "Kookstijl"

Stel je voor dat je een kok wilt leren koken. Je geeft hem duizenden video's van mensen die brood uit de koelkast halen.

  • De oude manier: De robot probeert elke beweging letterlijk na te bootsen. Als de broodtrommel net iets anders staat, raakt hij in paniek omdat hij de exacte beweging niet kent.
  • De nieuwe manier (deze paper): De robot leert het concept "brood halen". Hij begrijpt dat het niet uitmaakt of je links of rechts in de koelkast grijpt; het doel is hetzelfde. Hij haalt de "geest" van de beweging uit de "vlees" van de beweging.

2. De Oplossing: Een Drie-staps Systeem

Het systeem werkt in drie hoofdonderdelen, die we kunnen vergelijken met een Chef-kok, een Boekhouder en een Architect.

Stap 1: De Chef-kok (De Neuro-Netwerk)

De robot kijkt naar een paar video's van iemand die iets doet (bijvoorbeeld: een glas pakken). De robot heeft geen labels; hij weet niet wat hij ziet.

  • Hoe het werkt: De robot gebruikt een slim algoritme (een Vector Quantized Autoencoder) om te zoeken naar patronen. Het is alsof de robot duizenden verschillende bewegingen bekijkt en zegt: "Hé, deze 50 bewegingen voelen allemaal hetzelfde aan, ook al zijn ze net iets anders uitgevoerd."
  • De Analogie: Het is alsof je een grote bak met verschillende soorten pasta ziet. De robot groepeert ze: "Spaghetti, Penne en Fusilli". Hij maakt een abstracte "Spaghetti-kaart" en een "Penne-kaart". Hij leert dat alle variaties van spaghetti onder die ene kaart vallen.
  • Het resultaat: De robot heeft nu een lijst met "vaardigheden" (zoals 'pakken', 'zetten', 'gieten'), maar hij weet nog niet hoe ze heten. Het zijn alleen maar nummers in zijn hoofd.

Stap 2: De Boekhouder (De AI-Taalmodel)

Nu de robot de vaardigheden heeft gegroepeerd, moet hij weten hoe ze heten.

  • Hoe het werkt: De robot maakt foto's van de bewegingen die hij heeft gegenereerd. Hij geeft deze foto's aan een slimme AI (zoals GPT of Gemini, een "Multi-Modal LLM").
  • De Analogie: De robot zegt tegen de AI: "Kijk naar deze foto's. Wat gebeurt hier?" De AI kijkt en zegt: "Ah, dit is 'een glas uit de vaatwasser halen'."
  • Het resultaat: De robot koppelt nu zijn abstracte nummers aan echte woorden. Vaardigheid #1 is nu "Glas pakken".

Stap 3: De Architect (Het Planningsysteem)

Nu de robot de vaardigheden kent en hun namen, kan hij plannen maken voor lange, complexe taken.

  • Hoe het werkt: Als je zegt: "Maak koffie", denkt de Architect: "Oké, eerst moet ik het kopje pakken, dan naar de machine gaan, dan op de knop drukken, en dan terugbrengen."
  • De Magie: De Architect gebruikt de woorden (symbolen) om het plan te maken. Maar zodra het plan klaar is, moet de robot de fysieke bewegingen uitvoeren. Hier komt de "Gradient-based planning" om de hoek kijken.
  • De Analogie: Stel je voor dat de Architect zegt: "Grijp het kopje." De robot weet wat hij moet doen, maar niet waar het kopje precies staat in de rommelige kast. De robot gebruikt dan wiskunde om zijn beweging te "fine-tunen" alsof hij een GPS-route aanpast terwijl hij rijdt, totdat zijn hand precies op het kopje landt.

3. Waarom is dit zo speciaal?

  • Minder data nodig: Je hoeft niet duizenden uren video te maken. Met slechts een paar voorbeelden (zelfs als ze ongelabeld zijn) kan de robot de vaardigheden zelf ontdekken.
  • Werken in de chaos: De robot kan werken in een rommelige keuken. Omdat hij het concept van "pakken" heeft geleerd, niet de exacte beweging, kan hij een kopje pakken dat half onder een bord ligt, iets wat een traditionele robot niet zou kunnen.
  • Samenwerking: Het combineert de creativiteit en het taalbegrip van moderne AI (LLMs) met de precisie en wiskunde van robotica.

Samenvatting in één zin

Dit artikel presenteert een robot die leert om abstracte vaardigheden te ontdekken uit een paar voorbeelden, die deze vaardigheden naamt met behulp van een slimme taal-AI, en die vervolgens plannen maakt om complexe taken uit te voeren, zelfs in onbekende en rommelige omgevingen.

Het is alsof je een robot niet leert hoe je een muur moet metselsteentje voor steentje, maar hem leert wat "een muur bouwen" is, zodat hij zelf kan bedenken hoe hij dat doet, waar hij ook staat.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →