Compose by Focus: Scene Graph-based Atomic Skills

Dit artikel introduceert een robuust raamwerk voor compositional generalisatie in algemene robots dat scene graphs combineert met diffusie-imitatieleren en een vision-language model om complexe, langdurige taken succesvoller uit te voeren dan bestaande methoden.

Han Qi, Changhe Chen, Heng Yang

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een heleboel verschillende klusjes te doen, zoals een keuken opruimen of speelgoed in een doos leggen. Dit is een enorm moeilijke taak voor een robot, omdat het leven vol zit met onverwachte dingen: een stoel staat op een andere plek, er liggen extra voorwerpen op de tafel, of de belichting is anders.

Dit paper, getiteld "Compose by Focus" (Samenstellen door te focussen), lost een specifiek probleem op: hoe maak je een robot die niet alleen één simpele beweging kan doen, maar die ook combinaties van bewegingen kan uitvoeren in een rommelige wereld?

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blinde" Robot

Stel je een robot voor die is getraind om één wortel van een schone, lege tafel te pakken. Hij is hier heel goed in.
Maar nu zet je hem voor een taak: "Pak alle groenten van deze rommelige tafel en doe ze in een mand." Op die tafel liggen wortels, maar ook speelgoedauto's, een broodje en een stapel boeken.

De robot faalt. Waarom?
Omdat hij is getraind op een "schone" foto. Als hij nu naar de rommelige tafel kijkt, ziet hij een wirwar van kleuren en vormen. Hij weet niet meer welke vorm een wortel is en welke een autootje. Hij raakt in paniek door alle "afleiding".

  • De metafoor: Het is alsof je iemand leert om een auto te besturen op een lege racebaan. Zodra je hem op een drukke stadsweg zet met fietsers, honden en andere auto's, weet hij niet meer wat hij moet doen. Hij kijkt naar alles tegelijk en raakt de weg kwijt.

2. De Oplossing: De "Slimme Lijst" (Scene Graph)

De auteurs van dit paper zeggen: "Waarom kijkt de robot naar het hele plaatje? Laten we hem leren om alleen te kijken naar wat belangrijk is."

Ze introduceren een techniek die ze een Scene Graph (Situatie-kaart) noemen.

  • Hoe het werkt: In plaats van de robot een ruwe foto te geven, maken we eerst een slimme, gestructureerde lijst van de situatie.

    • Wie is er? (De robot, de wortel, de mand).
    • Wat is de relatie? (De wortel ligt naast de mand).
    • Wat kunnen we negeren? (De speelgoedauto en het broodje worden gewoon weggefilterd).
  • De metafoor: Stel je voor dat je een detective bent die een moordzaak moet oplossen.

    • De oude robots kijken naar de hele kamer: "Ik zie een vaas, een tapijt, een raam, een hond, en een verdachte." Ze raken in de war door de hond en het tapijt.
    • De nieuwe robot (met Scene Graph) krijgt een opdrachtkaart: "Focus alleen op de verdachte en de vaas. De hond en het tapijt zijn irrelevant voor deze opdracht."
      Door alleen naar de relevante stukjes te kijken, wordt de robot niet afgeleid door de rommel.

3. Hoe de Robot Loopt: De "Receptenboek"

De robot leert niet per se voor elke mogelijke situatie een nieuwe beweging. Hij leert basisbewegingen (zoals "pakken", "zetten", "duwen").

  • De metafoor: Denk aan een kok die alleen de basisrecepten kent: "Hoe snijd je een ui?" en "Hoe bak je een ei?"
    • Als je hem vraagt om een omelet te maken, hoeft hij niet een nieuw recept uit te vinden. Hij combineert gewoon de basisrecepten.
    • Maar als de keuken vol staat met borden en pannen (de rommel), moet hij weten welke pan hij moet pakken en welke niet.
    • Dankzij de Scene Graph weet de robot precies welke pan (het relevante object) hij moet gebruiken en welke pannen (de afleiding) hij mag negeren.

4. De Resultaten: Van Theorie naar Praktijk

De auteurs hebben dit getest in twee situaties:

  1. In de computer (Simulatie): Robots die moesten blokken stapelen, gereedschap gebruiken en obstakels ontwijken.
    • Resultaat: De oude robots vielen vaak op hun neus zodra er extra blokken op de tafel lagen. De nieuwe robot bleef kalm en deed zijn werk, zelfs als de tafel vol lag met "stoorzenders".
  2. In de echte wereld: Een robot die groenten van een tafel pakte.
    • Resultaat: De robot slaagde bijna altijd (97% succes), terwijl de andere robots faalden zodra er meer dan één groente op de tafel lag.

Samenvatting in één zin

Dit paper leert robots om niet naar de hele rommelige kamer te kijken, maar om een slimme, gefocuste lijst te maken van alleen de dingen die ze op dat moment nodig hebben, zodat ze complexe taken kunnen uitvoeren zonder in de war te raken door de rest van de wereld.

Het is een stap in de richting van robots die net zo flexibel zijn als wij: we kunnen ook een glas water pakken, zelfs als er een hond op de vloer ligt die we even negeren.