LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

LiLo-VLA is een modulair framework dat robots in staat stelt om complexe langdurige manipulatietaken in ongestructureerde omgevingen succesvol uit te voeren door transport en interactie te ontkoppelen, waardoor het aanzienlijk beter presteert dan bestaande Vision-Language-Action-modellen en effectief omgaat met fouten.

Yue Yang, Shuo Cheng, Yu Fang, Homanga Bharadhwaj, Mingyu Ding, Gedas Bertasius, Daniel Szafir

Gepubliceerd 2026-02-26
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt die niet alleen een kopje koffie kan pakken, maar ook de hele keuken kan opruimen, het brood uit de broodrooster kan halen, het op een bord kan leggen en vervolgens de koffie in een mok kan schenken. Dat is een lange reeks taken (een "long-horizon task").

Het probleem met huidige robots is dat ze vaak als een zeer intelligente, maar een beetje nerveuze student zijn: ze kunnen één ding perfect doen (zoals een kopje pakken), maar als ze dat moeten combineren met andere dingen, raken ze in de war. Als ze één klein foutje maken (bijvoorbeeld het kopje net iets te hard vastpakken), geven ze de geest en stoppen ze met de hele taak.

De onderzoekers van dit paper hebben een oplossing bedacht genaamd LiLo-VLA. Laten we dit uitleggen met een simpele analogie: een bouwproject met een architect en een vakman.

De Grote Idee: Splits de Taak

In plaats van één enorme robot-hersenen te hebben die alles in één keer moet doen, heeft LiLo-VLA twee gespecialiseerde teams:

  1. De Architect (De "Reaching Module"):

    • Wat doet hij? Hij kijkt naar de hele kamer en zegt: "Oké, we moeten naar de koffiezetapparaat toe. Daar is een stoel in de weg, en daar staat een vaas. Ik ga een route plannen zodat we niet tegen de stoel botsen."
    • Hoe werkt het? Hij gebruikt klassieke wiskunde en plannen (geen AI-leren) om de robotarm veilig naar de juiste plek te bewegen. Hij zorgt dat de robotarm precies boven het object uitkomt, klaar om te grijpen.
    • De analogie: Denk aan een GPS in een auto. Die weet precies hoe je van A naar B komt zonder in de greppel te rijden, ongeacht hoe druk het verkeer is.
  2. De Vakman (De "Interaction Module"):

    • Wat doet hij? Zodra de robotarm boven het object hangt, neemt deze vakman het over. Hij kijkt alleen naar het object dat hij moet vastpakken. Hij negeert de rest van de kamer.
    • Hoe werkt het? Dit is een AI die is getraind om specifieke handelingen te doen, zoals "pak de mok" of "schenk de koffie". Omdat hij alleen naar de mok kijkt (en de rest van de kamer zwart maakt in zijn hoofd), wordt hij niet afgeleid door rommel op de achtergrond.
    • De analogie: Stel je een chirurg voor die een operatie doet. Hij kijkt alleen naar het hartje van de patiënt, niet naar de muur of de andere artsen. Als er iemand langs loopt, maakt hij zich daar geen zorgen om.

Waarom is dit zo slim?

1. Geen "Kettingreactie" van fouten

Bij oude robots was het zo: als de robotarm net iets scheef stond, maakte de AI een fout bij het grijpen, en toen raakte hij de koffie over de hele tafel. De hele taak was mislukt.
Met LiLo-VLA is het anders: als de vakman (AI) merkt dat hij de mok niet goed vastkrijgt, roept hij de architect (GPS) om te zeggen: "Hé, ik zit vast. Ga even terug en probeer het opnieuw vanuit een betere hoek." De robot kan zichzelf corrigeren zonder dat de hele taak mislukt.

2. Nieuwe taken zonder opnieuw te leren

Stel je voor dat je een robot hebt die alleen heeft geoefend om een kopje koffie te pakken en dan weg te zetten. Als je nu vraagt: "Pak eerst de suiker, dan de koffie, en zet het neer", kunnen oude robots dit vaak niet. Ze zijn te star.
LiLo-VLA is als een LEGO-meester. Hij kent de losse blokken (pakken, zetten, schenken). Als je een nieuw ontwerp vraagt, kan hij die blokken in een nieuwe volgorde stapelen zonder dat hij eerst maandenlang moet oefenen. Hij kan het direct doen (dit noemen ze "zero-shot generalization").

3. Ongevoelig voor rommel

Oude robots raken in de war als er veel spullen op de tafel liggen. Ze denken dan: "Oh, die rode blik is misschien de mok?"
De vakman van LiLo-VLA heeft een bril op die alles zwart maakt, behalve het object waar hij naar moet kijken. Of er nu een berg speelgoed of een stapel kranten op de tafel ligt, hij ziet alleen de mok.

Wat hebben ze bewezen?

De onderzoekers hebben dit getest in een virtuele wereld (een simulatie) met 21 verschillende, moeilijke taken.

  • De concurrenten: Andere geavanceerde robots (zoals Pi0.5 en OpenVLA) slaagden maar in 28% van de gevallen. Ze raakten vaak in de war bij lange reeksen taken.
  • LiLo-VLA: Deze slaagde in 69% van de gevallen.
  • In de echte wereld: Ze hebben het ook op een echte robotarm getest. Zelfs met een rommelige achtergrond en nieuwe volgorde van taken, slaagden ze in 85% van de gevallen.

Conclusie

LiLo-VLA is een slimme manier om robots te leren complexe taken te doen door ze niet één grote, moeilijke hersenen te geven, maar twee gespecialiseerde helpers: één die de route plandt en één die de fijne handelingen uitvoert. Als er iets misgaat, kunnen ze samenwerken om het op te lossen, in plaats van direct op te geven.

Het is alsof je een bouwteam hebt met een planner en een vakman: ze werken samen, corrigeren elkaar, en kunnen elke nieuwe bouwopdracht aan, zelfs als ze die exacte opdracht nog nooit eerder hebben gezien.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →