LEGS-POMDP: Language and Gesture-Guided Object Search in Partially Observable Environments

Each language version is independently generated for its own context, not a direct translation.

🤖 De Robot die "Misschien" en "Waarschijnlijk" begrijpt

Stel je voor dat je een robot vraagt: "Haal dat kopje voor me."
In een perfect, leeg huis is dat makkelijk. Maar wat als je in een rommelige kamer staat met tien verschillende kopjes? En wat als je niet alleen praat, maar ook met je hand wijst? En wat als je handbeweging niet helemaal precies is, of als je het woord "kopje" gebruikt terwijl je eigenlijk een "mok" bedoelt?

Voor een mens is dit geen probleem. We combineren wat we horen, wat we zien en hoe iemand wijst, en we raden het wel. Voor een robot is dit echter een enorme puzzel.

De auteurs van dit paper (van de Brown Universiteit) hebben een slim systeem bedacht genaamd LEGS-POMDP. Laten we kijken hoe dit werkt, alsof we een detectiveverhaal vertellen.

1. Het Probleem: De Robot is "Blind" en Verward

Stel je de robot voor als een detective die in een groot, donker huis moet zoeken. Hij kan niet alles tegelijk zien (dat noemen ze gedeeltelijk waarneembaar).

De taal is vaag: "Haal dat kopje" kan op tien verschillende kopjes slaan.
De handbeweging is onzeker: Als iemand wijst, wijst die persoon misschien naar een gebied waar drie kopjes staan, niet naar één specifiek kopje.
De zintuigen zijn imperfect: De camera van de robot kan wazig zijn of objecten over het hoofd zien.

Eerdere robots maakten vaak twee fouten:

Ze waren te "dom" en geloofden alles wat ze zagen of hoorden als een feit (geen twijfel toegestaan).
Ze waren te complex en konden niet goed plannen als ze niet zeker wisten waar ze waren.

2. De Oplossing: De "Gokker" met een Rekenmachine

Het LEGS-systeem behandelt de robot niet als iemand die alles weet, maar als iemand die gokt en die gokken bijwerkt naarmate hij meer informatie krijgt.

Ze gebruiken een wiskundig raamwerk dat POMDP heet. Dat klinkt ingewikkeld, maar het is eigenlijk als een gokspel met een strategie:

De robot houdt een "goklijst" bij (een belief state). Op deze lijst staat: "Er is een 10% kans dat het kopje hier staat, 5% kans dat het daar staat..."
Elke keer als de robot iets hoort (spraak), ziet (camera) of voelt (wijzen), past hij de percentages op zijn lijst aan.

3. De Drie Magische Zintuigen (Multimodale Fusie)

Het slimme aan LEGS is dat het drie bronnen van informatie combineert, alsof je een detective bent die drie verschillende getuigen spreekt:

De Spraak (Taal): De robot luistert naar wat je zegt. Als je zegt "rood kopje", verhoogt hij de kans op rode kopjes.
De Hand (Gebaren): Als je wijst, maakt de robot een "kegel" (een wig-vorm) in zijn hoofd waar hij denkt dat je naartoe wijst. Hij weet dat mensen niet altijd perfect wijzen, dus deze kegel is breed.
De Camera (Visie): De robot kijkt wat hij ziet.

De Creatieve Analogie: De Geluidsmixer
Stel je voor dat de robot een geluidsmixer heeft.

De spraak is één knop.
De wijzing is een tweede knop.
De camera is een derde knop.

Als je alleen zegt "haal het kopje" (spraak), staat die knop half open. De robot weet nog niet precies welk kopje.
Maar als je tegelijkertijd wijst (gebaren), draai je de tweede knop open.
Als de robot nu alle drie de knoppen gebruikt, krijgt hij een heel duidelijk geluid: "Het is dit specifieke kopje!"

In het paper zien ze dat als je alle drie combineert, de robot 89% van de tijd het juiste kopje vindt. Als hij alleen kijkt of alleen luistert, faalt hij veel vaker.

4. Hoe de Robot Leert: Van Simulatie naar Echt

De onderzoekers hebben dit eerst getest in een virtuele wereld (een computerspelletje) met een vierkante grid. Ze lieten de robot duizenden keren zoeken onder verschillende omstandigheden:

Soms was de taal verkeerd.
Soms was de handbeweging raar.
Soms waren er veel obstakels.

Ze ontdekten dat de robot het beste werkt met een slimme zoekstrategie (PO-UCT). In plaats van willekeurig rond te lopen, plande de robot zijn bewegingen zo, dat hij de meeste informatie zou verzamelen om zijn "goklijst" sneller te verkleinen.

De Realiteitstest:
Daarna hebben ze het systeem op een echte robot (een Boston Dynamics Spot, die op vier poten loopt) gezet.

Ze lieten de robot in een echt huis zoeken.
Mensen gaven instructies en wezen.
De robot slaagde erin om zijn twijfel (de "onzekerheid") snel weg te werken en het juiste object te vinden, zelfs als de instructies niet perfect waren.

5. Waarom is dit belangrijk?

Vroeger moesten robots vaak in perfecte, voorspelbare omgevingen werken. Met LEGS kunnen ze nu werken in de echte wereld, waar alles rommelig is en mensen niet altijd perfect praten of wijzen.

Het is alsof je een robot hebt die niet alleen luistert, maar ook meedenkt:

"Hm, hij zei 'kopje', maar hij wijst naar de kast waar alleen mokken staan. Waarschijnlijk bedoelt hij die mok daar."

Conclusie in één zin

LEGS-POMDP is een slim systeem dat robots leert om niet bang te zijn voor onduidelijkheid, maar om taal, gebaren en visie te combineren als een detective die zijn twijfels stap voor stap wegneemt tot hij het juiste object vindt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "LEGS-POMDP: Language and Gesture-Guided Object Search in Partially Observable Environments" in het Nederlands.

Probleemstelling

Robots die mensen moeten assisteren in ongestructureerde, open-wereld omgevingen, moeten vaak vaag of ambigu instructies interpreteren om specifieke objecten te vinden. Dit probleem, bekend als "menselijk geïnstrueerd objectzoektocht", vereist dat een robot twee onzekerheden tegelijkertijd oplost:

Identiteit: Welk object wordt er bedoeld? (Vaak onduidelijk door taalgebruik, bijv. "de mok" vs. "de beker").
Locatie: Waar bevindt het object zich? (Onzekerheid door beperkt zicht, ruis in sensoren en onnauwkeurige gebaren).

Bestaande benaderingen hebben beperkingen:

Foundation-modellen (end-to-end) excelleren in multimodale gronding, maar missen vaak een principieel mechanisme om onzekerheid te modelleren in lang-horizon taken en bieden weinig interpretatie.
Traditionele POMDP's (Partially Observable Markov Decision Processes) modelleren onzekerheid goed, maar zijn vaak beperkt tot taal alleen, tabletop-omgevingen of maken te strenge aannames over de omgeving.

De kernuitdaging is het creëren van een systeem dat taal, gebaren en visuele waarneming combineert om robuust te plannen onder onzekerheid in grote, dynamische omgevingen.

Methodologie: LEGS-POMDP

De auteurs introduceren LEGS-POMDP, een modulaire POMDP-architectuur die taal, gebaren en visuele observaties integreert. Het systeem is ontworpen om expliciet twee bronnen van partiële waarneembaarheid te modelleren: onzekerheid over de intentie van de mens (doelobject) en onzekerheid over de omgeving (locatie).

1. POMDP Formulering

Het probleem wordt gemodelleerd als een POMDP-tuple $(S, A, T, O, Z, R, \gamma)$ :

Staatruimte ( $S$ ): Bestaat uit de robotpose $(x, y, \theta)$ en de latente locatie van het doelobject. Het systeem gebruikt een object-onafhankelijke representatie (doel vs. afleider) in plaats van categorieën, om te focussen op onzekerheidsredenering.
Actieruimte ( $A$ ): Omvat bewegingsacties (vooruit, achteruit, draaien), een observatieverzamelactie ("kijken") en een beëindigingsactie ("vinden").
Observatiemodel ( $Z$ ): Dit is het hart van de innovatie. Het model fuseert drie modaliteiten in een gezamenlijke waarschijnlijkheidsverdeling via log-ruimte fusie:
$\log Z(o|s) = w_v \log P_v(o_v|s) + w_g \log P_g(o_g|s) + w_l \log P_l(o_l|s)$
- Visie: Gemodelleerd als een waaier-vormige sensor met Gaussische afname op basis van hoekafwijking en afstand.
- Taal: Gebruikt een similariteitsfunctie (bijv. via LLM's) om de waarschijnlijkheid te berekenen dat een instructie overeenkomt met een kandidaat-locatie, rekening houdend met ASR-fouten en ambiguïteit.
- Gestuur: Gebaren worden niet als deterministisch gezien, maar als een probabilistische "kegel" (cone) gebaseerd op anatomische cues (oog-pols, schouder-pols, elleboog-pols). De opening van de kegel vangt de variabiliteit in menselijk wijzen op.

2. Planningsoplosser

Voor het oplossen van de POMDP wordt PO-UCT (Partially Observable Upper Confidence Bound applied to Trees) gebruikt. Dit is een Monte Carlo Tree Search-algoritme dat exploratie en exploitatie balanceert door trajecten te simuleren vanuit de huidige overtuiging (belief). PO-UCT wordt verkozen boven heuristieken omdat het dieper vooruitkijkt en beter omgaat met onzekerheid.

3. Modulaire Implementatie

Het systeem is modulair opgebouwd, wat betekent dat perceptiecomponenten (zoals objectdetectie of gebarenherkenning) kunnen worden vervangen of geüpgraded zonder de onderliggende POMDP-logica te veranderen.

In simulatie worden analytische waarschijnlijkheidsmodellen gebruikt.
In de echte wereld gebruikt het systeem MediaPipe voor skelettracking, SAM2 + GPT-4o voor "Set-of-Marks" (SoM) taalgronding, en onboard camera-detectie.

Belangrijkste Bijdragen

Formulering van Onzekerheid: Het is de eerste POMDP-gebaseerde aanpak die expliciet twee lagen van onzekerheid modelleert (menselijke intentie én omgevingsstaat) voor objectzoektochten in open werelden.
Modulaire Multimodale Observatie: Een nieuw observationeel model dat taal, gebaren en visie combineert als probabilistische likelihoods binnen een Bayesiaanse update, wat interpretatie en robuustheid biedt.
Uitgebreide Evaluatie: Een comprehensive evaluatie die gaat van modulaire benchmarks (gebaren- en taalgronding) tot volledige systeemtests in simulatie en op een echte Boston Dynamics Spot-robot.

Resultaten

Modulaire Evaluatie

Gebarengronding: Een probabilistische "geste-kegel" (gebaseerd op gemiddelde anatomische vectoren) presteerde significant beter dan enkele vector-baselines (bijv. enkel schouder-pols). De kegel bereikte een dekking van 89% en een hoekfout van slechts 14,4°, wat aantoont dat het robuuster is tegen pose-variabiliteit en ruis.
Visuele/Taalgronding: De "Set-of-Marks" (SoM) aanpak (SAM2 + GPT-4o) presteerde beter in het oplossen van referentiële uitdrukkingen (91,4% grondingsnauwkeurigheid) dan traditionele detectors (GroundingDINO, 62,4%), vooral bij complexe of ruimtelijke instructies, hoewel het langzamer is.

Systeem Evaluatie (Simulatie)

Planner Vergelijking: PO-UCT presteerde het beste met een histogram-gebaseerde overtuiging, met een succespercentage van 96%. Heuristische benaderingen (Greedy) faalden vaak door onzekerheid te negeren.
Multimodale Fusie:
- Multimodaal (Taal + Gebaar): Hoogste succespercentage (88,8%) en snelste voltooiing (gemiddeld 16,7 seconden).
- Enkel Modaal: Taal alleen (71,0%) en gebaren alleen (61,8%) deden het goed, maar slechter dan de combinatie.
- Foutieve Invoer: Als de input verkeerd was (bijv. "verkeerde taal" of "conflicterende multimodale input"), daalde het succespercentage drastisch (tot <10%), wat aantoont hoe cruciaal betrouwbare gronding is voor de overtuigingsupdate.
Omgevingscomplexiteit: In grote, complexe omgevingen (20x20) degradeerde enkel-modale instructies sterk, terwijl multimodale input robuust bleef.

Echte Robot Test

Op een Boston Dynamics Spot-robot werd aangetoond dat het systeem in staat is om entropie (onzekerheid) snel te reduceren. Multimodale input (G + L) verlaagde de entropie met 60,8% in 10 observatiestappen, aanzienlijk meer dan enkel visie (30,1%) of enkel taal (34,2%).

Betekenis en Conclusie

LEGS-POMDP bewijst dat het combineren van taal en gebaren binnen een principieel probabilistisch raamwerk (POMDP) essentieel is voor robuuste robotinteractie in onzekere omgevingen.

Robuustheid: Het systeem kan ambiguïteit oplossen door complementaire modaliteiten te gebruiken (gebaren verduidelijken vaag taalgebruik en vice versa).
Interpreteerbaarheid: In tegenstelling tot end-to-end deep learning-modellen, biedt LEGS-POMDP inzicht in waarom een robot een beslissing neemt, dankzij de Bayesiaanse overtuigingsupdates.
Toekomst: Hoewel het systeem succesvol is, blijven uitdagingen bestaan, zoals de aanname van conditionele onafhankelijkheid tussen modaliteiten en de afhankelijkheid van nauwkeurige visuele segmentatie. Toekomstig werk richt zich op het integreren van meer gebarensoorten en tastiele input voor nog natuurlijkere interactie.

Kortom, dit werk zet een nieuwe standaard voor hoe robots instructies moeten interpreteren in de echte wereld: niet als deterministische commando's, maar als probabilistische signalen die gezamenlijk onzekerheid moeten reduceren.