EgoCogNav: Cognition-aware Human Egocentric Navigation

Deze paper introduceert EgoCogNav, een multimodaal raamwerk voor egocentrische navigatie dat cognitieve factoren zoals waargenomen onzekerheid integreert om menselijk gedrag beter te voorspellen, vergezeld van een nieuw dataset genaamd CEN.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je door een drukke stad loopt. Je ziet een bordje, maar het is half weg. Je twijfelt: "Moet ik linksaf of rechtsaf?" Je kijkt om je heen, je loopt even een stapje terug, en je voelt een klein beetje onzekerheid in je maag.

De meeste robots en navigatie-apps zijn heel slim in het zien van straten en gebouwen, maar ze begrijpen niet hoe jij je voelt. Ze denken: "Het is een kruispunt, dus ga rechtdoor." Maar jij bent een mens: je twijfelt, je kijkt om, en je bent onzeker.

Dit paper introduceert EgoCogNav, een slimme nieuwe manier om te voorspellen hoe mensen lopen, niet alleen op basis van waar ze zijn, maar ook op basis van wat ze denken en voelen.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. De "Gedachtenleesende" Navigatie

Stel je voor dat je een robot hebt die een camera op zijn hoofd heeft (zoals een GoPro).

  • De oude manier: De robot kijkt naar de video en zegt: "Ik zie een muur, dus ik ga rechtsaf."
  • De nieuwe manier (EgoCogNav): De robot kijkt naar de video, maar kijkt ook naar hoe je hoofd beweegt en waar je naar kijkt. Als je hoofd snel heen en weer zwaait (om te zoeken) of als je even stopt, begrijpt de robot: "Ah, deze persoon is onzeker!"

De robot probeert dus niet alleen te voorspellen waar je naartoe loopt, maar ook hoe onzeker je bent op dat moment.

2. De Drie Delen van de "Brein-Computer"

De auteurs hebben een systeem gebouwd dat bestaat uit drie delen, die samenwerken als een goed georganiseerd team:

  • De Ogen (Perceptie): Dit deel kijkt naar de video. Het is als een fotograaf die heel snel foto's maakt van de wereld om je heen.
  • De Lijf (Actie): Dit deel kijkt naar je bewegingen. "Hoe snel liep je? Keek je links of rechts?" Het is alsof je je eigen lichaam in de gaten houdt.
  • Het Brein (Cognitie): Dit is het magische deel. Dit is de "onzekere detector". Het kijkt naar de ogen en het lijf en zegt: "Hé, deze persoon kijkt heel veel om zich heen. Hij is waarschijnlijk aan het twijfelen."

3. De "Herinneringsbank" (Het geheugen)

Soms ben je onzeker omdat je ergens bent geweest die je niet kent. EgoCogNav heeft een speciaal geheugen.

  • De analogie: Stel je voor dat je een boek hebt met verhalen van andere mensen die door dezelfde stad zijn gelopen. Als jij op een onbekend kruispunt staat, kijkt het systeem in dat boek: "Heeft iemand anders hier ooit gestopt? Wat hebben ze toen gedaan?"
  • Dit helpt de robot om te voorspellen wat jij gaat doen, zelfs als je in een situatie zit die hij nog nooit eerder heeft gezien.

4. De Nieuwe "Zenuwstelsel" Dataset

Om dit te leren, hadden de onderzoekers veel data nodig. Ze hebben een nieuwe dataset gemaakt genaamd CEN.

  • Ze hebben 17 mensen een dag lang gevolgd met speciale brillen (zoals Project Aria of Tobii).
  • Deze mensen liepen door 42 verschillende plekken (binnen en buiten).
  • Het slimme stukje: Terwijl ze liepen, moesten de mensen continu op een knop drukken om aan te geven hoe onzeker ze zich voelden (van 0 = "ik weet het zeker" tot 1 = "ik ben helemaal verdwaald").
  • Dit is als een "dagboek van twijfel" dat de computer kan lezen.

5. Waarom is dit belangrijk?

Stel je voor dat je een blindgeleidingsapp voor blinden maakt, of een robot die in een ziekenhuis helpt.

  • Als de robot ziet dat de persoon onzeker is, kan de robot zeggen: "Wacht even, ik zie dat je twijfelt. Kijk eens naar dat bordje links."
  • Als de robot alleen maar zou kijken naar de route, zou hij misschien zeggen: "Ga rechtdoor," terwijl de persoon juist stopt omdat hij een gevaar ziet.

Kortom: EgoCogNav maakt robots menselijker. Ze begrijpen niet alleen de kaart, maar ook de mens die de kaart bekijkt. Ze weten wanneer je twijfelt, wanneer je stopt om te kijken, en wanneer je misschien een foutje maakt, zodat ze je op het juiste moment kunnen helpen.