EgoCogNav: Cognition-aware Human Egocentric Navigation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je door een drukke stad loopt. Je ziet een bordje, maar het is half weg. Je twijfelt: "Moet ik linksaf of rechtsaf?" Je kijkt om je heen, je loopt even een stapje terug, en je voelt een klein beetje onzekerheid in je maag.

De meeste robots en navigatie-apps zijn heel slim in het zien van straten en gebouwen, maar ze begrijpen niet hoe jij je voelt. Ze denken: "Het is een kruispunt, dus ga rechtdoor." Maar jij bent een mens: je twijfelt, je kijkt om, en je bent onzeker.

Dit paper introduceert EgoCogNav, een slimme nieuwe manier om te voorspellen hoe mensen lopen, niet alleen op basis van waar ze zijn, maar ook op basis van wat ze denken en voelen.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. De "Gedachtenleesende" Navigatie

Stel je voor dat je een robot hebt die een camera op zijn hoofd heeft (zoals een GoPro).

De oude manier: De robot kijkt naar de video en zegt: "Ik zie een muur, dus ik ga rechtsaf."
De nieuwe manier (EgoCogNav): De robot kijkt naar de video, maar kijkt ook naar hoe je hoofd beweegt en waar je naar kijkt. Als je hoofd snel heen en weer zwaait (om te zoeken) of als je even stopt, begrijpt de robot: "Ah, deze persoon is onzeker!"

De robot probeert dus niet alleen te voorspellen waar je naartoe loopt, maar ook hoe onzeker je bent op dat moment.

2. De Drie Delen van de "Brein-Computer"

De auteurs hebben een systeem gebouwd dat bestaat uit drie delen, die samenwerken als een goed georganiseerd team:

De Ogen (Perceptie): Dit deel kijkt naar de video. Het is als een fotograaf die heel snel foto's maakt van de wereld om je heen.
De Lijf (Actie): Dit deel kijkt naar je bewegingen. "Hoe snel liep je? Keek je links of rechts?" Het is alsof je je eigen lichaam in de gaten houdt.
Het Brein (Cognitie): Dit is het magische deel. Dit is de "onzekere detector". Het kijkt naar de ogen en het lijf en zegt: "Hé, deze persoon kijkt heel veel om zich heen. Hij is waarschijnlijk aan het twijfelen."

3. De "Herinneringsbank" (Het geheugen)

Soms ben je onzeker omdat je ergens bent geweest die je niet kent. EgoCogNav heeft een speciaal geheugen.

De analogie: Stel je voor dat je een boek hebt met verhalen van andere mensen die door dezelfde stad zijn gelopen. Als jij op een onbekend kruispunt staat, kijkt het systeem in dat boek: "Heeft iemand anders hier ooit gestopt? Wat hebben ze toen gedaan?"
Dit helpt de robot om te voorspellen wat jij gaat doen, zelfs als je in een situatie zit die hij nog nooit eerder heeft gezien.

4. De Nieuwe "Zenuwstelsel" Dataset

Om dit te leren, hadden de onderzoekers veel data nodig. Ze hebben een nieuwe dataset gemaakt genaamd CEN.

Ze hebben 17 mensen een dag lang gevolgd met speciale brillen (zoals Project Aria of Tobii).
Deze mensen liepen door 42 verschillende plekken (binnen en buiten).
Het slimme stukje: Terwijl ze liepen, moesten de mensen continu op een knop drukken om aan te geven hoe onzeker ze zich voelden (van 0 = "ik weet het zeker" tot 1 = "ik ben helemaal verdwaald").
Dit is als een "dagboek van twijfel" dat de computer kan lezen.

5. Waarom is dit belangrijk?

Stel je voor dat je een blindgeleidingsapp voor blinden maakt, of een robot die in een ziekenhuis helpt.

Als de robot ziet dat de persoon onzeker is, kan de robot zeggen: "Wacht even, ik zie dat je twijfelt. Kijk eens naar dat bordje links."
Als de robot alleen maar zou kijken naar de route, zou hij misschien zeggen: "Ga rechtdoor," terwijl de persoon juist stopt omdat hij een gevaar ziet.

Kortom: EgoCogNav maakt robots menselijker. Ze begrijpen niet alleen de kaart, maar ook de mens die de kaart bekijkt. Ze weten wanneer je twijfelt, wanneer je stopt om te kijken, en wanneer je misschien een foutje maakt, zodat ze je op het juiste moment kunnen helpen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande methoden voor het voorspellen van menselijke bewegingen (trajecten) richten zich vaak op volledig waargenomen scènes (bijvoorbeeld vanuit een derde-persoons of vogelvluchtperspectief) en negeren de cognitieve en emotionele factoren die bepalen hoe mensen ruimtes ervaren en erop reageren. Mensen navigeren echter vanuit een egocentrisch perspectief (eerste-persoons), waarbij hun beslissingen worden beïnvloed door perceptie, onzekerheid en mentale processen.

De huidige uitdagingen zijn:

Gebrek aan modellen die waargenomen onzekerheid (perceived uncertainty) integreren, een staat waarin een individu worstelt met alternatieve actieopties (wat leidt tot gedrag zoals aarzelen, scannen of teruglopen).
Het ontbreken van multimodale datasets met cognitieve annotaties voor egocentrische navigatie.
Bestaande modellen die vaak aannemen dat de omgeving volledig zichtbaar is en geen rekening houden met interne cognitieve toestanden.

Het doel van dit paper is om een raamwerk te ontwikkelen dat niet alleen de toekomstige beweging voorspelt, maar ook de cognitieve toestand (onzekerheid) en de bijbehorende hoofdbewegingen (zoals het scannen van de omgeving) voorspelt op basis van egocentrische video.

Methodologie: EgoCogNav

Het auteurs stellen EgoCogNav voor, een multimodaal raamwerk dat gezamenlijk drie outputvariabelen voorspelt:

De toekomstige trajecten in het lichaamscoördinatenstelsel (body-frame trajectory).
De volgorde van hoofdhoudingen (head poses).
De momentopname van waargenomen onzekerheid (perceived path uncertainty, een waarde tussen 0 en 1).

Architectuur

Het model bestaat uit drie hoofdmodules die werken in een "perceptie-beslissing-actie" lus:

Perceptie-module:
- Verwerkt recente egocentrische RGB-videoframes.
- Gebruikt een bevroren, vooraf getrainde DINOv2 vision transformer om ruimtelijk-temporele kenmerken te extraheren.
Actie-module:
- Encodeert gesynchroniseerde signalen uit het verleden: lichaamsbeweging (versnelling/rotatie), hoofdraaiingen (6D continue rotaties) en blikrichting (gaze).
- Voegt de navigatiedoelstelling (afstand en hoek) toe als voorwaarde.
Cognitie-module (Kerninnovatie):
- Gradient-gekoppelde onzekerheidsschatting: Voorspelt de onzekerheidswaarde ( $\hat{U}_t$ ) direct uit de gedeelde encoder-kenmerken. Dit zorgt ervoor dat de encoder leert representaties die zowel nuttig zijn voor bewegingsvoorspelling als voor onzekerheidsschatting.
- Geheugen-verrijkte voorspelling: Gebruikt een leerbaar "geheugen" (learnable memory patterns) van 16 navigatiepatronen. Het model vraagt via cross-attention relevante context op uit het verleden om situaties te herkennen die lijken op huidige onzekere momenten.
- Onzekerheids-geconditioneerde decoding (UCD): Gebruikt de voorspelde onzekerheidswaarde om de decoder te moduleren via adaptieve laagnormalisatie. Hierdoor past het model zijn interne verwerking aan op basis van hoe onzeker de navigator zich voelt (bijv. meer scannen bij hoge onzekerheid).

De modules worden gefuseerd via "late concatenation", waarbij elke stroom eerst zijn eigen temporele patronen leert voordat ze worden gecombineerd.

Belangrijkste Bijdragen

Formalisatie van de Taak: De auteurs definiëren een nieuwe taak voor egocentrische voorspelling die traject, hoofdbeweging en momentopname-onzekerheid gezamenlijk voorspelt.
EgoCogNav Framework: Een nieuw architectuurontwerp dat sensorische input fuseert met menselijk gebaseerde onzekerheid om gedragsrealistische voorspellingen te genereren.
CEN Dataset (Cognition-aware Egocentric Navigation):
- Een nieuwe, publiek beschikbare dataset met 6 uur aan real-world opnames.
- Bestaat uit data van 17 deelnemers in 42 verschillende locaties (binnen en buiten).
- Bevat multimodale streams: RGB-video, oogvolging (gaze), hoofdbeweging, IMU-data en zelfgerapporteerde onzekerheid (via een controller).
- Inclusief annotaties voor specifieke navigatiegedragingen (bijv. aarzelen, teruglopen, scannen).

Resultaten

De prestaties werden geëvalueerd op een getest set met onbekende omgevingen (unseen environments).

Kwantitatieve Evaluatie:
- EgoCogNav presteerde beter dan baselines (zoals Constant Velocity, Linear Extrapolation, en een aangepaste EgoCast) op zowel het volledige testset als op een subset van "hoge onzekerheid".
- Trajectvoorspelling: Reductie van de Average Displacement Error (ADE) met 3,8% en Final Displacement Error (FDE) met 5,0% ten opzichte van de beste concurrent.
- Onzekerheid: Het model bereikte een Spearman rangcorrelatie van 0,788 met menselijke rapportages, wat aanzienlijk hoger is dan handgemaakte regels of heuristieken (die rond de 0,1-0,2 lagen). Dit bewijst dat het model de subjectieve, persoon-specifieke aard van onzekerheid leert begrijpen.
- Ablatie-studie: Het toevoegen van onzekerheidsvoorspelling alleen verbeterde de FDE al met 9,2%. De combinatie van geheugen en onzekerheidsmodulatie gaf de grootste winst, wat aantoont dat deze modules complementair werken.
Kwalitatieve Evaluatie:
- Het model toont verhoogde onzekerheidsschattingen op momenten van aarzeling, scannen of teruglopen, en lage onzekerheid in duidelijke gangen.
- Het model faalt echter bij scenario's met zware occlusie waar lange-termijn visuele context nodig is, of bij het voorspellen van meerdere mogelijke toekomstige paden (het voorspelt momenteel één beste pad).

Betekenis en Toekomstperspectief

Deze studie is significant omdat het de kloof overbrugt tussen puur bewegingsvoorspellen en het begrijpen van de menselijke ervaring van navigatie.

Toepassingen: De resultaten zijn cruciaal voor veilige sociale robotica, autonoom rijden (waarbij het systeem moet begrijpen waarom een voetgaar aarzelt), en assistieve navigatiesystemen voor mensen met een visuele beperking of cognitieve uitdagingen.
Innovatie: Door onzekerheid expliciet te modelleren, kan het systeem proactief anticiperen op moeilijkheden in de omgeving in plaats van alleen te reageren op waargenomen beweging.
Toekomstig werk: De auteurs wijzen op de noodzaak om 3D/semantische context te integreren voor betere disambiguatie, generatieve modellen te gebruiken voor meerdere toekomstige hypotheses, en uit te breiden naar langere planninghorizons en andere cognitieve signalen (zoals affect).

Samenvattend introduceert EgoCogNav een nieuwe standaard voor het modelleren van menselijke navigatie door de integratie van waarneming, cognitie en actie in één leerbaar systeem, ondersteund door een robuuste nieuwe dataset.

EgoCogNav: Cognition-aware Human Egocentric Navigation

1. De "Gedachtenleesende" Navigatie

2. De Drie Delen van de "Brein-Computer"

3. De "Herinneringsbank" (Het geheugen)

4. De Nieuwe "Zenuwstelsel" Dataset

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie: EgoCogNav

Architectuur

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Speculating Experts Accelerates Inference for Mixture-of-Experts

A Visualization for Comparative Analysis of Regression Models

Maximizing mutual information between user-contexts and responses improve LLM personalization with no additional data

BrainSCL: Subtype-Guided Contrastive Learning for Brain Disorder Diagnosis

TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly