Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Each language version is independently generated for its own context, not a direct translation.

Luisteren met je ogen: Waarom robots nog niet goed kunnen "wijzen"

Stel je voor dat je samen met een robot in een rommelige keuken staat. Je wilt dat hij een aardbei pakt en in een kom doet.

In de oude wereld van robotica zou je zeggen: "Pak de rode aardbei links van de sinaasappel en leg hem in de blauwe kom." De robot leest dit, zoekt de objecten op en doet wat hij moet doen. Dit is makkelijk, want de instructie is volledig.

Maar in het echte leven praten mensen anders. We zeggen vaak: "Pak die en doe dat hierin." Terwijl je dit zegt, wijs je met je vinger naar de aardbei en daarna naar de kom.

Het probleem is: zonder dat wijstje is de zin "Pak die" onzin. Welke "die" bedoel je? De aardbei? De kom? De robot?

Dit is precies waar het nieuwe onderzoek "Listening with the Eyes" (Luisteren met je ogen) over gaat. De onderzoekers hebben een nieuwe test ontwikkeld om te zien of robots echt kunnen meedoen aan dit soort natuurlijke gesprekken.

De Grote Uitdaging: De "Waar, Wat en Wanneer" Drie-eenheid

Om een robot te laten begrijpen wat je bedoelt met "Pak die aardbei", moet hij drie dingen tegelijk doen, en dat moet perfect kloppen:

Wat: Welk object bedoel je? (De aardbei, niet de kom).
Waar: Waar moet hij precies op klikken? (Niet op de rand van de kom, maar op de aardbei zelf).
Wanneer: Op welk exact moment in de video heb je dat gezegd en gewenkt? (Precies op het moment dat je vinger de aardbei aanwijst).

Als de robot één van deze drie fouten maakt, faalt de hele opdracht. Het is als een slot met drie sleutels: als je één sleutel verkeerd draait, gaat de deur niet open.

De Nieuwe Test: EcoG-Bench

De onderzoekers hebben een nieuwe testbank gemaakt, genaamd EcoG-Bench. Ze hebben 811 filmpjes gemaakt van mensen die samenwerken (bijvoorbeeld in een fabriek of keuken). In deze filmpjes geven mensen instructies zoals "Doe dit hierin" terwijl ze wijzen.

Ze hebben de filmpjes in vier moeilijkheidsgraden verdeeld:

Niveau 1: Alleen wijzen (geen woorden). De robot moet alleen kijken naar de vingerbeweging.
Niveau 2: Eén zin + één wijziging. ("Pak die").
Niveau 3: Twee zinnen + twee wijzigingen. ("Pak die en doe die hierin"). Nu moet de robot onthouden welke "die" bij welk wijziging hoort.
Niveau 4: Een hele keten van instructies. ("Pak die, doe dat daar, en pak dan dat andere").

De Schokkende Resultaten

Toen ze de slimste robots van vandaag (zoals de nieuwste AI-modellen) op deze test lieten, was het resultaat teleurstellend:

Mensen: Haalden bijna 97% score. Voor ons is het heel makkelijk om te zien wat iemand bedoelt terwijl hij wijst.
Robots: Haalden maar ongeveer 17% score.

De robots konden vaak wel zien wat er in de video zat (ze herkenden de aardbei), maar ze konden de tijd niet koppelen aan de woorden. Ze wisten niet dat het woord "die" precies op het moment van het wijzen gold. Het was alsof ze een filmpje keken met de audio erachteraan, maar de sync was verbroken.

Het Geheim: De "Tijds-Anker"

De onderzoekers deden een experiment om te zien waarom de robots faalden. Ze gaven dezelfde robot een andere manier om het filmpje te "zien":

Manier A (Normaal): De robot krijgt het hele filmpje met geluid.
Manier B (De "Bril"): De robot krijgt een reeks foto's uit het filmpje, elk met een exacte tijdstempel, en een tekstversie van wat er gezegd wordt, maar dan met exacte tijdstempels per woord.

Het resultaat? De score van de robot schoot omhoog van 17% naar 43%!

Wat betekent dit?
Het betekent dat de robots niet per se "dom" zijn, maar dat de manier waarop ze het filmpje bekijken, hen de belangrijke hints ontnemen. Als je een robot een heel filmpje geeft, is het alsof je iemand een rommelige kamer geeft en vraagt: "Waar heb ik net naar gewezen?". Als je hem daarentegen een lijst geeft met foto's en tijden ("Op seconde 3:12 keek hij naar links, op 3:15 zei hij 'die'"), dan kan hij het veel beter begrijpen.

Conclusie: Robots moeten leren "kijken" terwijl ze "luisteren"

De kernboodschap van dit papier is dat robots nog niet goed kunnen samenwerken met mensen op een natuurlijke manier. Ze missen het vermogen om te koppelen wat er gezegd wordt aan wat er op dat exacte moment gebeurt.

Om robots echt slim te maken voor samenwerking, moeten we niet alleen hun "hersenen" (het AI-model) verbeteren, maar ook hun "zintuigen" (hoe ze video en geluid binnenkrijgen). Ze moeten leren om te luisteren met hun ogen, precies op het moment dat iemand wijst.

Kortom: Als we willen dat robots onze helpers worden in het echte leven, moeten we ze leren om niet alleen naar woorden te kijken, maar ook naar de timing van onze gebaren.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

In situated samenwerking (situaties waar mensen samenwerken in een fysieke omgeving) gebruiken sprekers vaak onderspecificeerde deictische commando's (bijv. "geef mij dat" of "zet dit hierin") in plaats van exhaustieve beschrijvingen. De referentie van deze woorden wordt pas opgelost door ze te koppelen aan een kort, gelijktijdig wijzend gebaar (een "stroke") in de video.

Bestaande benchmarks voor Embodied AI en Multimodale Large Language Models (MLLM's) zijn echter grotendeels tekst-voldoende (text-sufficient). In deze benchmarks kunnen modellen het juiste object vaak afleiden puur op basis van de tekst (bijv. "pak de rode appel links"), waardoor ze de noodzakelijke audio-visuele synchronisatie niet hoeven te leren. Dit creëert een kloof: huidige modellen presteren goed op tekstuele taken, maar falen bij het realiseren van event-level speech-gesture binding (het koppelen van een woord aan een specifiek tijdstip en gebaar in een video). Er ontbreekt een strikte evaluatieomgeving die eist dat een agent niet alleen begrijpt wat er gezegd wordt, maar ook waar (ruimtelijk) en wanneer (tijdelijk) het gebaar plaatsvindt om een actie uitvoerbaar te maken.

Methodologie: EcoG en EcoG-Bench

De auteurs introduceren Egocentric Co-Speech Grounding (EcoG) als taak en EcoG-Bench als de bijbehorende diagnostische benchmark.

1. Taakdefinitie (EcoG):
De agent moet voor elk deictisch referent in een instructie een uitvoerbaar intent-triplet voorspellen:

What: Het semantische referent (binnen een gesloten set van opties).
Where: Een precieze 2D-coördinaat op het laatste frame (het "landingspunt" voor de actie).
When: Een milliseconde-tijdstempel binnen het venster van het desbetreffende wijzende gebaar.

2. Dataset (EcoG-Bench):

Omvang: 811 egocentrische video-clips (4-12 seconden) met gesynchroniseerde audio.
Talen: Tweetalig (Engels en Chinees).
Domeinen: Industrieel, Keuken en Kantoor.
Anotatie: Dichte ruimtelijke annotaties en milliseconde-nauwkeurige supervisie voor gebaar-strokes.
Protocol: Een Progressive Cognitive Evaluation protocol met vier niveaus van complexiteit:
- L1: Stille deictische wijzing (geen spraak, puur visueel).
- L2: Single-event binding (één woord, één gebaar).
- L3: Dual-event toewijzing (twee woorden, twee gebaren binnen één clip; vereist het onderscheiden welke woord bij welk gebaar hoort).
- L4: Multi-event intent chaining (meerdere stappen, referentiële state-tracking).

3. Evaluatiemetrics:
De auteurs gebruiken strikte conjunctieve metrics:

Eco-Accuracy ( $Acc_{eco}$ ): Een referent is alleen correct als What, Where én When allemaal correct zijn.
Sequence Success ( $Acc_{seq}$ ): Een hele clip is alleen correct als alle referenten in de instructie correct zijn (geen enkele fout mag optreden).

Belangrijkste Resultaten

1. Grote kloof tussen Mens en Model:

Menselijke proefpersonen bereiken bijna plafondprestaties (96,9% strikte Eco-Accuracy).
State-of-the-art MLLM's (zoals Gemini-3-Pro) presteren zeer slecht onder native video-audio interfaces (17,0% Eco-Accuracy).
De prestaties collapseert drastisch naarmate de complexiteit toeneemt: van L2 naar L3 daalt de prestatie van Gemini-3-Pro van 29,2% naar 10,6%, en de sequence success naar 1,8%. Dit toont aan dat modellen moeite hebben met het toewijzen van meerdere deictische cues binnen één clip.

2. Semantisch herkennen $\neq$ Uitvoerbaar gronding:
Modellen kunnen vaak het juiste object identificeren (hoge classificatie-accuracy), maar falen in het koppelen van het juiste tijdstip en de juiste locatie. Een kleine tijdsfout of een licht afwijkende coördinaat maakt de hele actie niet-uitvoerbaar.

3. Diagnose van de Input-Stack (De "Bottleneck"):
De auteurs voeren een ablatiestudie uit om te bepalen of het probleem ligt bij het model of bij de input-interface.

Native Video-Omni: Het model krijgt de ruwe video en audio. Resultaat: Slecht (17,0%).
Gestructureerde Input (Images + ASR): Dezelfde modellen krijgen gefragmenteerde frames met tijdstempels + een ASR-transcript met woord-tijdstempels.
Resultaat: De prestatie van Gemini-3-Pro springt naar 42,9% Eco-Accuracy.
Conclusie: Native video-audio interfaces lijken tijdelijke synchronisatiekoppelingen (alignment cues) niet betrouwbaar bloot te leggen aan het model. Het expliciet aanleveren van tijdsankers (via ASR en frame-timestamps) verbetert de prestatie aanzienlijk, wat suggereert dat de input-pipeline een bottleneck is, niet alleen de redeneringscapaciteit van het model.

Bijdragen

Taakdefinitie: Introductie van EcoG als een taak die strikte, uitvoerbare voorspellingen vereist voor deictische commando's (What/Where/When).
Benchmark: Bouwen van EcoG-Bench, een tweetalige, diagnostische benchmark met milliseconde-nauwkeurige gebaar-annotaties en een progressief cognitief evaluatieprotocol (L1-L4).
Inzicht en Diagnose: Het blootleggen van een grote uitvoerbaarheidskloof tussen mens en machine, en het aantonen dat de multimodale input-interface (en niet alleen de modelarchitectuur) een kritieke factor is in het succesvol binden van spraak en gebaar.

Significantie

Dit werk is cruciaal voor de ontwikkeling van de volgende generatie Embodied AI-systemen. Het toont aan dat huidige benchmarks tekortschieten in het testen van echte menselijke samenwerking, waarbij taal vaak vaag is en gebaren essentieel zijn. EcoG-Bench dwingt modellen om niet alleen te "zien" en "horen", maar deze modaliteiten nauwkeurig in de tijd te synchroniseren. De bevindingen suggereren dat voor robuuste samenwerking, multimodale interfaces expliciete tijdsankers moeten bieden of beter moeten leren om deze uit ruwe data te extraheren, anders blijven systemen onbetrouwbaar in dynamische, real-world scenario's.

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

De Grote Uitdaging: De "Waar, Wat en Wanneer" Drie-eenheid

De Nieuwe Test: EcoG-Bench

De Schokkende Resultaten

Het Geheim: De "Tijds-Anker"

Conclusie: Robots moeten leren "kijken" terwijl ze "luisteren"

Probleemstelling

Methodologie: EcoG en EcoG-Bench

Belangrijkste Resultaten

Bijdragen

Significantie

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes