Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Dit paper introduceert EcoG-Bench, een diagnostisch benchmark voor egocentrische co-spraakgrounding dat aantoont dat er een groot prestatiekloof bestaat tussen menselijke en modelprestaties, voornamelijk veroorzaakt door beperkingen in multimodale interfaces die de waarneming van temporale uitlijning tussen spraak en gebaren belemmeren.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Luisteren met je ogen: Waarom robots nog niet goed kunnen "wijzen"

Stel je voor dat je samen met een robot in een rommelige keuken staat. Je wilt dat hij een aardbei pakt en in een kom doet.

In de oude wereld van robotica zou je zeggen: "Pak de rode aardbei links van de sinaasappel en leg hem in de blauwe kom." De robot leest dit, zoekt de objecten op en doet wat hij moet doen. Dit is makkelijk, want de instructie is volledig.

Maar in het echte leven praten mensen anders. We zeggen vaak: "Pak die en doe dat hierin." Terwijl je dit zegt, wijs je met je vinger naar de aardbei en daarna naar de kom.

Het probleem is: zonder dat wijstje is de zin "Pak die" onzin. Welke "die" bedoel je? De aardbei? De kom? De robot?

Dit is precies waar het nieuwe onderzoek "Listening with the Eyes" (Luisteren met je ogen) over gaat. De onderzoekers hebben een nieuwe test ontwikkeld om te zien of robots echt kunnen meedoen aan dit soort natuurlijke gesprekken.

De Grote Uitdaging: De "Waar, Wat en Wanneer" Drie-eenheid

Om een robot te laten begrijpen wat je bedoelt met "Pak die aardbei", moet hij drie dingen tegelijk doen, en dat moet perfect kloppen:

  1. Wat: Welk object bedoel je? (De aardbei, niet de kom).
  2. Waar: Waar moet hij precies op klikken? (Niet op de rand van de kom, maar op de aardbei zelf).
  3. Wanneer: Op welk exact moment in de video heb je dat gezegd en gewenkt? (Precies op het moment dat je vinger de aardbei aanwijst).

Als de robot één van deze drie fouten maakt, faalt de hele opdracht. Het is als een slot met drie sleutels: als je één sleutel verkeerd draait, gaat de deur niet open.

De Nieuwe Test: EcoG-Bench

De onderzoekers hebben een nieuwe testbank gemaakt, genaamd EcoG-Bench. Ze hebben 811 filmpjes gemaakt van mensen die samenwerken (bijvoorbeeld in een fabriek of keuken). In deze filmpjes geven mensen instructies zoals "Doe dit hierin" terwijl ze wijzen.

Ze hebben de filmpjes in vier moeilijkheidsgraden verdeeld:

  • Niveau 1: Alleen wijzen (geen woorden). De robot moet alleen kijken naar de vingerbeweging.
  • Niveau 2: Eén zin + één wijziging. ("Pak die").
  • Niveau 3: Twee zinnen + twee wijzigingen. ("Pak die en doe die hierin"). Nu moet de robot onthouden welke "die" bij welk wijziging hoort.
  • Niveau 4: Een hele keten van instructies. ("Pak die, doe dat daar, en pak dan dat andere").

De Schokkende Resultaten

Toen ze de slimste robots van vandaag (zoals de nieuwste AI-modellen) op deze test lieten, was het resultaat teleurstellend:

  • Mensen: Haalden bijna 97% score. Voor ons is het heel makkelijk om te zien wat iemand bedoelt terwijl hij wijst.
  • Robots: Haalden maar ongeveer 17% score.

De robots konden vaak wel zien wat er in de video zat (ze herkenden de aardbei), maar ze konden de tijd niet koppelen aan de woorden. Ze wisten niet dat het woord "die" precies op het moment van het wijzen gold. Het was alsof ze een filmpje keken met de audio erachteraan, maar de sync was verbroken.

Het Geheim: De "Tijds-Anker"

De onderzoekers deden een experiment om te zien waarom de robots faalden. Ze gaven dezelfde robot een andere manier om het filmpje te "zien":

  • Manier A (Normaal): De robot krijgt het hele filmpje met geluid.
  • Manier B (De "Bril"): De robot krijgt een reeks foto's uit het filmpje, elk met een exacte tijdstempel, en een tekstversie van wat er gezegd wordt, maar dan met exacte tijdstempels per woord.

Het resultaat? De score van de robot schoot omhoog van 17% naar 43%!

Wat betekent dit?
Het betekent dat de robots niet per se "dom" zijn, maar dat de manier waarop ze het filmpje bekijken, hen de belangrijke hints ontnemen. Als je een robot een heel filmpje geeft, is het alsof je iemand een rommelige kamer geeft en vraagt: "Waar heb ik net naar gewezen?". Als je hem daarentegen een lijst geeft met foto's en tijden ("Op seconde 3:12 keek hij naar links, op 3:15 zei hij 'die'"), dan kan hij het veel beter begrijpen.

Conclusie: Robots moeten leren "kijken" terwijl ze "luisteren"

De kernboodschap van dit papier is dat robots nog niet goed kunnen samenwerken met mensen op een natuurlijke manier. Ze missen het vermogen om te koppelen wat er gezegd wordt aan wat er op dat exacte moment gebeurt.

Om robots echt slim te maken voor samenwerking, moeten we niet alleen hun "hersenen" (het AI-model) verbeteren, maar ook hun "zintuigen" (hoe ze video en geluid binnenkrijgen). Ze moeten leren om te luisteren met hun ogen, precies op het moment dat iemand wijst.

Kortom: Als we willen dat robots onze helpers worden in het echte leven, moeten we ze leren om niet alleen naar woorden te kijken, maar ook naar de timing van onze gebaren.