Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time
Dit paper introduceert EcoG-Bench, een diagnostisch benchmark voor egocentrische co-spraakgrounding dat aantoont dat er een groot prestatiekloof bestaat tussen menselijke en modelprestaties, voornamelijk veroorzaakt door beperkingen in multimodale interfaces die de waarneming van temporale uitlijning tussen spraak en gebaren belemmeren.