Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Each language version is independently generated for its own context, not a direct translation.

🎧 Le Titre : "Écouter avec les Yeux"

Imaginez que vous êtes dans une cuisine avec un ami. Vous lui dites : "Mets ça dans ça."
Si vous ne dites rien de plus, votre ami est perdu. Il ne sait pas quel objet est "ça" ni où le mettre. Mais si, en disant "ça", vous pointez du doigt une pomme rouge, puis en disant "dans ça", vous pointez un bol, votre ami comprend tout de suite.

C'est exactement ce que les humains font tout le temps : on utilise des mots courts ("ça", "là", "ceci") et on les lie à un geste rapide (pointer du doigt) pour que le message soit clair.

🤖 Le Problème : Les Robots sont trop "bavards"

Aujourd'hui, les robots intelligents (les IA) sont entraînés avec des instructions très précises et complètes, comme : "Prends la pomme rouge sur la gauche et mets-la dans le bol bleu."
Dans ce cas, le robot n'a même pas besoin de regarder la vidéo ou d'écouter le son. Il peut deviner la réponse juste en lisant le texte. C'est comme un élève qui triche en lisant les réponses dans le manuel avant l'examen.

Mais dans la vraie vie, les humains ne parlent pas comme des manuels. On utilise des gestes. Les chercheurs se sont demandé : "Nos robots savent-ils vraiment écouter et regarder en même temps pour comprendre un geste rapide ?"

🧪 La Solution : Le "EcoG-Bench" (Le Grand Test)

Pour répondre à cette question, les auteurs ont créé un nouveau test très difficile, appelé EcoG-Bench.

Imaginez que c'est un examen de conduite pour robots, mais avec des règles strictes :

Le scénario : Une vidéo prise à la première personne (comme si c'était vos yeux).
La consigne : Une voix dit quelque chose d'ambigu, comme "Mets ça ici", accompagnée d'un geste rapide de la main qui pointe un objet précis.
Le défi : Le robot doit répondre à trois questions en même temps, avec une précision de l'ordre de la milliseconde :
- QUOI ? (Quel objet est-ce ?)
- OÙ ? (Où exactement pointer sur l'image ?)
- QUAND ? (À quelle seconde exacte le doigt a-t-il pointé ?)

Si le robot rate l'un de ces trois points, c'est un échec total. C'est comme si vous deviez attraper une mouche en vol : si vous ratez le moment, l'endroit ou la cible, vous ne la prenez pas.

📉 Les Résultats : Un fossé énorme

Les résultats sont surprenants et un peu décevants pour les robots :

Les Humains : Ils réussissent presque parfaitement (97 % de réussite). Pour nous, c'est naturel de lier un mot à un geste.
Les Robots (IA) : Même les modèles les plus avancés (comme Gemini) échouent lamentablement (environ 17 % de réussite).

Pourquoi ?
Les robots sont très forts pour reconnaître les objets (ils savent qu'il y a une pomme), mais ils sont nuls pour lier le mot au geste au bon moment.
C'est comme si un chef cuisinier savait reconnaître tous les ingrédients, mais qu'il ne comprenait pas quand le chef de cuisine lui disait "Ajoute le sel maintenant" en pointant le pot. Il ajoute le sel au mauvais moment ou sur le mauvais plat.

🔍 Le Diagnostic : Le problème vient de l'oreille, pas du cerveau

Les chercheurs ont fait une expérience curieuse. Ils ont pris le même robot, mais au lieu de lui donner la vidéo brute avec le son (ce qui est difficile pour lui à analyser), ils lui ont donné :

Des images extraites de la vidéo avec des horloges précises sur chaque image.
Le texte de ce qui a été dit, avec des horloges précises sur chaque mot.

Résultat ? La performance du robot a explosé (passant de 17 % à 43 %).

La métaphore :
C'est comme si on donnait au robot un livre de recettes avec des notes en marge disant "Regarde l'image 3 à la 2ème seconde".
Cela prouve que le robot n'est pas "bête" pour comprendre le geste, mais que l'interface (la façon dont on lui donne la vidéo et le son) cache les indices temporels importants. Le robot a besoin d'horloges claires pour savoir quand le doigt pointe.

💡 En résumé

Ce papier nous dit deux choses importantes :

Les robots actuels ne savent pas encore "écouter avec les yeux". Ils ne comprennent pas encore bien la danse entre nos mots et nos gestes rapides.
Le problème n'est pas seulement l'intelligence du robot, mais comment on lui présente l'information. Si on lui donne des repères temporels clairs (des horloges), il devient beaucoup plus performant.

C'est une étape cruciale pour créer des robots qui pourront un jour travailler avec nous dans nos cuisines, nos usines ou nos bureaux, en comprenant nos gestes naturels et nos "ça" et "là" sans avoir besoin d'explications interminables.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Dans les collaborations situées (réelles), les humains utilisent souvent des commandes déictiques intentionnellement sous-spécifiées (ex: « passe-moi ça », « mets-le là »). La référence de ces commandes n'est pas résolue par le texte seul, mais par l'alignement temporel précis entre le mot déictique et un geste de pointage co-parole (le « stroke » du geste) visible dans la vidéo.

Cependant, les benchmarks existants pour l'IA incarnée (Embodied AI) sont majoritairement « suffisants en texte » (text-sufficient). Les instructions y sont exhaustives (ex: « prends la pomme rouge à gauche »), permettant aux modèles de langage multimodaux (MLLM) de réussir sans apprendre l'alignement audio-visuel temporel. Cela crée un fossé : les modèles actuels échouent à interpréter les interactions naturelles où le contexte temporel et gestuel est indispensable pour l'exécution.

Le défi principal est de créer un système capable de réaliser un ancrage événementiel (event-level binding) : associer chaque phrase déictique à la bonne séquence de geste dans la vidéo, puis produire une intention exécutable définie par trois dimensions : Quoi (l'objet), Où (la coordonnée 2D précise) et Quand (le milliseconde exacte du geste).

2. Méthodologie et Proposition : EcoG-Bench

Les auteurs introduisent EcoG (Egocentric Co-Speech Grounding) et son benchmark associé, EcoG-Bench.

A. Définition de la Tâche

La tâche consiste à prendre un clip vidéo égocentrique synchronisé avec l'audio et à générer une liste ordonnée de triplets pour chaque référence déictique :

Quoi (What) : L'index sémantique de l'objet cible dans un ensemble fermé de candidats.
Où (Where) : Un point 2D précis sur la dernière frame du clip (assurant un point d'atterrissage actionnable).
Quand (When) : Un timestamp en millisecondes correspondant à la fenêtre temporelle du geste de pointage qui désambiguïse la référence.

B. Construction du Dataset (EcoG-Bench)

Données : 811 clips vidéo bilingues (Anglais/Chinois) issus de collaborations humaines réelles dans des environnements industriels, cuisines et bureaux.
Annotation : Supervision « Full-Stack » incluant des étiquettes sémantiques, spatiales (masques ou points) et temporelles (fenêtres de stroke au millième de seconde).
Protocole d'Évaluation Cognitive Progressive (L1–L4) :
- L1 : Pointage déictique silencieux (K=1).
- L2 : Ancrage co-parole simple (K=1, un mot + un geste).
- L3 : Attribution d'événements doubles (K=2, assigner deux mots à deux gestes distincts dans le même clip).
- L4 : Chaînage d'intentions multi-événements (K=3-4, suivi d'état de référence complexe).

C. Métriques d'Évaluation

L'évaluation est stricte et orientée vers l'exécutabilité :

Eco-Accuracy ( $Acc_{eco}$ ) : Métrique conjonctive. Une prédiction n'est correcte que si Quoi, Où et Quand sont tous corrects simultanément.
Acc_seq : Succès au niveau du clip (tous les triplets d'une instruction multi-étapes doivent être corrects).

3. Résultats Expérimentaux

Les auteurs ont évalué des MLLMs de l'état de l'art (Gemini-3-Pro/Flash, Qwen3-Omni, etc.) sur EcoG-Bench.

Écart Humain-Modèle : Les humains atteignent un plafond de performance proche de 96,9 % ( $Acc_{eco}$ ). En revanche, les meilleurs modèles natifs (Video-Omni) plafonnent à 17,0 % (Gemini-3-Pro).
Effondrement Compositionnel : La performance chute drastiquement dès que la tâche passe d'un événement unique (L2) à l'attribution d'événements multiples (L3/L4). Pour Gemini-3-Pro, la précision passe de 29,2 % (L2) à 10,6 % (L3) et 10,2 % (L4), avec un succès de séquence ( $Acc_{seq}$ ) tombant à 0,4 % pour L4.
Reconnaissance vs. Ancrage : Les modèles peuvent bien reconnaître les objets (Acc_cls élevé, ~64 %), mais échouent à produire un ancrage exécutable (mauvaise localisation spatiale ou désalignement temporel).
Analyse des Goulots d'Étranglement : Les erreurs sont majoritairement « conjointes » (échec simultané de la localisation et du timing), indiquant que le problème n'est pas un manque de reconnaissance d'objets, mais une incapacité à lier robustement le langage, l'espace et le temps.

4. Diagnostic et Analyse des Interfaces

Une partie cruciale de l'étude est le diagnostic de la pile d'entrée (Input-Stack Diagnosis) pour déterminer si l'échec vient du modèle ou de l'interface multimodale.

Expérience : Comparaison entre l'interface native (Vidéo + Audio brute) et une interface structurée (Images échantillonnées avec timestamps + Transcription ASR avec timestamps au niveau des mots).
Résultat Majeur : Pour le même modèle (Gemini-3-Pro), l'utilisation de l'interface structurée fait passer la précision stricte de 17,0 % à 42,9 %.
Abalation Temporelle : Le retrait des timestamps de frame provoque une chute massive de la précision temporelle, surtout en L1 (silencieux). Cela prouve que les interfaces natives actuelles masquent souvent les indices d'alignement temporel fins nécessaires à la désambiguïsation déictique.

5. Contributions Clés

Tâche (EcoG) : Introduction d'un nouveau paradigme exigeant des prédictions exécutables (Quoi/Où/Quand) pour les commandes déictiques co-parole.
Benchmark (EcoG-Bench) : Création d'un dataset de référence bilingue, avec des annotations spatiales denses et des fenêtres de geste au millième de seconde, structuré selon un protocole d'évaluation cognitive progressive (L1-L4).
Constat et Diagnostic : Révélation d'un fossé d'exécutabilité majeur pour les MLLMs actuels et démonstration que l'amélioration de l'exposabilité des ancres temporelles dans l'interface d'entrée peut significativement améliorer la liaison événementielle, indépendamment des poids du modèle.

6. Signification et Impact

Ce travail met en lumière une limite fondamentale des systèmes d'IA incarnés actuels : ils ne sont pas encore capables de gérer la collaboration déictique naturelle qui repose sur des signaux temporels fugaces.

Pour la recherche : EcoG-Bench offre un test rigoureux pour évaluer la capacité des modèles à lier le langage au mouvement visuel dans le temps.
Pour l'ingénierie : Les résultats suggèrent que les interfaces multimodales « natifs » (vidéo/audio bruts) peuvent être insuffisantes pour les tâches d'alignement fin. L'ajout explicite d'ancres temporelles (timestamps de frames et de mots) dans le pipeline d'entrée pourrait être une étape nécessaire pour atteindre une collaboration humain-robot fiable.

En résumé, l'article démontre que pour que les agents artificiels puissent « écouter avec les yeux » et collaborer naturellement, ils doivent non seulement comprendre le langage, mais aussi maîtriser la synchronisation fine entre le discours et le geste, une capacité que les benchmarks actuels ne testent pas correctement.