Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que estás en una cocina con un amigo. Tú le dices: "Pon eso en aquello".

Si tu amigo es un robot muy avanzado, ¿podrá entender qué es "eso" y qué es "aquello"? Probablemente no, a menos que tú le señales con el dedo exactamente qué objeto tocas y cuándo lo señalas mientras hablas.

Este paper, titulado "Escuchar con los ojos", trata sobre cómo enseñar a las inteligencias artificiales (IA) a hacer exactamente eso: entender las instrucciones humanas que son vagas y dependen de gestos rápidos.

Aquí te lo explico como si fuera una historia:

1. El Problema: Los Robots son "Hipersensibles" pero "Ciegamente Lógicos"

Hasta ahora, los robots y las IAs se han entrenado con instrucciones muy detalladas, como: "Agarra la manzana roja que está a la izquierda del plato azul".

La analogía: Es como si siempre te dieran un mapa con un "X" marcando el tesoro. El robot solo tiene que leer el mapa.

Pero en la vida real, los humanos somos perezosos (en el buen sentido) y usamos palabras cortas: "Pásame eso".

El desafío: Para entender "eso", el robot no puede solo leer; tiene que ver tu dedo señalando y escuchar el momento exacto en que dices la palabra. Si el robot se equivoca en el milisegundo en que señalaste, le dará el objeto equivocado.

2. La Solución: EcoG (El "Entrenador de Ojos y Oídos")

Los autores crearon un nuevo juego de entrenamiento llamado EcoG.

La analogía: Imagina un examen de conducir donde no te dan las instrucciones escritas. En su lugar, un instructor te dice: "Gira ahí" y señala con el dedo hacia la izquierda en un momento muy específico. El conductor (el robot) debe:
1. QUÉ: Entender a qué objeto te refieres (el semáforo, el árbol, el coche).
2. DÓNDE: Saber exactamente dónde apuntar con su "dedo digital".
3. CUÁNDO: Saber en qué milisegundo exacto ocurrió el gesto para saber a qué te referías.

Si falla en cualquiera de los tres (dice el objeto correcto pero en el momento equivocado), reprueba.

3. El Campo de Pruebas: EcoG-Bench

Crearon una base de datos con 811 videos de personas trabajando en cocinas, oficinas y fábricas.

La regla de oro: Los videos tienen instrucciones vagas ("Pon esto aquí") y gestos rápidos.
El resultado sorprendente:
- Los humanos: Sacamos un 97% de aprobado. Es fácil para nosotros porque estamos acostumbrados a mirar y escuchar al mismo tiempo.
- Las IAs más modernas: ¡Sacaron un 17%! Es un desastre.
- ¿Por qué fallan? Porque las IAs actuales suelen "leer" el video como si fuera una foto estática o no logran sincronizar el sonido con el movimiento del video con suficiente precisión. Se pierden en el "cuándo".

4. El Diagnóstico: ¿Es tonto el cerebro o ciego el ojo?

Los investigadores hicieron una prueba curiosa. En lugar de darle al robot el video completo con audio (como en la vida real), le dieron:

Una serie de fotos tomadas del video.
Un guion escrito de lo que se dijo, pero con etiquetas de tiempo (ej: "la palabra 'esto' se dijo en el segundo 3.4").

¡Magia! Cuando les dieron esta información "scaffolded" (con andamios o ayudas), la IA mejoró drásticamente, pasando del 17% al 43%.

La moraleja: El cerebro de la IA (su capacidad de razonar) no es el problema principal. El problema es que la forma en que "ven" y "escuchan" los videos actuales no les deja ver los detalles finos del tiempo. Es como intentar adivinar el ritmo de una canción mirando solo las carátulas del álbum; necesitas escuchar la música para saber cuándo cambiar de pista.

En Resumen

Este paper nos dice que para que los robots sean verdaderos compañeros de equipo (como en las películas), no basta con que sean inteligentes. Necesitan aprender a "escuchar con los ojos".

Deben ser capaces de sincronizar lo que decimos con lo que hacemos en el momento exacto. Mientras no logremos que sus "ojos" y sus "oídos" trabajen en perfecta armonía temporal, seguirán siendo robots torpes que no entienden cuando les señalas algo y dices: "¡Eso!".

La lección final: No basta con tener un cerebro brillante; necesitas tener los sentidos bien conectados para entender el mundo real.

Each language version is independently generated for its own context, not a direct translation.

1. El Problema: La Brecha en la Colaboración Situada

En la colaboración humana en entornos reales, las instrucciones suelen ser deícticas y subespecificadas (ej. "pásame eso", "ponlo aquí"). El significado de estas frases no se deriva únicamente del texto, sino que depende críticamente de la alineación temporal entre el habla y gestos co-verbalizadores breves (como un movimiento de apuntado o stroke).

El problema central identificado por los autores es que:

Los benchmarks existentes son insuficientes: La mayoría de las evaluaciones de agentes embebidos (Embodied AI) utilizan instrucciones "text-sufficient" (suficientes en texto), donde el objeto objetivo se puede inferir solo por sus atributos semánticos (ej. "coge la manzana roja de la izquierda"). Esto permite que los Modelos de Lenguaje Multimodales (MLLM) obtengan buenos resultados sin aprender la alineación audio-visual temporal necesaria para la interacción real.
Falta de compromiso temporal: Los sistemas actuales rara vez requieren compromisos temporales resueltos a nivel de milisegundos. Sin la unión precisa entre la palabra deíctica y el pico del gesto, un agente no puede distinguir entre múltiples candidatos plausibles en la escena.
La brecha de ejecutabilidad: Incluso si un modelo reconoce el objeto correctamente, si no puede anclar la instrucción al momento exacto del gesto en el video, la acción resultante no es ejecutable.

2. Metodología: EcoG y EcoG-Bench

Para abordar estas limitaciones, los autores introducen EcoG (Egocentric Co-Speech Grounding) y su correspondiente banco de pruebas, EcoG-Bench.

A. Definición de la Tarea (EcoG)

La tarea requiere que un agente, dado un clip de video egocéntrico con audio sincronizado, genere una intención ejecutable para cada referente deíctico en la instrucción. La salida debe ser una lista ordenada de tripletes (Qué, Dónde, Cuándo):

Qué (What): Identificación semántica del objeto o región objetivo dentro de un conjunto cerrado de candidatos.
Dónde (Where): Una coordenada 2D precisa en el último frame del video (punto de aterrizaje accionable).
Cuándo (When): Un timestamp en milisegundos que debe caer dentro de la ventana temporal del gesto de apuntado que desambigua la referencia.

B. Construcción del Dataset (EcoG-Bench)

Datos: 811 clips de video egocéntricos bilingües (inglés y chino) grabados en entornos reales (Industrial, Cocina, Oficina).
Protocolo de Interacción: Se grabaron interacciones humano-humano donde el "usuario" da instrucciones subespecificadas (evitando descripciones exhaustivas) acompañadas de gestos de apuntado, y el "agente" debe ejecutar la tarea.
Anotación de Alta Precisión:
- Semántica: Etiquetado de objetos en un conjunto cerrado para evitar ambigüedades.
- Espacial: Puntos de destino en el último frame y máscaras de instancia.
- Temporal: Ventanas de gestos anotadas a nivel de milisegundos, alineadas con transcripciones de ASR (Reconocimiento Automático de Voz) verificadas manualmente.

C. Protocolo de Evaluación Cognitiva Progresiva (L1-L4)

El benchmark evalúa la capacidad de los modelos a través de cuatro niveles de complejidad creciente:

L1 (Apuntado Deíctico Silencioso): Sin habla, solo gesto visual.
L2 (Unión Co-verbal de Evento Único): Una instrucción deíctica simple con un solo gesto.
L3 (Asignación de Evento Dual): Dos referentes deícticos que requieren asignar cada frase al gesto correcto dentro del mismo clip.
L4 (Encadenamiento de Intención Multi-Evento): Instrucciones de 3-4 pasos que requieren rastreo de estado referencial y encadenamiento de eventos.

D. Métricas de Evaluación

Se utilizan métricas estrictas de ejecutabilidad:

Eco-Accuracy ( $Acc_{eco}$ ): Precisión conjuntiva. Un referente es correcto solo si Qué, Dónde y Cuándo son correctos simultáneamente.
Sequence Success ( $Acc_{seq}$ ): Éxito a nivel de clip. Se requiere que todos los referentes de una instrucción múltiple sean correctos; un solo error invalida toda la secuencia.

3. Resultados Clave

Los autores evaluaron varios MLLM de última generación (incluyendo Gemini-3-Pro/Flash, Qwen3-Omni, etc.) bajo interfaces nativas de video-audio.

Brecha Humano-Máquina: Los humanos alcanzan un rendimiento casi perfecto (96.9% de $Acc_{eco}$ ), mientras que el mejor modelo nativo (Gemini-3-Pro) apenas alcanza el 17.0%.
Caída Composicional: Existe una caída drástica de rendimiento al pasar de L2 (evento único) a L3 (asignación de múltiples eventos). Por ejemplo, el rendimiento de Gemini-3-Pro cae del 29.2% en L2 al 10.6% en L3, y el éxito de secuencia ( $Acc_{seq}$ ) colapsa a casi cero (1.8% en L3).
Reconocimiento vs. Anclaje: Los modelos muestran una buena capacidad de reconocimiento semántico (ej. 63.9% de precisión en clasificación), pero fallan estrepitosamente en la localización espacial y la alineación temporal, lo que demuestra que el reconocimiento de objetos no es suficiente para la grounding ejecutable.
Análisis de Fallos: La mayoría de los errores son conjuntos (fallas simultáneas en espacio y tiempo), lo que indica que la dificultad radica en la unión multimodal de eventos, no en habilidades aisladas.

4. Diagnóstico del Sistema: La Importancia de la Interfaz

Un hallazgo crucial del artículo es que el rendimiento no es solo un problema de la capacidad del modelo, sino de la interfaz de entrada multimodal.

Experimento de Diagnóstico: Los autores compararon la interfaz nativa (Video + Audio) con una interfaz estructurada (Imágenes + ASR). En la segunda, se proporcionaron frames muestreados con timestamps explícitos y transcripciones de ASR con tiempos de inicio/fin a nivel de palabra.
Resultado: Al proporcionar estos anclajes temporales explícitos, el rendimiento de Gemini-3-Pro se duplicó casi (de 17.0% a 42.9% en $Acc_{eco}$ ) y el éxito de secuencia aumentó significativamente.
Ablación de Anclajes Temporales: Se demostró que los timestamps de los frames son críticos para la calibración temporal absoluta (especialmente en L1 sin habla), mientras que los tiempos de ASR ayudan a alinear las palabras deícticas con los gestos.

5. Contribuciones y Significado

Contribuciones Principales:

Tarea EcoG: Una nueva formulación de tarea que exige predicciones ejecutables (Qué/Dónde/Cuándo) para comandos co-verbales deícticos.
Benchmark EcoG-Bench: El primer banco de pruebas bilingüe, diagnóstico y de evaluación exclusiva con anotaciones espaciales densas y ventanas de gestos a nivel de milisegundos.
Hallazgos de Diagnóstico: Revelación de una gran brecha de ejecutabilidad en los MLLM actuales y demostración de que las interfaces nativas de video-audio pueden ocultar las señales de alineación temporal necesarias para la grounding deíctica.

Significado:
Este trabajo sugiere que para avanzar hacia agentes robóticos colaborativos reales, no basta con mejorar la capacidad de razonamiento de los modelos; es necesario rediseñar las interfaces multimodales para que expongan de manera fiable las señales de alineación temporal (anclajes de tiempo). EcoG-Bench establece un estándar estricto para evaluar la capacidad de los sistemas de "escuchar con los ojos", vinculando el lenguaje, el gesto y el tiempo en una sola entidad ejecutable.