Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Each language version is independently generated for its own context, not a direct translation.

1. 기존 문제: "너무 자세한 설명" vs "실제 대화"

지금까지 로봇이나 AI 를 가르칠 때 쓰던 시험지는 마치 완벽한 레시피 같았습니다.

기존 방식: "왼쪽 빨간색 그릇에 있는 두 번째 딸기를 빨간 그릇에 넣어."
- AI 는 글자만 읽어도 정확히 무엇을 해야 할지 알 수 있습니다. (딸기, 빨간색, 왼쪽 등 모든 정보가 텍스트에 다 있습니다.)
- 문제점: AI 가 실제로 사람과 대화할 때 필요한 '눈과 귀의 협동' 능력을 키우지 못합니다.
실제 인간 대화 (이 논문이 다루는 방식): "이걸 저기 넣어."
- 사람이 말할 때 "이걸 (this)"이라고만 하고, 손가락으로 순간적으로 무언가를 가리킵니다.
- AI 는 "이걸"이라는 말과 동시에 손가락이 가리키는 순간을 맞춰야만 무엇을 가리키는지 알 수 있습니다.
- 만약 AI 가 말과 손가락 가리킴의 타이밍을 못 맞춘다면, 엉뚱한 것을 집어 들게 됩니다.

2. 새로운 시험지: 'EcoG-Bench'

연구팀은 이 '눈으로 듣는 능력'을 테스트하기 위해 EcoG-Bench라는 새로운 시험지를 만들었습니다.

시험 내용: 사람이 "이걸 (this) 저기 (that) 넣어"라고 말하면서 손가락으로 가리키는 짧은 영상을 보여줍니다.
AI 가 해야 할 일:
1. 무엇 (What): "이걸"이 정확히 어떤 물건인지 알아맞히기.
2. 어디 (Where): 가리킨 정확한 위치 (픽셀) 를 찍기.
3. 언제 (When): 손가락이 가리킨 **정확한 순간 (밀리초 단위)**을 맞추기.

이 세 가지 (무엇, 어디, 언제) 를 모두 정확히 맞춰야만 점수를 줍니다. 하나라도 틀리면 "실행 불가"로 판정합니다.

3. 놀라운 결과: 인간 vs AI

이 시험지를 인간과 최신 AI 모델에게 풀어보게 했더니 결과가 매우 극단적이었습니다.

사람: 거의 만점 (96.9%). 우리는 말과 손짓이 동시에 이루어지는 걸 자연스럽게 이해합니다.
최고급 AI (Gemini 등): 매우 낮은 점수 (약 17%).
- 왜? AI 는 물체를 인식하는 능력은 뛰어나지만, "말하는 순간"과 "손가락 가리키는 순간"을 정확히 연결하는 능력이 부족했습니다. 마치 노래 가사와 리듬을 못 맞추는 것 같습니다.

4. 진단 실험: "시계와 자"를 주니 달라졌다

연구팀은 AI 가 왜 실패하는지 원인을 찾기 위해 실험을 했습니다.

상황 A (원래 방식): AI 가 영상과 소리를 통째로 받아서 스스로 타이밍을 찾게 함. -> 점수 낮음.
상황 B (보조 도구 제공): AI 에게 영상 프레임마다 **"시간 (몇 초 몇 밀리)"**을 표시해주고, 소리를 텍스트로 변환할 때 **"단어별 시간"**도 함께 알려줌.
- 결과: 점수가 17% 에서 42% 로 크게 상승!

비유하자면:

상황 A: 시계도 없이 오케스트라 연주를 듣고 "드럼 소리가 들린 순간이 언제였지?"라고 추측하게 한 것.
상황 B: 악보에 "드럼 소리가 나는 3 초 120 밀리"라고 적혀 있는 것을 보고 맞추게 한 것.

결론: AI 는 사실 추론 능력이 부족해서가 아니라, 입력되는 정보 (영상과 소리) 가 너무 복잡해서 중요한 '타이밍' 신호를 놓치고 있었다는 것이 밝혀졌습니다.

5. 이 연구가 중요한 이유

이 논문은 우리에게 중요한 메시지를 줍니다.

"로봇이 사람과 자연스럽게 대화하려면, 단순히 '무엇'을 보는 것을 넘어 '언제' 무엇을 보아야 하는지, 말과 행동의 타이밍을 정확히 맞춰야 합니다."

지금까지의 AI 는 "무엇"을 인식하는 데는 강했지만, "언제" 반응해야 하는지 (타이밍) 를 맞추는 데는 약했습니다. 이 새로운 시험지 (EcoG-Bench) 를 통해 AI 가 사람처럼 눈과 귀를 함께 써서 협업할 수 있는 능력을 키우는 데 큰 도움이 될 것입니다.

한 줄 요약:

"AI 가 사람과 대화할 때 "이거 줘"라고 말하며 손가락으로 가리키는 순간을 정확히 알아챌 수 있게 하려면, 단순히 영상을 보는 걸 넘어 말과 손짓의 '타이밍'을 완벽하게 맞춰야 한다는 것을 증명했다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현실 세계의 협업 상황에서 화자는 종종 "그것을 저것으로 옮겨줘"와 같이 **의도적으로 불완전한 지시어 (underspecified deictic commands)**를 사용합니다. 이러한 지시어의 의미는 텍스트만으로는 결정될 수 없으며, 화자의 동시 발생 제스처 (co-speech gestures), 특히 손가락으로 가리키는 짧은 동작 (stroke) 과 언어의 시간적 정합 (alignment) 을 통해만 해결됩니다.

기존의 embodied AI(구현체 인공지능) 벤치마크는 대부분 "왼쪽의 빨간 사과를 들어라"와 같이 텍스트만으로 충분히 해결 가능한 (text-sufficient) 지시를 사용하여, 모델이 오디오 - 비주얼 정합 능력을 학습하지 않고도 언어만으로 높은 점수를 얻을 수 있는 단축경로 (shortcut) 를 허용합니다. 또한, 기존 벤치마크는 제스처의 정확한 시간적 타이밍 (millisecond level) 에 대한 평가가 부족하여, 실제 협업에 필요한 이벤트 수준의 언어 - 제스처 바인딩 (event-level speech-gesture binding) 능력을 제대로 평가하지 못합니다.

2. 방법론 (Methodology)

A. 태스크: EcoG (Egocentric Co-Speech Grounding)

논문의 핵심은 EcoG 태스크를 정의하는 것입니다. 에이전트는 자전적 (egocentric) 비디오와 오디오를 입력받아, 지시어의 각 지시어 (referent) 에 대해 실행 가능한 의도 (executable intent) 를 생성해야 합니다. 이는 다음 3 가지 요소의 정확한 예측을 요구합니다:

What (무엇): 지시된 대상의 의미적 식별 (클립 내 후보 객체 중 하나).
Where (어디): 마지막 프레임에서의 정확한 2D 좌표 (실행 가능한 '착륙 지점').
When (언제): 지시어를 모호함을 해소하는 제스처 동작 (gesture stroke) 과 일치시키는 밀리초 (ms) 단위의 타임스탬프.

성공은 이 세 가지가 모두 정확할 때만 인정됩니다 (Strict Conjunctive Correctness).

B. 벤치마크: EcoG-Bench

데이터 구성: 811 개의 자전적 비디오 클립 (영어 367 개, 중국어 444 개) 으로 구성되며, 산업, 주방, 사무실 등 3 가지 도메인을 포함합니다.
주석 (Annotation):
- 의미: 클립별 폐쇄형 후보 집합 (Closed-set) 과 매핑.
- 공간: 마지막 프레임의 픽셀 단위 타겟 및 객체 마스크.
- 시간: ASR(자동 음성 인식) 기반 단어 수준의 타임스탬프와 시각적으로 확인된 제스처 동작 (stroke) 의 시작/종료 시간 (밀리초 단위).
진단 프로토콜 (Progressive Cognitive Evaluation):
- L1: 무음 지시 (순수 시각적 제스처).
- L2: 단일 이벤트 언어 - 제스처 바인딩.
- L3: 클립 내 다중 이벤트 지시어 할당 (두 개의 지시어와 제스처 매칭).
- L4: 다중 이벤트 의도 체이닝 (3~4 개의 지시어 순차적 실행).

C. 평가 지표

Eco-Accuracy ( $Acc_{eco}$ ): What, Where, When 이 모두 정확해야 1 점 (Strict Conjunction).
Sequence Accuracy ( $Acc_{seq}$ ): 클립 내 모든 지시어가 올바르게 처리되었을 때만 1 점 (오류 전파 효과 반영).

3. 주요 기여 (Key Contributions)

새로운 태스크 정의: 실행 가능한 'What/Where/When' 예측을 요구하는 EcoG 태스크를 도입하여, 불완전한 지시어를 제스처로 해결하는 능력을 평가합니다.
고정밀 벤치마크 구축: 811 개의 다국어 (EN/ZH) 클립과 밀리초 단위의 제스처 주석, 그리고 L1~L4 단계별 인지 난이도 프로토콜을 갖춘 EcoG-Bench를 공개했습니다.
심층 진단 및 발견: 최신 MLLM(다중 모달 대형 언어 모델) 들이 자전적 협업에서 겪는 심각한 실행 가능성 격차 (Executability Gap) 를 규명하고, 입력 인터페이스의 한계가 모델 성능의 주요 병목임을 입증했습니다.

4. 실험 결과 (Results)

A. 인간 vs 모델 격차

인간: EcoG-Bench 에서 거의 천장에 가까운 성능을 보임 ( $Acc_{eco}$ 96.9%, $Acc_{seq}$ 96.2%).
최신 MLLM: 네이티브 비디오 - 오디오 인터페이스를 사용하는 최상위 모델 (Gemini-3-Pro) 의 성능은 매우 낮음 ( $Acc_{eco}$ 17.0%).
난이도 증가에 따른 급격한 하락: 단일 이벤트 (L2) 에서 다중 이벤트 (L3, L4) 로 넘어가면서 성능이 급격히 붕괴됨 (Gemini-3-Pro 의 L4 $Acc_{eco}$ 10.2%, $Acc_{seq}$ 0.4%). 이는 모델이 여러 지시어를 올바른 제스처에 매핑하고 순서를 유지하는 데 실패함을 의미합니다.

B. 입력 스택 진단 (Input-Stack Diagnosis)

네이티브 vs 구조화된 입력: 동일한 모델 (Gemini-3-Pro) 을 사용하여, 원시 비디오 + 오디오 (Video-Omni) 입력과 프레임별 타임스탬프가 포함된 이미지 + 단어 단위 ASR 타임스탬프 (Images+ASR) 입력을 비교했습니다.
결과: 구조화된 입력 (Images+ASR) 을 사용했을 때 성능이 획기적으로 향상됨 ( $Acc_{eco}$ 17.0% $\rightarrow$ 42.9%).
의미: 모델 자체의 추론 능력 부족보다는, 네이티브 비디오 - 오디오 인터페이스가 시간적 정합 단서 (temporal alignment cues) 를 제대로 노출하지 못해 발생하는 병목 현상이 있음을 시사합니다.

C. 시간적 앵커 제거 실험 (Ablation)

프레임별 타임스탬프를 제거하면 L1(무음) 에서 시간 정확도가 급격히 떨어지며, 단어 단위 ASR 타이밍을 제거하면 L2~L4 에서 언어 - 제스처 바인딩 능력이 저하됨. 이는 **명시적인 시간적 앵커 (temporal anchors)**가 지시어와 제스처를 연결하는 데 필수적임을 보여줍니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 인간 협업의 핵심 요소인 **'지시적 언어와 일시적 시각 이벤트의 바인딩'**을 엄격하고 실행 가능한 평가 목표로 전환했습니다.

모델 평가의 재정의: 단순히 객체를 인식하는 것을 넘어, 언어와 제스처의 시간적 정합을 통해 실행 가능한 행동을 생성하는 능력을 평가해야 함을 강조합니다.
인터페이스의 중요성: 최신 MLLM 의 낮은 성능은 모델의 추론 능력 부족보다는, 멀티모달 입력 파이프라인이 시간적 단서를 효과적으로 전달하지 못함에서 기인할 가능성이 높음을 시사합니다.
향후 방향: 차세대 embodied 시스템은 모델 학습뿐만 아니라, 정밀한 오디오 - 비주얼 타이밍을 명시적으로 표현하고 활용하는 인터페이스 설계가 필요함을 주장합니다.

요약하자면, EcoG-Bench는 현재 AI 모델이 인간의 자연스러운 비언어적 소통 (손짓과 말의 동시성) 을 이해하고 실행하는 데 얼마나 부족한지를 드러내는 강력한 진단 도구이며, 이를 해결하기 위해서는 단순한 모델 성능 향상을 넘어 입력 데이터의 시간적 구조화 (Temporal Anchoring) 가 필수적임을 보여줍니다.