Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

Each language version is independently generated for its own context, not a direct translation.

사람들은 시끄러운 카페나 파티에서도 내 친구 목소리만 집중해서 들을 수 있습니다. 이를 **'칵테일 파티 효과'**라고 합니다. 하지만 이 능력이 외국어를 들을 때는 얼마나 떨어지는지, 그리고 최신 AI 는 이 능력을 얼마나 잘 흉내 내는지 알지 못했습니다.

이 연구는 인도어 (칸나다어, 힌디어) 와 인도식 영어로 된 이야기를 녹음해서, 한 사람이 말하는 상황 (단일 채널) 과 두세 명이 동시에 떠드는 상황 (혼합 채널) 을 만들어 사람과 AI 에게 질문을 던졌습니다.

사람들의 반응을 분석한 결과는 매우 직관적이었습니다.

비유: 모국어 (L1) 를 들을 때는 선글라스를 끼고 선명한 경치를 보는 것처럼 집중이 잘 됩니다. 하지만 외국어 (L2) 를 들을 때는 안개가 낀 유리창을 통해 보는 것처럼 흐릿해서 집중력이 떨어집니다.
결과:
- 사람들이 모국어 (힌디어/칸나다어) 로 된 시끄러운 소리를 들을 때는 친구 목소리를 잘 골라냈습니다.
- 하지만 영어 (외국어) 로 된 시끄러운 소리에서는 집중력이 크게 떨어졌습니다.
- 특히, "남자 목소리만 들어"라고 지시했을 때, 모국어에서는 그 지시를 잘 따랐지만 외국어에서는 다른 소음도 함께 들어버리는 경향이 있었습니다.

최신 AI 모델 (Gemini, GPT-4o 등) 의 성능은 사람과는 완전히 다른 양상을 보였습니다.

비유: AI 는 수천 개의 카메라 렌즈를 동시에 작동시키는 드론과 같습니다. 사람은 한쪽 렌즈 (한 목소리) 에만 초점을 맞추려 하지만, AI 는 모든 렌즈 (모든 목소리) 를 동시에 켜고 모든 내용을 다 읽어냅니다.
결과:
- 단일 목소리: AI 는 사람보다 훨씬 잘 들었습니다.
- 시끄러운 혼합 소리: AI 는 "이 목소리만 들어"라는 지시를 무시하더라도, 두세 명이 동시에 떠드는 소리를 모두 동시에 이해하는 놀라운 능력을 보여주었습니다.
- 특이점: 사람은 "다른 소리는 무시해"라고 하면 정말로 무시하지만, AI 는 무시하라는 지시에도 불구하고 모든 소리를 다 기억하고 있습니다. 이는 사람이 가진 '집중력'과 AI 가 가진 '병렬 처리 능력'의 차이입니다.

특징	사람 (Human)	기계 (AI / LLM)
집중 방식	선별적 집중: 한 목소리에만 몰입하고 나머지는 차단함.	동시 처리: 모든 목소리를 동시에 분석하고 기억함.
언어 영향	모국어 vs 외국어: 모국어일 때 집중력이 압도적으로 좋음.	언어 무관: 어떤 언어든 데이터가 많으면 비슷하게 잘 처리함.
혼합 소리	모국어에서는 잘하지만, 외국어나 너무 시끄러우면 혼란스러움.	초인적 능력: 사람이 들을 수 없는 복잡한 소음 속에서도 모든 정보를 추출함.
약점	외국어 시끄러운 환경에서 집중력 저하.	작은 모델 (경량화 버전) 은 복잡한 언어 이해에 약함.

이 연구는 두 가지 중요한 사실을 밝혀냈습니다.

사람은 모국어에서 '집중'하는 데 특화되어 있습니다. 외국어를 들을 때는 뇌가 소음을 걸러내는 데 에너지를 많이 써서 집중이 어렵습니다.
AI 는 '모든 것을 다 듣는' 초인적인 능력을 가졌습니다. 사람은 "한 가지에 집중"하는 것이 강점이라면, AI 는 "모든 것을 동시에 파악"하는 것이 강점입니다.

한 줄 요약:

"사람은 모국어에서 시끄러운 파티의 친구 목소리를 잘 골라내지만, AI 는 그 파티의 모든 대화를 동시에 녹음하고 요약해버리는 초능력을 가졌습니다."

이 연구는 앞으로 AI 를 개발할 때, 단순히 '듣는 능력'만 키우는 것이 아니라, 사람이 가진 '집중하는 능력'을 어떻게 모방하거나 보완할지 고민해야 함을 시사합니다.

유사한 논문