Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

이 논문은 현재 비디오 벤치마크가 청각 정보를 제대로 평가하지 못해 음성 인코더가 배제되는 문제를 지적하고, LLaVA-OneVision 기반의 확장 모델을 통해 청각 정보가 대화 이해 및 교차 모달 작업에서 명확한 성능 향상을 가져온다는 것을 입증합니다.

Geewook Kim, Minjoon Seo

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "눈만 뜨고 귀는 막은" AI

지금까지 개발된 비디오 AI 들은 영화를 보거나 강의를 들을 때, 오직 '영상'만 보고 답을 내도록 훈련받았습니다. 마치 귀를 막고 영화를 보는 사람과 같습니다.

  • 왜 그랬을까요? 연구자들이 만든 시험지 (벤치마크) 가 대부분 "소리는 들을 필요 없이, 화면만 봐도 정답이 나오는" 문제들이었기 때문입니다.
  • 현실: 실제로는 강의를 요약하거나 회의 내용을 정리할 때 소리를 듣는 게 필수인데, AI 는 그 소리를 무시하고 영상만 보고 추측합니다.

2. 실험: "한 장의 사진"으로 시험지를 풀 수 있을까?

저자들은 10 가지 주요 시험지를 분석하며 놀라운 사실을 발견했습니다.

  • 비유: "소리를 끄고, 영상 중간의 단 한 장의 사진만 보여주고 문제를 풀게 해보자"는 실험을 했습니다.
  • 결과: 놀랍게도 **AVQA(오디오 - 비디오 질문 답변) 라는 시험지의 77%**가 소리가 없어도, 다른 장면도 없이 단 한 장의 사진만으로 정답을 맞출 수 있었습니다.
  • 의미: 우리가 "이건 오디오 - 비디오 문제야!"라고 생각하며 AI 를 평가했지만, 사실은 AI 가 귀를 막고 있어도 될 만큼 문제가 너무 쉬웠거나, 시각적 단서만으로도 충분했던 것입니다. 이는 AI 가 '듣는 능력'을 제대로 평가하지 못하게 만든 함정이었습니다.

3. 해결책: "귀를 열어주고, 소리를 요약하는" 기술

이제 AI 에게 귀 (음성 인식기) 를 달아주기로 했습니다. 하지만 여기서 새로운 문제가 생깁니다.

  • 문제: 1 시간짜리 비디오의 소리를 AI 가 처리하려면 **약 9 만 개의 데이터 조각 (토큰)**이 필요합니다. 이는 AI 의 기억 용량을 꽉 채워버려서, 1 시간 영상을 처리하는 데 시간이 너무 오래 걸립니다. (비유: 1 시간 분량의 책을 9 만 페이지로 쪼개서 읽으라고 하는 격입니다.)
  • 해결책 (압축기): 저자들은 **"지능적인 요약기"**를 개발했습니다.
    • 비유: 1 시간 분량의 소리를 9 만 페이지에서 **3,600 페이지 (약 1 초당 1 페이지)**로 줄여주는 기술입니다.
    • 기술: 'Mamba'라는 최신 AI 구조를 이용해, 소리의 흐름을 끊지 않으면서도 불필요한 정보를 잘라냅니다. 마치 핵심 내용만 발췌해서 요약본을 만들어주는 비서 같은 역할입니다.

4. 결과: "진짜 듣기"가 필요한 곳에서는 AI 가 달라집니다

이제 '한 장의 사진'으로 풀 수 없는 문제들 (진짜 소리를 들어야 하는 문제) 만 남긴 채 AI 를 다시 시험시켰습니다.

  • 결과:
    • 소리를 들어야 하는 문제 (예: "누가 가장 조용히 말했나요?"): AI 가 소리를 들을 수 있게 되자 정답률이 확실히 올라갔습니다.
    • 시각 위주 문제 (예: "누가 빨간 옷을 입었나요?"): 소리를 들었든 말았든 점수는 거의 변하지 않았습니다.
  • 교훈: 기존 시험지들은 AI 가 소리를 듣지 않아도 될 정도로 문제가 쉬웠거나, 시각적 단서만으로도 충분하게 설계되어 있었습니다. 하지만 진짜 소리가 필요한 상황에서는 AI 가 '듣는' 기능이 필수적입니다.

5. 결론: "귀를 막지 말자"

이 논문의 핵심 메시지는 다음과 같습니다.

  1. AI 는 들을 수 있습니다: 최신 음성 기술은 이미 매우 훌륭합니다.
  2. 하지만 시험지가 문제였습니다: 우리가 만든 평가 기준이 너무 시각 중심이라, AI 가 듣는 능력을 제대로 쓰지 못하게 했습니다.
  3. 효율적인 해결책: 소리를 들으면서도 처리 속도가 느려지지 않도록, 소리를 **지능적으로 요약 (압축)**하는 기술을 개발했습니다.

한 줄 요약:

"지금까지 우리는 AI 에게 '귀를 막고' 시험을 보게 해서 듣는 능력을 평가하지 못했습니다. 이제 '귀를 열어주고' 소리를 요약하는 기술을 쓰면, AI 는 강의를 요약하거나 회의 내용을 파악하는 등 진짜 현실 세계에서 훨씬 더 똑똑해질 수 있습니다."

이 연구는 앞으로 비디오 AI 를 개발할 때, 소리를 무시하지 않고, 소리를 효율적으로 처리할 수 있는 새로운 기준을 제시했다는 점에서 매우 중요합니다.