Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "눈만 뜨고 귀는 막은" AI

지금까지 개발된 비디오 AI 들은 영화를 보거나 강의를 들을 때, 오직 '영상'만 보고 답을 내도록 훈련받았습니다. 마치 귀를 막고 영화를 보는 사람과 같습니다.

왜 그랬을까요? 연구자들이 만든 시험지 (벤치마크) 가 대부분 "소리는 들을 필요 없이, 화면만 봐도 정답이 나오는" 문제들이었기 때문입니다.
현실: 실제로는 강의를 요약하거나 회의 내용을 정리할 때 소리를 듣는 게 필수인데, AI 는 그 소리를 무시하고 영상만 보고 추측합니다.

2. 실험: "한 장의 사진"으로 시험지를 풀 수 있을까?

저자들은 10 가지 주요 시험지를 분석하며 놀라운 사실을 발견했습니다.

비유: "소리를 끄고, 영상 중간의 단 한 장의 사진만 보여주고 문제를 풀게 해보자"는 실험을 했습니다.
결과: 놀랍게도 **AVQA(오디오 - 비디오 질문 답변) 라는 시험지의 77%**가 소리가 없어도, 다른 장면도 없이 단 한 장의 사진만으로 정답을 맞출 수 있었습니다.
의미: 우리가 "이건 오디오 - 비디오 문제야!"라고 생각하며 AI 를 평가했지만, 사실은 AI 가 귀를 막고 있어도 될 만큼 문제가 너무 쉬웠거나, 시각적 단서만으로도 충분했던 것입니다. 이는 AI 가 '듣는 능력'을 제대로 평가하지 못하게 만든 함정이었습니다.

3. 해결책: "귀를 열어주고, 소리를 요약하는" 기술

이제 AI 에게 귀 (음성 인식기) 를 달아주기로 했습니다. 하지만 여기서 새로운 문제가 생깁니다.

문제: 1 시간짜리 비디오의 소리를 AI 가 처리하려면 **약 9 만 개의 데이터 조각 (토큰)**이 필요합니다. 이는 AI 의 기억 용량을 꽉 채워버려서, 1 시간 영상을 처리하는 데 시간이 너무 오래 걸립니다. (비유: 1 시간 분량의 책을 9 만 페이지로 쪼개서 읽으라고 하는 격입니다.)
해결책 (압축기): 저자들은 **"지능적인 요약기"**를 개발했습니다.
- 비유: 1 시간 분량의 소리를 9 만 페이지에서 **3,600 페이지 (약 1 초당 1 페이지)**로 줄여주는 기술입니다.
- 기술: 'Mamba'라는 최신 AI 구조를 이용해, 소리의 흐름을 끊지 않으면서도 불필요한 정보를 잘라냅니다. 마치 핵심 내용만 발췌해서 요약본을 만들어주는 비서 같은 역할입니다.

4. 결과: "진짜 듣기"가 필요한 곳에서는 AI 가 달라집니다

이제 '한 장의 사진'으로 풀 수 없는 문제들 (진짜 소리를 들어야 하는 문제) 만 남긴 채 AI 를 다시 시험시켰습니다.

결과:
- 소리를 들어야 하는 문제 (예: "누가 가장 조용히 말했나요?"): AI 가 소리를 들을 수 있게 되자 정답률이 확실히 올라갔습니다.
- 시각 위주 문제 (예: "누가 빨간 옷을 입었나요?"): 소리를 들었든 말았든 점수는 거의 변하지 않았습니다.
교훈: 기존 시험지들은 AI 가 소리를 듣지 않아도 될 정도로 문제가 쉬웠거나, 시각적 단서만으로도 충분하게 설계되어 있었습니다. 하지만 진짜 소리가 필요한 상황에서는 AI 가 '듣는' 기능이 필수적입니다.

5. 결론: "귀를 막지 말자"

이 논문의 핵심 메시지는 다음과 같습니다.

AI 는 들을 수 있습니다: 최신 음성 기술은 이미 매우 훌륭합니다.
하지만 시험지가 문제였습니다: 우리가 만든 평가 기준이 너무 시각 중심이라, AI 가 듣는 능력을 제대로 쓰지 못하게 했습니다.
효율적인 해결책: 소리를 들으면서도 처리 속도가 느려지지 않도록, 소리를 **지능적으로 요약 (압축)**하는 기술을 개발했습니다.

한 줄 요약:

"지금까지 우리는 AI 에게 '귀를 막고' 시험을 보게 해서 듣는 능력을 평가하지 못했습니다. 이제 '귀를 열어주고' 소리를 요약하는 기술을 쓰면, AI 는 강의를 요약하거나 회의 내용을 파악하는 등 진짜 현실 세계에서 훨씬 더 똑똑해질 수 있습니다."

이 연구는 앞으로 비디오 AI 를 개발할 때, 소리를 무시하지 않고, 소리를 효율적으로 처리할 수 있는 새로운 기준을 제시했다는 점에서 매우 중요합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

현황: Whisper 나 Qwen2-Audio 와 같은 성숙한 음성/오디오 인코더들이 있음에도 불구하고, 비디오 이해 (Video Understanding) 파이프라인에서는 routinely(관례적으로) 제외되고 있습니다.
근본 원인:
1. 벤치마크의 결함: 기존 비디오 벤치마크 (ActivityNetQA, NExTQA 등) 가 시각적 단서만으로 해결 가능한 항목이 너무 많습니다. 즉, "듣기"가 필수적인 과제가 아니기 때문에 모델이 오디오를 학습하거나 평가받지 못합니다.
2. 단일 프레임 쇼트컷 (Single-frame Shortcut): 저자들은 GPT-4o 를 이용해 오디오 없이 시간적 중심 프레임 (단일 프레임) 만으로 질문을 해결할 수 있는지 테스트했습니다. 그 결과, 널리 사용되는 AVQA 벤치마크의 약 **77%**가 오디오 없이도 정답을 맞출 수 있었습니다. 이는 오디오 - 시각적 추론을 제대로 측정하지 못하고 있음을 시사합니다.
3. 실용적 한계: 오디오는 초당 25~50 Hz 로 토큰이 생성되어, 1 시간짜리 비디오의 경우 약 9 만 개의 오디오 토큰이 발생합니다. 이는 컨텍스트 예산을 빠르게 소모하고 지연 시간 (Latency) 을 급격히 증가시킵니다 (예: Qwen2.5-Omni 는 4.1 초/샘플).

2. 방법론 (Methodology)

저자들은 두 가지 핵심 질문을 해결하기 위해 실험을 설계했습니다: (1) 현재 벤치마크가 진정으로 '듣기'를 요구하는가? (2) 비디오 LLM 에 오디오를 효율적으로 통합하는 방법은 무엇인가?

A. 벤치마크 감사 (Benchmark Audit)

단일 프레임 필터링 프로토콜: GPT-4o 를 사용하여 오디오 없이 단일 프레임만으로 정답이 가능한 항목을 식별하고 이를 제거했습니다.
결과: TempCompass(약 80%), AVQA(약 77%) 와 같은 기존 벤치마크는 시각적 쇼트컷에 매우 취약한 반면, AVSpeakerBench 나 WorldSense 는 상대적으로 오디오 의존도가 높았습니다. 저자들은 이 '필터링된 평가 세트'를 공개하여 공정한 평가를 가능하게 했습니다.

B. 오디오 - 시각적 입력 구성 및 압축

기반 모델: LLaVA-OneVision 을 기반으로 하되, Qwen2-Audio(Whisper 기반) 인코더를 추가했습니다.
입력 전략 비교:
1. 시각만 (Vision-only)
2. 비교차 (Non-interleaving): 시각 토큰 전체 후 오디오 토큰
3. 시간 정렬 인터리빙 (Time-aligned Interleaving): 오디오 토큰을 대응되는 프레임 토큰 옆에 배치 (스트리밍 추론에 필수).
토큰 압축 (Token Compression):
- 오디오 토큰 수를 25 배 (25Hz → 1Hz) 줄이기 위해 경량 압축 모듈을 도입했습니다.
- 주기적 쿼리 (Periodic Query) 설계: 매 $R$ 개의 토큰마다 학습 가능한 쿼리 토큰을 삽입하고, 해당 위치의 출력만 유지하여 토큰 수를 줄입니다.
- 압축 아키텍처 비교: 평균 풀링 (Avg Pool), Resampler, UniMamba(단방향), BiMamba(양방향), UniMambaMia (MambaMia 기반, 게이트 어텐션 추가) 등 5 가지 아키텍처를 비교했습니다.

3. 주요 기여 (Key Contributions)

벤치마크 감사 및 필터링 세트 공개: 널리 사용되는 10 개 비디오 벤치마크를 분석하여, 많은 항목이 시각적 쇼트컷으로 해결 가능함을 증명했습니다. 이를 제거한 '필터링된 평가 세트'를 오픈소스하여 오디오 - 시각 모델의 진정한 능력을 평가할 수 있는 기준을 마련했습니다.
효율적인 오디오 통합 아키텍처 제안:
- 시간 정렬 인터리빙 + 인과적 압축기: 스트리밍 추론이 가능하면서도 성능을 유지하는 유일한 구성을 제안했습니다.
- 최적 압축기 선정: 25 배 압축 조건에서 UniMambaMia(인과적 Mamba 기반) 가 가장 안정적이고 높은 성능을 보였습니다. 특히 오디오의 1 차원적, 인과적 특성을 고려할 때 양방향 (BiMamba) 보단 단방향 (UniMamba) 설계가 더 적합함을 입증했습니다.
확장성 입증: 1 시간 비디오의 오디오 토큰을 9 만 개에서 약 3,600 개 (1 토큰/초) 로 줄여, 장시간 비디오에 대한 실용적인 오디오 - 시각 추론을 가능하게 했습니다.

4. 실험 결과 (Results)

오디오의 유효성: 필터링된 벤치마크 (시각적 쇼트컷 제거) 에서 오디오를 추가했을 때, **음성 이해 (Speech Comprehension)**나 크로스 모달 그라운딩이 필요한 작업 (AVSpeakerBench, WorldSense, VideoMME 등) 에서 명확한 성능 향상 (+2~3%p) 을 보였습니다. 반면, 시각 중심 벤치마크에서는 변화가 없거나 미미했습니다.
압축기 성능:
- 학습 가능한 압축기 (Mamba 계열) 가 단순 평균 풀링 (Avg Pool) 보다 전반적으로 우수한 성능을 보였습니다.
- UniMambaMia 가 6 개 벤치마크 중 4 개에서 최고 또는 공동 최고 점수를 기록했습니다.
현대 모델 비교 (Table 3):
- 제안된 모델 (Qwen2-7B 기반) 은 Qwen2-7B 계열 모델 중 10 개 벤치마크 중 7 개에서 최고 성능을 기록했습니다.
- 지연 시간 (Latency): 오디오를 압축하여 처리한 결과, 1 시간 비디오당 약 1.6 초의 지연 시간을 보였습니다. 이는 오디오를 압축 없이 처리하는 Qwen2.5-Omni(4.12 초) 보다 훨씬 효율적이며, 시각 전용 모델 (1.0 초) 과도 비교 가능한 수준입니다.
- 필터링 점수: 시각적 쇼트컷을 제거한 필터링 데이터에서도 성능 우위가 유지됨을 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

핵심 결론: "현대 비디오 LLM 은 듣기가 필요하다"는 명제는 벤치마크가 듣기를 요구하도록 설계되었을 때만 참입니다. 현재 널리 쓰이는 벤치마크는 시각적 쇼트컷을 허용하여 오디오의 가치를 과소평가하고 있습니다.
실용적 가치: 강연 요약, 회의 재구성 등 실제 세계의 비디오 작업에서는 오디오가 필수적입니다. 이 연구는 벤치마크와 실제 배포 간의 격차를 해소하기 위해, **효율적인 압축 (25 배)**과 **엄격한 평가 (쇼트컷 제거)**를 결합한 확장 가능한 솔루션을 제시합니다.
향후 방향: 오디오 인코더의 중요성을 재조명하고, 더 엄격한 오디오 - 시각 평가 기준을 정립하여 모델이 실제로 '듣는' 능력을 갖추도록 유도할 것입니다.

이 연구는 단순히 오디오를 추가하는 것을 넘어, **어떻게 오디오를 효율적으로 처리할지 (압축)**와 **어떻게 그 능력을 올바르게 측정할지 (벤치마크 감사)**에 대한 체계적인 접근을 제공한다는 점에서 의미가 큽니다.

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

1. 문제: "눈만 뜨고 귀는 막은" AI

2. 실험: "한 장의 사진"으로 시험지를 풀 수 있을까?

3. 해결책: "귀를 열어주고, 소리를 요약하는" 기술

4. 결과: "진짜 듣기"가 필요한 곳에서는 AI 가 달라집니다

5. 결론: "귀를 막지 말자"

1. 문제 제기 (Problem Statement)

2. 방법론 (Methodology)

A. 벤치마크 감사 (Benchmark Audit)

B. 오디오 - 시각적 입력 구성 및 압축

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers