LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

이 논문은 기존 평가의 한계를 극복하기 위해 10 분에서 90 분 길이의 오디오 - 비디오 콘텐츠와 1,014 개의 질문 - 답변 쌍으로 구성된 새로운 벤치마크 'LVOmniBench'를 소개하고, 이를 통해 현재 옴니모달 LLM 들이 장기간의 오디오 - 비디오 입력 처리에서 심각한 어려움을 겪고 있음을 실증했습니다.

Keda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang

게시일 2026-03-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이 시험이 필요할까요? (기존의 문제점)

지금까지 AI 를 평가할 때는 주로 10 초~5 분짜리 짧은 영상을 사용했습니다. 마치 **"초콜릿 한 조각을 맛보고 요리사 실력을 평가한다"**는 것과 비슷하죠.

하지만 실제 우리 삶은 어떨까요?

  • 여행 브이로그, 강의, 다큐멘터리, 영화 등 30 분에서 1 시간 이상 이어지는 영상이 대부분입니다.
  • 이런 긴 영상에서는 소리와 화면이 복잡하게 얽혀 있고, 1 시간 전의 소리를 기억해야 1 시간 뒤의 상황을 이해할 수 있기도 합니다.

기존의 짧은 시험지로는 AI 가 긴 영상을 얼마나 잘 이해하는지 알 수 없었습니다. 그래서 연구팀은 **"긴 영상과 소리를 동시에 이해하는 능력"**을 제대로 측정할 새로운 시험지를 만들었습니다.

2. LVOmniBench 는 어떤 시험지인가요?

이 시험지는 다음과 같은 특징을 가집니다:

  • 긴 호흡의 시험: 영상 길이가 10 분에서 90 분까지 다양합니다. (기존 시험지보다 평균 길이가 6 배 이상 깁니다!)
  • 정성적인 문제: 단순히 "화면에 고양이가 있나요?" 같은 쉬운 문제가 아니라, **"30 분 전 남자가 언급한 '토비'라는 개가 마당에 몇 번 나타났나요?"**처럼 소리와 화면을 모두 기억하고 추론해야 하는 복잡한 문제들입니다.
  • 수작업으로 만든 문제: AI 가 자동으로 문제를 내면 헛소리 (할루시네이션) 를 할 수 있으니, 인간 전문가들이 직접 영상을 보고 정성껏 문제를 만들었습니다. 총 275 개의 영상과 1,014 개의 질문이 있습니다.

3. 시험 결과는 어땠나요? (현실적인 충격)

이 시험지를 최신 AI 모델들에게 풀어보게 했더니 결과는 꽤 충격적이었습니다.

  • 최고급 AI (구글 Gemini 3 Pro): 가장 잘한 모델이 **약 65%**를 맞았습니다. 이는 "꽤 잘한다"는 뜻이지만, 여전히 35% 는 틀린 것입니다. 긴 영상 속 숨겨진 단서를 찾는 데는 여전히 고전하고 있습니다.
  • 오픈소스 AI (일반인도 쓸 수 있는 모델): 대부분의 모델이 35% 미만의 점수를 받았습니다. 이는 무작위로 찍는 것 (랜덤 추측) 과 큰 차이가 없는 수준입니다.
  • 핵심 결론: 현재 AI 는 짧은 영상은 잘 보지만, 긴 영상과 소리를 동시에 이해하는 능력은 여전히 매우 부족합니다. 특히 음악 소리를 이해하거나, 시간 순서대로 사건을 기억하는 데서 큰 어려움을 겪었습니다.

4. AI 가 왜 힘들어할까요? (오류 분석)

연구팀은 AI 가 틀린 이유를 분석했는데, 다음과 같은 '실수'들이 많았습니다:

  • 귀와 눈의 불일치: 소리는 들었는데 화면을 못 보거나, 화면은 봤는데 소리를 무시하는 경우가 많았습니다. (예: 소리가 "이건 빨간색이야"라고 하는데 화면엔 파란색이 보이면 AI 는 혼란을 겪습니다.)
  • 기억력 부족: 10 분 전에 들은 소리를 30 분 뒤에 기억하지 못해 정답을 못 찾았습니다.
  • 추론 실패: "남자가 웃고 있으니 기분이 좋겠지" 같은 단순한 감정은 알지만, "소리와 화면을 연결해서 복잡한 논리를 펼치는 것"은 아직 어렵습니다.

5. 이 연구의 의미는 무엇인가요?

이 논문은 **"지금까지의 AI 는 긴 영상 이해에 아직 초보 수준이다"**라고 정직하게 지적했습니다.

  • 새로운 기준: 앞으로 AI 개발자들은 이 'LVOmniBench'라는 시험지를 기준으로 긴 영상 이해 능력을 향상시켜야 합니다.
  • 미래의 AI: 이 시험지를 통과할 수 있는 AI 가 나오면, 우리는 AI 에게 "지난달에 내가 본 여행 영상에서 내가 먹었던 음식이 뭐였지?"라고 물어볼 수 있게 될 것입니다.

요약

이 논문은 **"AI 가 짧은 영상은 잘 보지만, 긴 영화나 강의처럼 길고 복잡한 영상은 아직 잘 못 본다"**는 사실을 새로운 시험지를 통해 증명했습니다. 이제 AI 개발자들은 이 '긴 호흡'의 능력을 키우는 데 집중해야 할 시기가 왔습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →