OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Wentao Wang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Jiafu Tang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu

게시일 2026-03-06

📖 3 분 읽기☕ 가벼운 읽기

보기: arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"오미비디오벤치 (OmniVideoBench)"**라는 새로운 시험지를 소개하는 내용입니다. 쉽게 말해, **"AI 가 영상과 소리를 동시에 보고 듣고 얼마나 똑똑하게 이해하는지 측정하는 새로운 시험"**이라고 할 수 있습니다.

이 내용을 일상적인 비유와 함께 설명해 드릴게요.

1. 왜 이 시험이 필요할까요? (기존의 문제점)

지금까지 AI 를 시험할 때는 주로 **'눈 (영상)'**만 보고 문제를 풀게 하거나, **'귀 (소리)'**만 따로 테스트했습니다.

비유: 마치 **"눈을 가리고 귀만 막은 상태에서 요리 레시피를 설명하는 것"**과 비슷합니다.
- 눈만 막으면 소리를 듣고 요리 과정을 상상해야 하고, 귀만 막으면 요리하는 사람의 손동작만 봐야 하죠.
- 하지만 실제 삶에서는 눈으로 재료를 보고, 귀로 기름 튀는 소리를 들으며, 코로 냄새를 맡아 요리를 완성합니다.
문제: 기존 시험들은 AI 가 눈과 귀를 함께 써서 논리적으로 추론하는 능력을 제대로 못 봤습니다. 예를 들어, "누가 이 말을 했어?"라고 물을 때, 입 모양 (눈) 과 목소리 톤 (귀) 을 모두 종합해서 답해야 하는데, 기존 시험은 그걸 제대로 평가하지 못했죠.

2. 오미비디오벤치는 무엇인가요? (새로운 시험지)

이 연구팀은 **"진짜 AI 지능을 측정하는 새로운 시험지"**를 만들었습니다.

구성: 628 개의 다양한 영상 (뉴스, 다큐, 일상 브이로그 등) 과 1,000 개의 질문으로 이루어져 있습니다.
특징:
- 긴 영상: 몇 초짜리 짧은 클립이 아니라, 30 분짜리 긴 영상도 포함합니다. (비유: 짧은 뉴스 클립이 아니라, 한 편의 영화를 다 보고 내용을 이해하는 수준)
- 단계별 추론: AI 가 단순히 정답만 말하는 게 아니라, **"어떤 장면을 보고 (눈), 어떤 소리를 듣고 (귀), 어떻게 결론을 내렸는지"**를 단계별로 설명하도록 요구합니다.
- 정교한 설계: 질문을 만들 때, AI 가 영상만 보고 답하거나 소리만 듣고 답할 수 없도록 아주 꼼꼼하게 설계했습니다. (비유: "이 그림의 왼쪽에 있는 빨간색 공을 찾아줘"라고만 하면 안 되고, "오른쪽에서 들리는 발소리를 듣고 누가 공을 차고 있는지 찾아줘"처럼 눈과 귀를 모두 써야 답이 나옵니다.)

3. 시험 결과는 어땠나요? (AI 의 실력)

이 시험지를 가지고 최신 AI 들 (구글의 제미니, 알리바바의 톈원 등) 을 시험해 봤는데, 결과는 아주 충격적이었습니다.

인간 vs AI: 인간은 82% 정도 맞췄는데, 가장 잘하는 AI 는 겨우 58% 정도밖에 못 맞췄습니다. (비유: 고등학교 수학 시험에서 인간은 80 점 넘는데, AI 는 60 점도 못 넘어서 '불합격' 수준입니다.)
음악은 특히 약함: AI 는 사람 목소리나 환경음은 어느 정도 이해하는데, 음악이 나오는 영상에서는 매우 혼란스러워했습니다. (비유: 대화는 잘 알아듣는데, 배경음악이 깔리면 "이 노래가 무슨 감정을 표현하는지"를 전혀 못 알아챕니다.)
긴 영상은 힘듦: 10 분 이상 되는 긴 영상을 보면 기억력이 떨어지고 핵심을 놓치는 경우가 많았습니다.

4. 왜 중요한가요? (의미)

이 연구는 **"AI 가 진짜로 눈과 귀를 함께 쓰는 '오감'을 갖지 못하면, 복잡한 현실 세계를 이해할 수 없다"**는 것을 증명했습니다.

현재 상황: AI 는 아직 '눈'과 '귀'가 따로 놀고 있습니다.
미래 목표: 이 시험지를 통해 AI 개발자들이 눈과 귀를 자연스럽게 연결하고, 긴 이야기를 논리적으로 이해할 수 있도록 훈련해야 한다는 신호를 보낸 것입니다.

요약

이 논문은 **"AI 가 영화 한 편을 보고, 그 속의 대화와 배경음악, 장면 변화를 모두 연결해서 '왜 이런 일이 일어났는지' 설명할 수 있는가?"**를 테스트하는 새로운 기준을 제시했습니다. 현재 AI 는 이 시험에서 아직 인간 수준에 미치지 못하며, 특히 음악이나 긴 이야기 이해에 큰 약점이 있다는 사실을 발견했습니다. 앞으로 더 똑똑한 AI 를 만들기 위해서는 이 '눈 + 귀'의 협동 능력을 키워야 한다는 결론입니다.

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1. 왜 이 시험이 필요할까요? (기존의 문제점)

2. 오미비디오벤치는 무엇인가요? (새로운 시험지)

3. 시험 결과는 어땠나요? (AI 의 실력)

4. 왜 중요한가요? (의미)

요약

OmniVideoBench: 멀티모달 LLM 을 위한 오마니 (Omni) 비디오 이해 평가 벤치마크

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1. 왜 이 시험이 필요할까요? (기존의 문제점)

2. 오미비디오벤치는 무엇인가요? (새로운 시험지)

3. 시험 결과는 어땠나요? (AI 의 실력)

4. 왜 중요한가요? (의미)

요약

OmniVideoBench: 멀티모달 LLM 을 위한 오마니 (Omni) 비디오 이해 평가 벤치마크

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation