OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

本文提出了 OmniVideoBench,这是一个包含 1000 个高质量问答对和 13 种任务类型的大规模基准测试,旨在通过强调模态互补与逻辑一致性,全面评估多模态大语言模型在音视频协同理解方面的能力。

Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Wentao Wang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Jiafu Tang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OmniVideoBench 的新工具,你可以把它想象成是给现在的“超级 AI 大脑”(多模态大语言模型)进行的一场高难度的“视听双修”期末考试

为了让你更容易理解,我们可以用几个生动的比喻来拆解这篇论文的核心内容:

1. 为什么要出这套题?(背景与痛点)

以前的 AI 考试,要么只考“看图说话”(视觉),要么只考“听音辨意”(听觉)。

  • 现状:现在的 AI 很聪明,能看懂图,也能听懂话。但是,当它们面对一段既有画面又有声音的复杂视频时,往往就“晕”了。
  • 问题:以前的考题太简单,或者把声音和画面割裂开了。比如,有些题只看图就能猜出答案,根本不需要听声音;或者有些题声音和画面是矛盾的,AI 就不知道信谁。
  • 比喻:这就像以前考学生,只让看一张静态的“车祸现场照片”来猜发生了什么。现在的 OmniVideoBench 则是直接放一段完整的监控录像,里面既有撞车的画面,又有司机的争吵声、警笛声和玻璃破碎声。学生必须同时处理画面和声音,才能拼凑出真相。

2. 这套题有多难?(数据集介绍)

研究团队(NJU-LINK 团队)精心准备了 1000 道 这样的“视听双修”题目,基于 628 段 真实的视频。

  • 视频长度:从几秒钟的短视频到 30 分钟的长纪录片都有。
    • 比喻:就像考试里既有“快速反应题”(看 5 秒视频),也有“长篇阅读理解题”(看 30 分钟电影),考验 AI 的“记忆力”和“耐力”。
  • 题目类型:涵盖了 13 种题型。
    • 比如:“那个海报在墙的左边还是右边?”(空间定位)
    • “如果史蒂文不阻止那个年轻人,他会做什么?”(因果推理/假设)
    • “背景音乐的变化暗示了主角什么心情?”(情感理解)
  • 严格把关:每一道题都经过人工反复检查,确保必须同时听懂声音和看懂画面才能做对。如果只看图或只听声就能猜对,这道题就会被扔掉。
    • 比喻:这就像老师出题时,特意把“答案”藏在声音和画面的交叉点上。如果你只盯着画面看,就像蒙着眼睛走路;只盯着声音听,就像捂着眼睛走路,只有“眼耳并用”才能走到终点。

3. AI 考得怎么样?(实验结果)

研究人员拿各种顶尖的 AI 模型(包括谷歌的 Gemini、阿里的 Qwen 等)来考这套题,结果让人有点“大跌眼镜”:

  • 人类 vs. AI:人类专家的平均得分是 82.69%,而目前最强的 AI 模型(Gemini-2.5-Pro)最高只拿到了 58.90%
    • 比喻:这就像让一群天才小学生(AI)去参加博士生的考试,虽然它们平时背了很多书,但遇到这种需要“眼观六路、耳听八方”的实战题,还是显得力不从心,甚至很多开源模型的表现接近于瞎蒙(随机猜测)。
  • 短板在哪里?
    • 音乐理解:AI 特别怕背景音乐。如果视频里主要是音乐,AI 的得分会暴跌。
      • 比喻:AI 能听懂人说话(像听新闻),也能听懂环境音(像听刹车声),但听到音乐时,它就像听天书,不知道这音乐是在表达悲伤还是兴奋。
    • 长视频:视频越长,AI 越容易“忘事”。
      • 比喻:就像让 AI 看一部 30 分钟的连续剧,它可能记得开头,但看到结尾时,早就忘了中间发生了什么。

4. 这个考试有什么用?(意义)

  • 照妖镜:它暴露了当前 AI 在“视听协同推理”上的巨大差距。AI 现在更像是个“偏科生”,视觉和听觉各管各的,还没学会如何把它们融合起来思考。
  • 指路牌:通过给 AI 标注详细的“解题步骤”(比如:第一步看画面,第二步听声音,第三步推理),研究人员希望未来的 AI 能学会像人类一样,一步步地、有逻辑地结合视听信息去解决问题。

总结

OmniVideoBench 就像是给 AI 世界设立的一个新的“奥林匹克”标准。它告诉我们要想造出真正像人类一样聪明的 AI,不能只让它们“看”或只让它们“听”,必须让它们学会一边看一边听,并且把两者结合起来思考。目前的 AI 离这个目标还有很长的路要走,但这套新试卷将帮助它们找到前进的方向。