WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

本文提出了首个涵盖视觉、音频和文本的“世界感知”(WorldSense)基准,通过 1,662 个高质量音视频同步视频及 3,172 个多轮问答对,系统评估了多模态大模型在真实场景下对多模态协同理解的现有能力与局限。

Jack Hong, Shilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 WorldSense 的新工具,你可以把它想象成给现在的“超级 AI 大脑”(多模态大模型)进行的一场**“全感官现实世界生存考试”**。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这篇论文的核心内容:

1. 以前的考试 vs. 现在的考试(WorldSense)

  • 以前的考试(旧基准): 就像是在考一个**“盲人听音辨位”或者“哑巴看图说话”**。

    • 以前的 AI 测试大多只给图片(视觉)或者只给文字(文本)。有些测试虽然给了声音,但声音和画面往往是“各说各的”,就像你在看一部电影,但耳机里放的是完全无关的广播剧。
    • 比喻: 这就像让你看一张“下雨”的照片,然后问你“雨声听起来像什么”。你只能靠猜,因为照片里没有声音。
  • WorldSense 的考试: 这是一场**“沉浸式实景生存挑战”**。

    • 它给 AI 播放的是真正的视频,画面和声音是完美同步的。
    • 核心特点: 很多题目必须同时看懂画面听懂声音才能答对。
    • 比喻: 就像你坐在车里,看到前面有个红灯(视觉),同时听到后面有警笛声(听觉)。如果你只看红灯,可能会急刹车;如果你只听警笛,可能会乱撞。只有同时处理这两个信息,你才能做出正确的决定(比如靠边停车)。WorldSense 就是专门测试 AI 能不能像人类一样,把眼睛看到的和耳朵听到的“揉”在一起思考。

2. 这个“考场”长什么样?

WorldSense 这个考场非常庞大且专业:

  • 题库规模:1,662 个 精心挑选的视频片段,涵盖了 8 大类(比如科技、生活、电影、音乐等)和 67 个小类
  • 题目数量:3,172 道 选择题。
  • 出题人: 不是机器瞎编的,而是由 80 位人类专家 像“精雕细琢”一样,反复修改和审核出来的。
  • 题目难度: 题目设计得很“刁钻”。
    • 例子 1: 视频里一个人拿着蓝莓,光看画面你不知道他在干嘛,但听到他说“这个蓝莓比四分之一美元硬币还大”,你才知道他在展示大小。如果 AI 不听声音,就答错了。
    • 例子 2: 视频里有一段音乐,光看画面不知道是哪国的,但听到音乐风格(轻快、高亢),结合画面里的舞蹈,才能猜出是希腊的。

3. 考试结果:AI 们表现如何?

论文作者把目前世界上最先进的 AI 模型都拉来考了这场试,结果有点**“让人清醒”**:

  • 开源小模型(Open-source): 表现非常糟糕,很多甚至不如瞎猜(准确率只有 25% 左右,接近随机猜测)。这说明它们虽然能“看”也能“听”,但根本不知道如何把两者结合起来。
  • 闭源大模型(Proprietary,如 Gemini 2.5 Pro): 表现最好,但也只考了 65.1%
    • 比喻: 即使是目前最聪明的 AI,在面对复杂的现实世界(比如同时处理嘈杂的背景音和复杂的视觉动作)时,也像个**“刚学会走路的婴儿”**,经常顾此失彼。
  • 关键发现:
    • 如果只给 AI 看视频(不给声音),或者只给声音(不给视频),它们的分数会暴跌。这证明了**“视听结合”**对于理解现实世界是多么重要。
    • 目前的 AI 在**“听音辨意”**(比如听出音乐的情绪、环境音的细节)方面特别弱,往往只能听懂文字字幕,却听不懂语气、旋律和背景噪音。

4. 为什么这很重要?(未来的方向)

这篇论文就像给 AI 开发者们敲了一记警钟:

  • 现状: 现在的 AI 太依赖“看图说话”了,它们还没学会真正的“全感官理解”。
  • 问题: 它们把视觉和听觉当成两条平行的线,而不是交织在一起的网。
  • 建议: 未来的 AI 需要:
    1. 吃更多的“混合餐”: 训练数据必须是画面和声音天然耦合的,而不是拼凑的。
    2. 换更聪明的“大脑架构”: 让 AI 在早期就能同时处理视听信息,而不是最后才把结果拼起来。
    3. 加强“逻辑推理”: 不仅要看到和听到,还要能像人一样推理出背后的原因(比如:因为听到刹车声 + 看到车灯闪烁 = 前方有危险)。

总结

WorldSense 就是给 AI 世界设立的一个**“现实世界理解力”的试金石**。它告诉我们:虽然 AI 在写诗、画画、聊天上已经很厉害了,但在真正像人类一样,在充满声音和画面的复杂现实世界中生存和决策,它们还有很长的路要走。

这就好比现在的 AI 是个**“天才图书管理员”(能处理大量文字和图片),但还没成为一个“经验丰富的老司机”**(能同时处理路况、车声、行人动作并做出安全决策)。WorldSense 就是那个驾校的终极路考。