Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

该论文通过审计现有视频基准发现其严重缺乏对音频能力的评估,进而提出一种可扩展的语音编码器集成方案,证明在引入音频信息后,模型在涉及语音理解和跨模态对齐的任务上取得了显著提升,而纯视觉任务则未受影响。

Geewook Kim, Minjoon Seo

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在探讨一个非常有趣的问题:现在的视频大模型(Video-LLMs)真的需要“听”吗?

作者发现,虽然现在的模型很聪明,能看懂视频画面,但它们通常被设计成“聋子”——只处理画面,忽略声音。为什么?因为用来测试它们的“考卷”(基准测试)本身就有问题。

为了让你更容易理解,我们可以用几个生活中的比喻来拆解这篇论文的核心内容:

1. 为什么模型“不听”?因为考试太简单了

想象一下,你正在参加一场**“看图说话”**的考试。

  • 现状:现在的考试题目大多是:“视频里的人在做什么?”或者“背景是什么颜色?”
  • 问题:这些题目光看一张静止的截图就能答对,根本不需要听声音。
  • 结果:既然光看画面就能拿高分,模型开发者自然觉得“听声音”是多此一举,甚至觉得那是累赘。

作者的发现
作者像“阅卷老师”一样,重新检查了 10 份流行的视频考试卷。他们发现了一个惊人的现象:如果把视频静音,只给模型看中间那一帧画面,现在的 AI 竟然能答对 77% 的题目!
这意味着,这些考试并没有真正测试 AI“视听结合”的能力,就像你让一个会弹钢琴的人去考“听音辨位”,结果题目全是“看图猜谜”,那当然用不上耳朵。

2. 真正的挑战:什么时候需要“听”?

作者指出,有些题目是必须靠耳朵的。

  • 例子:题目问“谁说话的声音最轻?”或者“背景里有什么奇怪的声音?”
  • 比喻:这就好比在嘈杂的派对上,有人问你“刚才谁在角落里说了悄悄话?”如果你只盯着别人的嘴唇看(视觉),是听不到内容的;你必须竖起耳朵(听觉)才能回答。
  • 结论:一旦把那些“光看图就能答”的简单题目剔除掉,剩下的题目中,加上“听力”功能的模型,成绩会明显提升

3. 技术难题:声音数据太多,怎么办?

虽然“听”很有用,但直接让模型听声音有个大麻烦:数据量太大

  • 比喻
    • 画面:视频里的每一帧画面,就像一本厚厚的书,但我们可以快速翻页,只读重点。
    • 声音:声音是连续的,就像一条永远流不完的水管。如果要把一小时的视频声音全部“翻译”成文字让模型读,模型会被“撑爆”(内存不够,反应太慢)。
    • 现状:现在的顶级模型(如 Qwen2.5-Omni)试图把这一小时的声音全部塞进去,结果处理速度很慢(4 秒多),就像让一个人把一吨大米一粒粒数清楚再汇报。

4. 作者的解决方案:聪明的“压缩”与“同步”

作者提出了一套高效的方案,让模型既能“听”,又不会“撑死”。

  • 压缩技术(像“摘要”一样)
    他们设计了一种特殊的“压缩器”(基于 Mamba 架构)。

    • 比喻:想象你有一小时的会议录音。以前的做法是把每一秒都记下来(9 万个字)。作者的做法是:每隔 25 秒,提取一个最核心的“关键词”或“摘要”(变成 3600 个字)。
    • 效果:信息量没丢多少,但数据量减少了 25 倍!这让模型处理长视频变得非常快速和轻松。
  • 时间对齐(像“看字幕”一样)
    他们把声音和画面像“字幕”一样精准地对应起来。

    • 比喻:不是先把整段视频看完,再把整段音频听完,而是**“看到画面 A 的同时,听到声音 A"**。这样模型就能理解“这个人说话时,表情是生气的”这种细节。

5. 最终结论:我们需要“视听双修”的 AI

这篇论文的核心观点可以总结为:

  1. 现在的考试太偏科:只考“看”,不考“听”,导致我们误以为 AI 不需要耳朵。
  2. 一旦考真本事:在需要理解对话、分辨声音的复杂场景下,“听”是绝对必要的,能显著提升 AI 的智能。
  3. 技术已成熟:通过聪明的压缩技术,我们完全可以让 AI 在保持速度的同时,拥有“听力”。

一句话总结
这就好比我们以前只训练 AI 当“默读者”,因为它参加的考试全是看图题。现在作者告诉我们要把它培养成“视听双修的记者”,并发明了一种“速记法”,让它既能听懂现场的声音,又不会因为信息太多而“死机”。

作者还开源了所有代码和经过“清洗”的更公平的考试题目,希望未来的 AI 能真正学会“看”和“听”的结合,更好地服务于现实世界(比如总结会议、理解讲座等)。