Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

本文提出了名为 Daily-Omni 的音频 - 视觉问答基准,旨在评估大语言模型在跨模态时序对齐方面的能力,并通过大规模实验揭示了当前端到端模型在处理此类同步推理任务时仍面临显著挑战。

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang Jiang

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Daily-Omni 的新项目,你可以把它想象成是给现在的“超级 AI 大脑”(多模态大模型)出的一道高难度“视听同步”期末考试

为了让你轻松理解,我们用几个生活中的比喻来拆解这篇论文的核心内容:

1. 现在的 AI 像什么?(背景与问题)

现在的 AI 模型(MLLMs)就像是一个才华横溢但有点“偏科”的学霸

  • 视觉好:它看视频、认图片非常厉害,能告诉你“图里有一只猫”。
  • 听觉也不错:它能听懂人说话,甚至能识别背景音乐。
  • 但“同步”能力差:当它同时看视频和听声音时,它经常**“顾此失彼”**。
    • 比喻:就像你在看一场交响乐演出,AI 能告诉你“那是小提琴手”,也能告诉你“那是小提琴的声音”,但它搞不清楚是哪位小提琴手在哪一秒拉出了那个声音。它无法将“画面”和“声音”在时间轴上完美对齐。

2. Daily-Omni 是什么?(新基准)

为了解决这个问题,复旦大学的研究团队制作了一个新的考试卷,叫 Daily-Omni

  • 考什么? 它不是考简单的“图里有什么”,而是考**“时间上的因果关系”**。
    • 例子:视频里一个人刚关上门(画面),紧接着传来了“砰”的一声(声音)。AI 必须回答:“是关门声吗?”或者“谁在说话?”。
    • 核心:它要求 AI 必须像人类一样,一边看一边听,并且把两者在时间上严丝合缝地对应起来
  • 规模:包含 684 个真实的日常生活视频(比如做饭、吵架、修车),以及 1197 道选择题。

3. 他们是怎么出题的?(数据构建)

出题过程非常严谨,就像**“先写草稿,再请专家校对,最后去伪存真”**:

  1. 自动初稿:用强大的 AI 先给视频写“视觉描述”和“听觉描述”。
  2. 交叉校对:让另一个 AI 检查“视觉”和“听觉”是否矛盾。比如,如果画面是“门被关上”,但声音被描述为“鸟叫”,系统就会自动修正为“关门声”。
  3. 时间对齐:这是最关键的一步。系统会专门标记出“哪个声音”和“哪个画面”是同时发生的。
  4. 防作弊过滤:有些题目如果只看文字(不看视频)就能猜出答案,那就直接扔掉。因为我们要考的是真正的“视听理解”,而不是“阅读理解”。
  5. 人工把关:最后由人类专家快速审核,确保题目无歧义且必须依赖视听结合才能回答。

4. 考试结果怎么样?(评估与发现)

研究人员找了 24 种目前最顶尖的 AI 模型来参加考试,结果让人大跌眼镜

  • 现状:很多号称“全能”的 AI,在面对这种需要精细时间对齐的题目时,表现甚至不如只靠猜或者只看文字的模型。
  • 惊人的发现:研究者设计了一个**“笨办法”基准(Daily-Omni Agent)。这个基准不靠复杂的深度学习,而是把视频切成小段,分别用专门的“听”模型和“看”模型分析,然后人工(通过算法)把时间点对齐**,最后再让大模型做决定。
    • 比喻:这就像是一个**“分工明确的团队”(有人专门看,有人专门听,有人专门负责把大家的信息拼起来),结果这个“笨团队”的成绩,竟然打败了好几个“单打独斗”的超级 AI 天才**。
  • 结论:这说明目前的 AI 架构中,缺乏一种强大的机制来将“看”和“听”在时间上紧密绑定。这是它们目前最大的短板。

5. 总结与意义

这篇论文的核心思想是:

未来的 AI 不仅要“眼观六路,耳听八方”,更要能“眼耳同步,即时反应”。

Daily-Omni 就像一面镜子,照出了当前 AI 在跨模态时间对齐上的不足。它告诉科学家们:别只顾着把模型做大,如何让模型真正理解“此时此刻”发生了什么,才是通往真正智能的关键。

一句话总结
现在的 AI 能看懂图,也能听懂话,但还没学会**“边看边听且对得上号”**;Daily-Omni 就是专门用来测试和推动 AI 学会这项“同步技能”的新工具。