OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

本文提出了 OmniVideo-R1 框架,通过基于自监督学习的查询意图 grounding 和基于对比学习的模态注意力融合策略,显著提升了现有全模态视频模型在音视频理解任务中的推理能力与泛化性能。

Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OmniVideo-R1 的新模型。简单来说,它就像给现有的 AI 视频理解能力装上了一套“超级大脑”和“敏锐的耳朵”,让它不仅能“看”视频,还能真正“听懂”声音,并把两者结合起来进行逻辑推理。

为了让你更容易理解,我们可以用几个生活中的比喻来拆解它的核心思想:

1. 现在的 AI 有什么毛病?(“偏科”的学霸)

想象一下,现在的很多 AI 模型就像是一个偏科的学霸

  • 它看视频(视觉)很厉害,能认出猫、狗、汽车。
  • 但它一旦把耳朵打开(加入音频),反而变笨了。就像一个人一边听交响乐一边解题,结果因为太在意音乐,反而把题目看错了。
  • 现状:很多 AI 在“静音版”视频测试中得分很高,但一旦加上声音,分数反而下降。因为它没有学会如何把“看到的”和“听到的”完美融合,反而被声音干扰了。

2. OmniVideo-R1 是怎么解决的?(两个阶段的特训)

作者没有简单地给 AI 喂更多的数据,而是设计了一套两阶段的“特训营”,教 AI 如何像人类一样思考。

第一阶段:学会“带着问题找证据”(Query-intensive Grounding)

  • 比喻:这就好比老师给学生出一道题:“视频里谁在撒谎?”
    • 以前的 AI:可能会瞎猜,或者只盯着画面看,完全忽略声音里的破绽。
    • OmniVideo-R1 的做法:它被训练成必须先在脑海里“圈出”关键片段。它会想:“等等,我要找证据。先看第 5 秒,那个人在说话;再看第 10 秒,背景里有玻璃破碎的声音。”
    • 核心技巧:它不需要老师手把手教它“哪一秒是重点”(因为那样太贵了),而是通过自我监督来学习。它自己生成“时间 + 描述”的草稿,然后自己检查:“我描述的这段画面和声音,真的能回答这个问题吗?”如果答不上来,就自我修正。
    • 效果:它学会了先定位,再思考,而不是盲目地看完全片。

第二阶段:学会“左右脑协同”(Modality-attentive Fusion)

  • 比喻:这就好比训练一个侦探。
    • 以前的 AI:可能只相信眼睛(视觉),或者只相信耳朵(听觉)。
    • OmniVideo-R1 的做法:它进行了一场对比考试
      • 考题 A:只看画面,不看声音。
      • 考题 B:只听声音,不看画面。
      • 考题 C:画面 + 声音一起看。
    • 规则:如果 AI 在“考题 C"(全模态)中的表现不如单独看画面或单独听声音,它就会受到“惩罚”(奖励变少)。
    • 目的:强迫 AI 明白:1+1 必须大于 2。只有当它发现“声音 + 画面”组合起来能解开谜题,而单独看哪一边都解不开时,它才会真正学会利用声音和画面的互补性

3. 最终效果如何?(“全能型”选手)

经过这套特训后,OmniVideo-R1 变成了真正的“全能选手”:

  • 更聪明:在需要结合声音和画面的复杂任务(比如判断视频中的意图、推理剧情)上,它的表现超过了目前市面上最顶尖的开源模型,甚至打败了一些闭源的商业巨头模型(如 Gemini 系列)。
  • 不偏科:最厉害的是,它虽然学会了听声音,但看视频的能力并没有退步。它依然能完美地处理静音视频,没有因为加了耳朵而变笨。

总结

OmniVideo-R1 的核心贡献在于:
它不再只是把声音和画面“拼”在一起,而是教会了 AI 如何主动地、有逻辑地去寻找声音和画面中的线索,并将它们融合起来推理

这就好比从“一个只会看图的机器人”,进化成了“一个既能看图又能听声,还能像侦探一样抽丝剥茧、逻辑严密的智能助手”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →