VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

本文提出了 VideoChat-M1,一种基于多智能体强化学习的视频理解框架,通过创新的协作策略规划(CPP)机制,使多个智能体能够动态生成、执行并相互沟通优化工具调用策略,从而在多个基准测试中实现了超越现有最先进模型(如 Gemini 2.5 Pro 和 GPT-4o)的卓越性能。

Boyu Chen, Zikang Wang, Zhengrong Yue, Kainan Yan, Chenyun Yu, Yi Huang, Zijun Liu, Yafei Wen, Xiaoxin Chen, Yang Liu, Peng Li, Yali Wang

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 VideoChat-M1 的新系统,它的核心任务是看懂视频,尤其是那些很长、很复杂、充满细节的视频。

为了让你更容易理解,我们可以把现有的视频理解技术比作"一个超级学霸独自解题",而 VideoChat-M1 则像是一个"精英智囊团开会"。

1. 以前的方法:孤军奋战的“死板学霸”

想象一下,以前的人工智能(AI)在看视频回答问题时,就像一个被关在房间里、只有一条固定解题思路的学霸。

  • 问题:如果视频很长(比如一部电影),或者画面很复杂(比如一群人同时在打架),这个学霸只能按部就班地看。如果它第一步看错了,或者没注意到某个关键细节,它就很难回头去修正,最后只能给出一个错误的答案。
  • 比喻:就像你让一个人去图书馆找一本书,但他只被允许走一条固定的路线。如果书不在那个路线上,他就找不到了,哪怕书其实就在隔壁书架。

2. VideoChat-M1 的革新:精英智囊团(多智能体协作)

VideoChat-M1 改变了玩法。它不再派一个“学霸”,而是派出了一个由 4 个不同特长的 AI 组成的“智囊团”

核心机制一:协作式策略规划 (CPP) —— “大家一起来想办法”

这个智囊团在开始看视频前,会先开一个“头脑风暴会”:

  • 制定计划:每个成员根据自己的特长,提出不同的“寻宝路线”(比如:有人建议先看全景,有人建议直接搜索特定人物,有人建议关注时间线)。
  • 分工执行:大家分头行动,利用不同的工具(比如“全局扫描工具”、“局部放大工具”、“时间定位工具”)去视频里找线索。
  • 实时交流:这是最关键的一步!在执行过程中,大家会不断互通有无。
    • 场景模拟:成员 A 发现“那个穿红衣服的人好像没动”,成员 B 马上说“等等,我刚才在另一段视频里看到他动了,我们得重新调整计划!”
    • 结果:大家根据彼此的信息,动态修改自己的计划,不再死板地执行最初的指令。这就像侦探破案,一个人发现了新线索,整个团队立刻调整侦查方向。

核心机制二:多智能体强化学习 (MARL) —— “边做边学,互相打分”

光有团队还不够,还得让他们越配合越好。VideoChat-M1 引入了一种**“强化学习”机制,就像给这个团队请了一位“严厉又智慧的教练”**。

  • 双重奖励
    1. 结果奖励:最后答案对了,全员加分。
    2. 过程奖励:这是它的绝活。教练不仅看结果,还看大家合作的过程。如果某个成员提出的计划很糟糕,或者大家沟通不畅,教练会扣分;如果大家配合默契、互相补台,即使最后答案有点小瑕疵,过程分也会很高。
  • 进化:通过这种“考试 + 复盘”的方式,这个团队在训练中学会了如何更聪明地分工、更有效地沟通,最终变成了一个配合天衣无缝的“特种部队”。

3. 它有多厉害?(战绩)

这个系统在 8 个不同的“考试”(视频理解测试)中都拿到了第一名(SOTA),甚至打败了目前世界上最强大的商业模型(如 GPT-4o 和 Gemini 2.5 Pro)。

  • 长视频理解:在长达几十分钟的视频问答中,它比 GPT-4o 高出 15.6%。
  • 空间推理:在判断物体位置关系(比如“杯子在桌子的左边还是右边”)时,它比 Gemini 1.5 Pro 高出 26.5%。
  • 性价比:最神奇的是,它用的模型参数只有 370 亿(37B),而它打败的那些对手,参数往往是它的几倍甚至几十倍(比如 2350 亿)。
    • 比喻:这就像是一个由 4 个普通大学生组成的“特种小队”,通过完美的战术配合,打败了 4 个超级天才组成的“笨重舰队”。

总结

VideoChat-M1 的核心思想就是:不要指望一个全能的“超人”去解决所有复杂问题,而是组建一个“互补的团队”,让他们在动态交流中互相修正、互相学习。

它不再是一个冷冰冰的“看视频机器”,而是一个懂得**“商量”、“纠错”和“协作”**的智能团队。这让它在处理复杂、漫长的视频任务时,表现得更加聪明、灵活和准确。