Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

本文介绍了 Molmo2,这是一个在视频理解与像素级定位(如点选和跟踪)方面达到开源状态最先进水平的视觉语言模型家族,其核心贡献在于构建了 7 个全新视频数据集和 2 个多图像数据集,并提出了高效的训练方案,使其在多项任务上超越了现有开源模型甚至部分闭源模型。

Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Molmo2 的超级智能模型家族。为了让你轻松理解,我们可以把现在的 AI 世界想象成一个**“视频理解学校”,而 Molmo2 就是这所学校里最新毕业、成绩最优异的“全能优等生”**。

以下是用大白话和生动比喻对这篇论文的解读:

1. 背景:为什么我们需要 Molmo2?

现状: 目前最厉害的视频理解 AI(比如 Google 的 Gemini 或 OpenAI 的 GPT 系列)都是**“私立贵族学校”**。它们虽然很强,但学费昂贵(闭源),而且没人知道它们是怎么学习的(数据不公开)。更糟糕的是,很多现有的开源 AI(“公立学校”)是靠着“偷看”贵族学校的作业(合成数据)才学会的,或者根本不敢公开自己的食谱。

痛点: 以前的开源 AI 只能“大概看懂”视频(比如:“视频里有个男人在跑步”)。但它们做不到**“指哪打哪”的精细操作。比如,你问:“那个穿红衣服的人在第几秒摔倒了?”或者“视频里一共有多少只狗?”,它们要么答不上来,要么只能瞎猜,无法在视频画面上精准地“点”出位置或“数”**出数量。

Molmo2 的突破: 这是一个完全开源(免费、透明)的模型家族。它不偷看任何“贵族学校”的作业,而是自己找了一群人类老师,重新编写了一套全新的教材,专门训练视频理解、指点和计数能力。

2. 核心能力:它学会了什么新技能?

Molmo2 就像是一个**“超级侦探”**,它有三个绝招:

  • 技能一:指哪打哪(Grounding/Pointing)

    • 比喻: 以前的 AI 看视频像是在看模糊的电视,只能看到大概。Molmo2 则像是一个拿着激光笔的**“神射手”**。
    • 例子: 如果你问:“视频里那个穿黄衣服的人什么时候开始跳舞的?”Molmo2 不仅能回答时间,还能在视频画面上精准地画出一个点,告诉你:“就是这一帧,这个位置!”它甚至能像追踪器一样,一直盯着一个物体,不管它怎么跑、被挡住还是转弯,它都能跟住。
  • 技能二:火眼金睛数数(Counting)

    • 比喻: 以前的 AI 数东西经常数错,比如把一群鸟数成“很多只”。Molmo2 像是一个**“精算师”**。
    • 例子: 视频里有 50 只鸟在飞?以前的模型可能说“大概 10 只”,Molmo2 能准确数出"50 只”,并且能在屏幕上把每一只鸟都圈出来给你看。
  • 技能三:超级解说员(Captioning)

    • 比喻: 以前的解说员说话很简短,像发微博。Molmo2 像是一个**“细节控的纪录片导演”**。
    • 例子: 它不仅能说“有人在开车”,还能描述:“一个穿着紫色和服的女人,在下午 3 点,正坐在驾驶座上,手里拿着咖啡,车窗外下着雨……"它能写出几千字的详细视频描述,而且非常准确。

3. 它是如何训练的?(独家秘方)

Molmo2 的成功不在于它用了更贵的显卡,而在于它**“吃得更好”**。

  • 拒绝“预制菜”: 很多开源模型是用其他大模型生成的“合成数据”训练的(就像吃别人嚼过的饭)。Molmo2 坚持**“现做现吃”**。
  • 人类老师亲自授课: 研究人员找来了成千上万名人类标注员(就像请了无数家教)。
    • 听写训练: 让人类看着视频,口述出极其详细的描述(比打字快且细节多),然后转成文字。
    • 互动问答: 让人类对着视频提问,并亲自修正 AI 的答案,确保答案既准确又符合人类逻辑。
    • 指指点点: 让人类在视频的每一帧上,用手指点出物体在哪里。
  • 数据量巨大: 他们收集了 9 个全新的数据集,包括数百万个视频片段、数万个“指点”任务和复杂的“多张图片”理解任务。

4. 训练技巧:如何让它跑得更快、学得更深?

除了数据好,Molmo2 还发明了一些**“学习技巧”**:

  • 打包学习(Packing): 就像把很多小视频剪辑拼成一个长视频一起看,避免浪费算力。
  • 双向关注(Bi-directional Attention): 以前的模型看视频是“从左到右”单向看。Molmo2 允许它**“前后照应”**,看后面的画面时也能回头参考前面的画面,理解更连贯。
  • 重点标记(Token Weighting): 就像老师批改作业,对于特别长、特别难的描述(比如几千字的视频解说),给它们更高的“分数权重”,让模型知道这些内容很重要,不能马虎。

5. 成绩如何?(期末考试)

Molmo2 在各项考试中表现惊人:

  • 开源界第一: 在所有的开源模型中,它是目前最强的,特别是在视频计数指点定位方面。
  • 挑战“贵族”: 在某些任务上(比如视频指点),它甚至超过了 Google 的 Gemini 3 Pro 等闭源商业模型。
  • 人类喜欢它: 在人类偏好测试中,人们觉得 Molmo2 的回答比很多商业模型更自然、更准确。

6. 总结:这对我们意味着什么?

Molmo2 就像是为整个 AI 社区打开了一扇**“透明的大门”**。

  • 以前: 只有大公司能造出能看懂视频、能指指点点的 AI,而且大家不知道它们是怎么做到的。
  • 现在: 任何人都可以下载 Molmo2,研究它的代码,使用它的数据。这意味着未来的视频搜索、机器人控制、自动驾驶辅助系统,都将因为这种**“开源、透明、强大”**的技术而飞速发展。

一句话总结:
Molmo2 是一个完全免费、完全透明的 AI 模型,它通过人类亲自教导学会了像侦探一样精准指点视频中的物体、像精算师一样准确计数,并且能写出超级详细的视频解说,是目前开源视频 AI 领域的“新王”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →