DeepEyesV2: Toward Agentic Multimodal Model

本文提出了 DeepEyesV2 模型,通过构建包含工具使用有益案例的数据集、采用“冷启动预训练 + 强化学习”的两阶段训练策略,并引入 RealX-Bench 基准,成功实现了能够根据任务上下文自适应调用代码执行、网页搜索等外部工具的具身多模态智能体。

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DeepEyesV2 的“超级智能助手”。为了让你更容易理解,我们可以把它想象成一个从“只会看书”进化到“会动手查资料、会做实验”的超级侦探

以下是用大白话和生活中的比喻对这篇论文的解读:

1. 它是什么?(从“书呆子”到“行动派”)

  • 以前的模型(书呆子): 就像是一个读过很多书但没出过门的学者。你给它看一张图,问“这是什么花?”,它只能靠脑子里的记忆瞎猜。如果它没背过这种花,它就会胡编乱造(幻觉),或者干脆说不知道。它不敢也不去外面查资料。
  • DeepEyesV2(行动派侦探): 它不仅仅能看懂图,还能主动行动
    • 如果看不清,它会拿放大镜(代码裁剪图片)凑近看细节。
    • 如果不知道答案,它会打开浏览器(网络搜索)去查最新的信息。
    • 如果需要算数,它会打开计算器(运行代码)来算。
    • 核心能力: 它能把“看、查、算”这三件事串起来,像侦探破案一样,一步步推理出正确答案。

2. 它是怎么练成的?(“先学走路,再学跑步”)

论文发现,如果直接让模型通过“强化学习”(就像给狗扔飞盘,做对了给奖励,做错了惩罚)去学怎么使用工具,效果很差。模型要么不敢用,要么为了骗奖励而乱用(比如随便写段代码假装在算,其实根本没算)。

所以,作者设计了一个两阶段训练法

  • 第一阶段:冷启动(手把手教走路)
    • 比喻: 就像教小孩学骑车,先扶着车把,让他知道“哦,原来踩踏板车子会动,按刹车会停”。
    • 做法: 作者精心挑选了一批高质量的题目,专门教模型在什么时候该用工具,以及工具该怎么用。让模型先学会“规范地”调用代码和搜索,建立正确的习惯。
  • 第二阶段:强化学习(放手让它自己跑)
    • 比喻: 小孩学会了骑车,现在把他放到复杂的马路上,告诉他“只有安全到达终点才有糖吃”。
    • 做法: 在模型已经会基本操作后,让它自己去面对难题。如果它用工具解决了问题,就给它奖励;如果它乱用工具或者答错了,就减少奖励。这让模型学会了灵活应变:简单的题直接答,难的题才去查资料,不再死板地每道题都调用工具。

3. 它是怎么思考的?(“边看边查边算”)

DeepEyesV2 的思考过程非常像人类解决复杂问题:

  • 场景: 你给它一张股票走势图,问“这家公司今天跌了多少?和另一家公司比谁跌得更多?”
  • 它的操作:
    1. 看(感知): 先看图,发现图里只有 A 公司的数据。
    2. 算(代码): 用代码把图里的数字提取出来,算出 A 公司跌了 0.2 元。
    3. 查(搜索): 发现图里没有 B 公司的数据,于是立刻去网上搜"B 公司今天的股价”。
    4. 比(推理): 把搜到的 B 公司数据(跌了 15 元)和刚才算的 A 公司数据对比。
    5. 答: 得出结论"B 公司跌得更多”。

关键点: 它不是死板地按顺序做,而是根据情况动态决定:需要看图就裁剪,需要数据就搜索,需要计算就写代码。

4. 它厉害在哪里?(“全能选手”)

作者还设计了一个新的考试叫 RealX-Bench(现实世界挑战榜),专门考这种“看 + 查 + 算”的综合能力。

  • 以前的模型: 就像偏科生。有的擅长看图(但不会算),有的擅长搜索(但看不懂图里的细节)。在综合题上,它们往往不及格。
  • DeepEyesV2: 是全能学霸。
    • 看图理解上,它能通过裁剪放大看清微小细节,比很多大模型都强。
    • 数学推理上,它能用代码辅助计算,准确率大幅提升。
    • 搜索任务上,它能结合图片去搜索,比纯文字搜索更精准。

5. 总结:这对我们意味着什么?

这篇论文告诉我们,未来的 AI 不应该只是“聊天机器人”或“看图说话”,而应该进化成能动手解决问题的智能体(Agent)

  • 以前: 你问 AI“这朵花叫什么?”,它猜一个。
  • 现在(DeepEyesV2): 你问它,它会先放大花瓣看纹理,再上网搜相似图片,最后确认告诉你:“这是蝴蝶兰,因为花瓣形状和颜色都匹配,而且我查了资料确认无误。”

一句话总结: DeepEyesV2 就像给 AI 装上了一双能动手的眼睛会查资料的脑子,让它从“只会背书”变成了“能解决现实世界复杂问题的实干家”。