DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

DeepEyes 是一种通过端到端强化学习训练的大规模视觉语言模型,它无需监督微调冷启动数据即可原生习得“用图像思考”的能力,通过主动感知策略将视觉信息深度融入推理过程,从而显著提升了模型在感知、推理、定位及数学任务上的表现。

Ziwei Zheng, Michael Yang, Jack Hong, Chenxiao Zhao, Guohai Xu, Le Yang, Chao Shen, Xing Yu

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DeepEyes(深眼)的人工智能模型。为了让你轻松理解,我们可以把传统的视觉语言模型比作一个“只爱读书的近视眼学者”,而 DeepEyes 则像是一个“会主动凑近观察的侦探”。

以下是用大白话和生动比喻对这篇论文的解读:

1. 核心痛点:以前的模型“眼高手低”

想象一下,你给一个只读过很多书但没怎么看过世界的学者(传统大模型)看一张复杂的图表或一张模糊的照片,问他:“这张图里哪个部分的电阻变化最小?”

  • 传统做法:学者只能盯着整张图看,然后凭记忆里的文字知识瞎猜。他可能会说:“哦,这看起来像硅,所以选硅。”但他其实根本没看清图里的细节,这就是所谓的“幻觉”(Hallucination)。
  • 人类的智慧:如果你问一个侦探,他会怎么做?他会先扫一眼,发现看不清,于是主动凑近(Zoom in),甚至拿出放大镜,仔细查看局部细节,确认后再下结论。

DeepEyes 的目标,就是让 AI 学会像侦探一样,“用图像思考”(Thinking with Images),而不是只靠死记硬背的文字。

2. DeepEyes 是怎么学会的?(不用死记硬背,全靠“实战”)

以前的方法教 AI 这种技能,通常需要人类先写好几万条“看图 - 思考 - 回答”的教科书(这叫监督微调,SFT),这既贵又慢。

DeepEyes 的独门秘籍是“强化学习”(Reinforcement Learning):

  • 比喻:就像教小狗玩球。你不需要给小狗写一本《如何玩球》的说明书。你只需要扔出球,如果小狗主动跑过去把球捡回来,你就给它一块肉干(奖励);如果它只是站在原地瞎叫,就没有奖励。
  • DeepEyes 的训练
    • 模型面对问题,如果它主动决定“我要放大看看这个角落”,并且最后答对了,系统就给它发“大红包”(奖励)。
    • 如果它懒得动,或者乱放大,就得不到奖励。
    • 关键点:它不需要人类教它“什么时候该放大”,它是通过不断试错,自己悟出了“只有凑近看才能拿高分”的道理。

3. 它学会了什么新技能?(四种“侦探思维”)

在训练过程中,DeepEyes 进化出了四种很像人类的思考模式:

  1. 主动搜索(Visual Search):
    • 场景:找一只藏在草丛里的小猫。
    • 行为:模型发现全图看不清,于是像探照灯一样,主动扫描图像的各个角落,把可能藏着猫的地方放大看。
  2. 视觉对比(Visual Comparison):
    • 场景:比较两张图表哪个波动更小。
    • 行为:它不会凭感觉猜,而是轮流放大图表 A、B、C、D,像拿着放大镜对比一样,仔细数格子、看线条,最后得出结论。
  3. 自我确认(Visual Confirmation):
    • 场景:不确定那个黑乎乎的是不是窗户。
    • 行为:模型心里犯嘀咕:“这看起来像窗户,但不确定。”于是它再次放大,确认了细节后,才敢自信地回答“是”。
  4. 消除幻觉(Hallucination Mitigation):
    • 场景:模型差点把红色的外套看错成黑色的(因为文字训练让它觉得外套通常是黑色的)。
    • 行为:它通过放大查看,发现颜色明明是红的,于是推翻了自己原本基于文字经验的错误猜测,纠正了答案。

4. 实验结果:它有多强?

论文在几个很难的测试上(比如看超高清大图、做数学题、找小物体)测试了 DeepEyes:

  • 高分突破:在需要看清细节的超高分辨率测试中,它的表现比之前的顶尖开源模型(如 Qwen2.5-VL)提升了近 19%
  • 更靠谱:它撒谎(幻觉)的次数大大减少,因为它学会了“眼见为实”。
  • 越练越强:模型越大(从 70 亿参数到 320 亿参数),它这种“主动观察”的能力就越强,思考过程也更像人类。

5. 总结:为什么这很重要?

这就好比 AI 从“只会背字典的哑巴”进化成了“会动手查资料的实干家”。

  • 以前:AI 只能被动地接收图片,然后瞎编乱造。
  • 现在(DeepEyes):AI 拥有了“主动感知”的能力。它知道什么时候该“眯起眼睛”仔细看,什么时候该“退后一步”看整体。

一句话总结
DeepEyes 通过“实战奖励”机制,教会了 AI 像人类侦探一样,主动凑近观察、仔细比对、反复确认,从而真正做到了“用图像思考”,不再只是纸上谈兵。