Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

本文提出了用于评估视觉定位推理能力的诊断基准 TreeBench 以及结合强化学习的 Traceable Evidence Enhanced Visual Grounded Reasoning (TreeVGR) 训练范式,通过引入可追溯证据和联合监督机制,显著提升了模型在复杂场景下的定位精度与推理可解释性。

Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的“超级 AI 视觉大脑”做一场高难度的“眼科 + 逻辑”双重体检,并顺便发明了一套新的训练方法,教它们如何像人类一样“看图思考”。

我们可以把这篇论文的核心内容拆解成三个有趣的故事:

1. 现状:AI 虽然聪明,但看东西容易“走马观花”

现在的 AI(比如 OpenAI 的 o3 或 Google 的 Gemini)非常聪明,能写诗、能解题。但在看图说话时,它们往往像是一个拿着放大镜却只盯着大轮廓看的游客

  • 问题:它们能认出“这是一辆车”,但很难看清“这辆车的后备箱门是半开还是全关”;或者能认出“有个人”,却分不清“这个人是在车里还是车外”。
  • 原因:以前的考试(基准测试)太简单了,或者只考“认物体”,不考“找细节”和“推逻辑”。AI 只要靠猜或者死记硬背就能拿高分,导致我们不知道它们到底有没有真正“看懂”图片。

2. 新发明:TreeBench(树状证据基准)—— 给 AI 出“找茬”难题

为了解决这个问题,作者们设计了一个全新的考试,叫 TreeBench。你可以把它想象成给 AI 出了一套“超级找茬”试卷

  • 特点一:考“显微镜”能力
    以前的试卷考的是“图里有没有猫?”,TreeBench 考的是“图里那个穿红衣服的人,左手戴的手表是金色的还是银色的?”。图片里密密麻麻全是东西,目标往往很小(像芝麻一样),AI 必须得把眼睛瞪大才能看清。
  • 特点二:考“指路”能力(可追溯证据)
    这是最厉害的地方。以前 AI 答对了就行,不管它是怎么想的。现在,AI 必须一边思考,一边在图上画出框框(Bounding Box),告诉考官:“我是看到这里(指着框)才得出这个结论的”。
    • 比喻:就像学生做题,以前只交答案,现在要求把解题步骤和引用的课本页码(框图)都写出来。如果框画错了,就算答案对了,也说明它没真懂。
  • 特点三:考“空间逻辑”
    题目不仅问“是什么”,还问“怎么看”。比如:“如果坐在轮椅上的人看那个路牌,路牌是在他的左前方还是右后方?”这需要 AI 在脑子里把图片“转个身”,进行二次推理。

结果很扎心:哪怕是世界上最先进的 AI(如 OpenAI-o3),在这套试卷上得分也不到 60%。这说明目前的 AI 离真正的“看图思考”还有很长的路要走。

3. 新疗法:TreeVGR(带证据的强化训练)—— 教 AI“边指边想”

既然 AI 不会,作者们就发明了一套新的训练方法,叫 TreeVGR

  • 以前的训练:就像老师只告诉学生“这道题选 A",学生就死记硬背选 A,但不知道 A 为什么对。
  • TreeVGR 的训练
    1. 冷启动(热身):先教 AI 学会“指认”,让它习惯在回答前先画个框框。
    2. 强化学习(特训):这是核心。作者设计了一个双重奖励机制
      • 奖励一:答案选对了,给糖吃。
      • 奖励二(关键):你画的框框必须准!如果框框没框住那个物体,或者框多了、框少了,就要扣分。
    • 比喻:这就像训练一个侦探。以前只要求他“破案”,现在要求他“破案的同时,必须精准地指出凶器在哪里、指纹在哪里”。如果指错了,哪怕猜对了凶手,也要被惩罚。

效果:经过这种“指路训练”的 AI(TreeVGR),不仅考试分数大幅提高,而且它的思考过程变得透明、可解释。我们知道它为什么选这个答案,因为它真的“看”到了那个地方。

总结

这篇论文做了一件两件大事:

  1. 立了个新规矩(TreeBench):不再允许 AI 蒙混过关,要求它们必须“指哪打哪”,把思考过程可视化。
  2. 教了个新招数(TreeVGR):通过强制 AI 在思考过程中画出精准的框框,逼着它们真正学会“看图说话”,而不是瞎猜。

这就好比从**“只给分数的考试”进化到了“要求展示解题过程的口试”**,让 AI 的视觉推理能力变得更扎实、更可信。