VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

针对多模态大模型在推理过程中因过度依赖文本先验而忽视视觉信息的问题,本文提出了无需强化学习微调的 VisRef 框架,通过动态重注入语义相关且具代表性的视觉 Token 核心集,在固定计算预算下显著提升了视觉推理任务的性能。

Soumya Suvra Ghosal, Youngeun Kim, Zhuowei Li, Ritwick Chaudhry, Linghan Xu, Hongjing Zhang, Jakub Zablocki, Yifan Xing, Qin Zhang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VisRef 的新方法,旨在解决多模态大模型(既能看图又能思考的 AI)在“想得太久”时容易“走神”的问题。

为了让你轻松理解,我们可以把 AI 解题的过程想象成一个学生在做一道复杂的数学几何题

1. 核心问题:想得越久,越容易“忘图”

想象一下,你面前有一张复杂的几何图,旁边有一道很难的数学题。

  • 普通 AI 的做法:它开始读题,然后开始在脑子里(文本推理)一步步推导。刚开始,它还会时不时看一眼图。但随着它思考的步骤越来越多,写了长长的解题过程,它的注意力就慢慢从图片上移开了。
  • 后果:它开始完全依赖脑子里的“常识”或“文字记忆”去瞎猜,而忽略了图片里具体的细节。这就好比学生做了几页草稿后,把试卷上的图忘了,最后算出的答案虽然逻辑通顺,但跟题目给的图完全对不上(这叫“幻觉”)。

2. 以前的解决办法:太贵或太笨

之前的科学家发现这个问题后,尝试过两种方法:

  • 方法 A(强化学习微调):给 AI 上特训,教它“想累了就回头再看一眼图”。但这就像请私教一样,需要大量的数据、昂贵的算力和漫长的训练时间,成本极高。
  • 方法 B(纯文字自我反思):让 AI 自己对自己说:“等等,再想想”。但这就像让一个已经忘了图的学生,光靠闭着眼睛“再想一遍”来找回感觉,效果很差,因为图早就忘光了。

3. VisRef 的妙计:聪明的“视觉回马枪”

VisRef 提出了一种不需要重新训练、不需要花钱的“测试时”技巧。它的核心思想是:在 AI 思考的过程中,主动把图片里最关键的细节“塞”回它的脑子里。

我们可以用两个生动的比喻来解释 VisRef 是怎么做的:

比喻一:导游的“重点指路”

想象 AI 是一个正在游览博物馆的游客(正在解题),而图片是博物馆里的展品。

  • 普通 AI:导游(AI 的推理过程)走得太快,游客开始只盯着导游的解说词看,完全忘了看展品,最后把展品看错了。
  • VisRef 的做法:导游每走几步,就会主动把游客拉回展品前,指着说:“看这里!这个细节很重要!”
  • 关键点:博物馆里展品成千上万,导游不可能把每个展品都指一遍(那样太慢了)。VisRef 就像一个超级聪明的导游,它知道:
    1. 相关性:现在解题需要看哪个展品?(比如现在算面积,就只看那个圆形的盘子)。
    2. 多样性:不能只盯着盘子看,还要看看旁边的尺子、背景的颜色,确保不遗漏重要信息。

比喻二:摄影中的“对焦”

  • 普通 AI:就像拿着相机拍长视频,随着镜头拉远,画面越来越模糊,最后看不清主体了。
  • VisRef:就像摄影师在拍摄过程中,每过几秒就重新对焦一次。它不是把整张照片重新拍一遍,而是精准地选取画面中最清晰、最相关的几个局部(核心集),重新聚焦,确保主体始终清晰可见。

4. 它是如何做到的?(技术通俗版)

VisRef 用了一种叫 DPP(行列式点过程) 的数学工具来做“挑选”。

  • 这就好比你在选一个旅行团的核心成员
  • 你不能选所有人(太累),也不能只选长得像的(太单调)。
  • VisRef 的算法会计算:选哪几个人,既能覆盖所有重要的景点(多样性),又能最贴合现在的旅行路线(相关性)。
  • 选好后,它就把这几个人(视觉 Token)重新插回 AI 的思考链条里,让 AI 重新“看清”图片。

5. 什么时候停下来?

VisRef 还有一个聪明的停止机制

  • 它不像以前那样死板地规定“必须想 10 步”。
  • 它会监测 AI 的“自信度”(熵值)。如果 AI 对答案已经非常有把握(比如它说“我确定是 600",而且语气很稳),它就立刻停止思考,给出答案。
  • 如果 AI 还在犹豫(“可能是 600 也可能是 700"),它就会继续“回头看图”,直到想清楚为止。

6. 结果怎么样?

实验证明,VisRef 非常有效:

  • 不用训练:直接给现有的 AI 用,不需要重新教它。
  • 效果显著:在数学、科学图表等需要看图说话的测试中,准确率比原来的方法提高了 4% 到 6% 甚至更多。
  • 省钱省力:虽然多花了一点点计算时间(就像导游多指了几次路),但比起重新训练模型,这简直是九牛一毛。

总结

VisRef 就像是给 AI 戴上了一副“智能护目镜”。
当 AI 在复杂的推理过程中快要“走神”、忘记图片细节时,这副护目镜会自动提醒它:“嘿,别光想文字,快回头看一眼图片里最关键的这几个地方!”

这种方法让 AI 在保持长时间思考能力的同时,依然能脚踏实地地依据图片事实来推理,大大减少了“瞎编乱造”的情况。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →