AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

本文提出了 AdaptVision,一种受人类主动视觉机制启发的视觉语言模型新范式,它通过粗到细的自适应视觉令牌获取策略和去耦回合策略优化(DTPO)强化学习框架,在显著减少视觉令牌消耗的同时实现了优于现有高效方法的性能。

Zichuan Lin, Yicheng Liu, Yang Yang, Lvfang Tao, Deheng Ye

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AdaptVision 的新方法,旨在让“看图说话”的 AI 模型变得更聪明、更省钱。

为了让你轻松理解,我们可以把现在的 AI 模型想象成一位正在备考的“超级学霸”,而这张论文提出的方法,就是教这位学霸如何**“聪明地看书”**,而不是死记硬背。

1. 现在的痛点:学霸的“过度用眼”

目前的视觉语言模型(VLM)虽然很厉害,能回答各种看图问题,但它们有个大毛病:太费眼睛(计算资源)了

  • 比喻:想象一下,老师给你看一张高清大图,问你“图里那个摩托车上的数字是多少?”。现在的 AI 不管问题多简单,都会把整张图放大到像素级别,把每一个像素点都当成“单词”读一遍。
  • 后果:这就好比为了找一张小贴纸,把整本百科全书都翻了一遍。这不仅慢,还特别消耗电脑的“体力”(算力和内存)。

2. 现有的“省钱”方案:一刀切

以前有人想省钱,就想了两个笨办法:

  • 方法 A(固定裁剪):不管什么图,都直接切成 1/4 大小再给 AI 看。
    • 缺点:如果图里全是小字,切小了 AI 就看不清了,直接瞎猜。
  • 方法 B(固定比例):设定一个规则,比如“只读 50% 的像素”。
    • 缺点:太死板。有的图很简单,读 10% 就够了;有的图很难,读 50% 也不够。AI 像个只会执行死命令的机器人,不会变通。

3. AdaptVision 的绝招:像人一样“主动观察”

这篇论文的核心灵感来自人类的眼睛

  • 人类怎么看图? 我们看一张图时,先扫一眼全貌(大概知道是啥),如果发现某个地方看不清(比如远处的路牌),我们才会聚焦过去,眯起眼睛仔细看那个局部。
  • AdaptVision 怎么做? 它模仿了这个过程:
    1. 先看小图:它先快速浏览一张低分辨率的缩略图(只消耗 25% 的精力)。
    2. 自我判断:它会问自己:“这张图够我看清答案吗?”
    3. 按需放大
      • 如果够看(比如问“图里有车吗?”),它直接回答,不浪费任何额外精力
      • 如果不够看(比如问“摩托车上的数字是多少?”),它会主动调用一个“放大镜工具”,在高清图上框选那个关键区域,只把这一小块高清图读进来。

比喻:这就好比你在找钥匙。

  • 旧 AI:把整个房间的地毯都掀开,把每一粒灰尘都检查一遍。
  • AdaptVision:先扫一眼房间,发现钥匙可能在沙发缝里,于是只把手伸进沙发缝里掏一下。既快又准。

4. 训练秘诀:DTPO(把“动作”和“结果”分开教)

为了让 AI 学会这种“该看就看,不该看就不看”的本领,作者设计了一种特殊的训练方法,叫 DTPO

  • 以前的训练(GRPO)像什么? 就像老师只给最终成绩打分。如果学生做对了题,但过程是“先瞎蒙,再乱翻书,最后碰巧蒙对”,老师也会给满分。这导致学生为了保险起见,每次都乱翻书(过度使用工具)。
  • DTPO 的训练像什么? 老师把过程拆开了:
    1. 动作分:你决定“要不要翻书”这个动作对不对?(不该翻时翻书要扣分,该翻时不翻也要扣分)。
    2. 结果分:你最后的答案对不对?
    • 效果:AI 学会了**“该出手时才出手”**。简单的题直接答,难的题才去“翻书”(调用工具),而且翻书时只翻最关键的那一页,绝不贪多。

5. 最终成果:又快又准

实验结果显示,AdaptVision 就像一位精打细算的管家

  • 省资源:它使用的视觉信息量(Token)比目前最先进的其他方法少了 60% 以上
  • 不降智:虽然看的少,但回答的准确率反而更高了。
  • 速度快:因为不用处理那么多数据,回答问题的速度也变快了。

总结

这篇论文就是给 AI 装上了一双**“会思考的眼睛”。它不再是一个只会死磕高清大图、浪费电力的笨重机器,而是一个懂得“抓重点、看局部、按需索取”**的聪明助手。这不仅让 AI 跑得更快,也让未来的 AI 应用(比如在手机上运行)变得更加可行和普及。