Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

本文提出了一种名为金字塔令牌剪枝(PTP)的免训练策略,通过结合自底向上的视觉显著性(区域与令牌级)和自顶向下的指令引导相关性,在显著降低高分辨率大视觉语言模型计算成本与延迟的同时,保持了其性能。

Yuxuan Liang, Xu Li, Xiaolei Chen, Yi Zheng, Haotian Chen, Bin Li, Xiangyang Xue

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为**“金字塔令牌剪枝”(Pyramid Token Pruning, 简称 PTP)的新技术。为了让你轻松理解,我们可以把大型视觉 - 语言模型(LVLM)想象成一位“博学但有点笨拙的超级侦探”**。

1. 侦探的烦恼:信息过载

这位侦探(AI 模型)非常聪明,能看懂图片并回答你的问题。但是,当给他看一张超高清的大照片(比如 4K 分辨率)时,他有个坏习惯:

  • 把照片切得太碎:为了看清细节,他把照片切成了成百上千个小方块(就像把一张大海报撕成了几千片拼图)。
  • 眉毛胡子一把抓:他试图同时盯着这几千片拼图看。这导致他脑子转得太慢(计算成本高),记性变差(显存占用大),而且反应迟钝(推理速度慢)。
  • 浪费精力:其实,照片里 90% 的地方(比如蓝天、白墙、背景里的树叶)对他回答问题毫无帮助,但他却把宝贵的精力都花在了这些无关紧要的地方。

2. 以前的解决方法:要么太傻,要么太贵

以前人们想帮侦探减负,主要有两种笨办法:

  • 方法 A(重新训练):给侦探换个新脑子,让他学会自动忽略废话。但这需要花巨资重新训练,而且换个新侦探(新模型)又得重来,不灵活。
  • 方法 B(只看开头或只看文字)
    • 有的侦探只看照片的“标题”(全局图),结果漏掉了细节。
    • 有的侦探只看你问的问题(指令),结果忽略了照片里真正重要的东西。
    • 这些方法要么容易丢三落四,要么还是不够快。

3. PTP 的绝招:像人眼一样“聪明地看”

这篇论文提出的 PTP 方法,就像给侦探装上了一套**“人类视觉认知系统”。它不需要重新训练,直接就能用。它的核心思想是“金字塔式”**的筛选,分三步走:

第一步:区域级筛选(先看哪里最热闹)

  • 比喻:想象侦探站在高处看一张大地图。他首先不会盯着每一棵树看,而是先扫视全图,找出**“哪里最热闹”**。
  • 操作:如果照片里有一群人在开会,旁边是荒草地。侦探会想:“哦,人群那边肯定有重要信息,荒草地可以少看点。”
  • 结果:他给“人群”分配更多的“观察名额”(保留更多碎片),给“荒草地”分配很少的名额。这叫自下而上的视觉显著性

第二步:令牌级筛选(再看热闹里的细节)

  • 比喻:在确定了“人群”这个热闹区域后,侦探不会盯着人群里的每一根头发看。他会想:“在这个人群里,谁在说话?谁在挥手?”
  • 操作:在每一个被选中的小区域里,他再次快速扫描,只保留那些**“看起来最像主角”**的碎片,把那些模糊的背景碎片扔掉。
  • 结果:进一步精简,只留精华。

第三步:指令引导(听你问什么)

  • 比喻:这是最关键的一步。侦探会听你问什么
    • 如果你问:“那个穿红衣服的人在干什么?”
    • 侦探就会立刻把注意力从“人群”转移到“穿红衣服的人”身上,哪怕那个人站在不起眼的角落。
    • 如果你问:“背景里的树是什么品种?”
    • 侦探就会立刻忽略人群,死死盯着树看。
  • 操作:PTP 会根据你的文字指令,动态调整保留哪些碎片。如果指令提到了某个物体,哪怕它在视觉上不那么显眼,侦探也会把它保留下来。这叫自上而下的指令引导

4. 最终效果:快、省、准

通过这种**“先扫视全图找重点 -> 再细化局部找细节 -> 最后听指令定目标”**的金字塔策略,PTP 做到了:

  • 砍掉一半的废话:它能把需要处理的图片碎片(Token)减少 50% 甚至更多。
  • 速度翻倍:侦探思考的时间缩短了一半,反应快多了。
  • 不丢分:最神奇的是,虽然看的碎片少了,但回答问题的准确率几乎没有下降,甚至在某些测试中比原来还准(因为去掉了干扰项,思路更清晰了)。
  • 省钱:对电脑显卡(GPU)的内存压力小了一半,让普通的电脑也能跑得动超高清的 AI。

总结

简单来说,PTP 就是给 AI 侦探装上了一双“会思考的眼睛”。它不再死板地看整张图,而是像人一样:

  1. 先抓重点(哪里热闹看哪里);
  2. 再抠细节(热闹里找关键);
  3. 最后听指挥(你问啥我看啥)。

这样,AI 就能在不牺牲智商的前提下,跑得飞快,还能省下一半的电量。这对于让 AI 在手机上、普通电脑上流畅运行超高清图像识别任务,是一个巨大的进步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →