iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

iLLaVA 通过提出一种能回收被丢弃令牌有用信息的新型令牌合并策略,联合优化图像编码器与大语言模型,从而在显著提升图像和视频理解任务吞吐率并降低预填充时间的同时,实现了比现有方法更优的端到端加速效果。

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 iLLaVA 的新方法,旨在让“多模态大模型”(既能看图又能读文的超级 AI)跑得更快、更省资源,同时还不掉链子。

为了让你轻松理解,我们可以把整个 AI 系统想象成一家**“超级翻译餐厅”**。

1. 现在的痛点:餐厅太忙,后厨堵死了

想象一下,这家餐厅(AI 模型)接到了一个巨大的订单:一张包含几千个细节的复杂图片(比如一张满是文字和物体的海报)。

  • 传统做法
    1. 后厨(图像编码器):首先,厨师要把这张大图切成几千个小碎片(Token),每一个碎片都要经过精细处理。这一步非常耗时,就像后厨要把几千块肉切好一样。
    2. 前厅(大语言模型 LLM):切好的碎片被端给服务员(LLM),服务员要一边看这些碎片,一边听顾客的指令,最后写出答案。
    3. 问题:以前的加速方法,只想着怎么让服务员少看几个碎片(比如只挑重要的看),或者让服务员处理得快一点。但是,后厨切菜的时间依然很长,而且因为端给服务员的碎片太多,服务员还是累得半死。这就导致整个餐厅出餐慢,还占用了巨大的厨房空间(显存)。

2. iLLaVA 的绝招:从源头“合并同类项”

iLLaVA 的聪明之处在于,它同时优化了后厨和前厅,并且发明了一种**“智能合并”**的魔法。

核心策略一:双管齐下(后厨 + 前厅一起省)

以前的方法只盯着服务员(LLM)做减法,iLLaVA 发现,**后厨(图像编码器)**其实也浪费了大量时间。

  • 比喻:如果后厨发现图片里有一大片蓝天和草地,其实不需要把每一片草叶都切得那么细。iLLaVA 允许后厨在切菜的时候,直接把那些“长得差不多”的碎片合并成一个大块。
  • 效果:后厨切菜快了,端给服务员的盘子也变小了,服务员处理起来自然更快。

核心策略二:智能合并(把“被扔掉”的信息捡回来)

这是 iLLaVA 最厉害的地方。

  • 传统做法(剪枝):就像为了省时间,直接把不重要的碎片扔掉。但这有个风险:万一那个被扔掉的碎片里藏着关键线索(比如图片角落的一个小字),AI 就瞎了。
  • iLLaVA 做法(合并/回收):它不直接扔掉碎片,而是把那些“看起来不重要”的碎片,压缩成一个“精华包”,然后把这个精华包合并到重要的碎片里。
    • 比喻:就像你整理行李,把一堆零散的小袜子(冗余信息)卷成一个球,塞进大裤子的口袋里(重要信息)。虽然体积变小了,但袜子还在,没丢!
    • 结果:既减少了行李重量(计算量),又保证了所有东西都在(信息不丢失)。

3. 惊人的效果:大模型变身“小钢炮”

论文通过实验证明,用了 iLLaVA 之后:

  • 速度快了 2 倍:餐厅出餐速度翻倍。
  • 准备时间少了 4 倍:从点单到第一道菜上桌,时间大幅缩短。
  • 省内存:原本需要 80GB 内存才能跑的大模型,现在轻松很多。
  • 最强对比:最酷的是,加了 iLLaVA 的大模型(比如 260 亿参数),比没加 iLLaVA 的小模型(比如 80 亿参数)还要强!
    • 比喻:就像给一辆重型卡车装上了超级涡轮增压和轻量化引擎,结果它跑得比原本的小轿车还快,还能拉更多的货(更聪明)。

4. 总结:它是怎么做到的?

  1. 发现浪费:AI 在看图时,其实很多像素是重复的(比如一大片蓝天),不需要全算。
  2. 源头减负:在图片刚进入 AI 眼睛(图像编码器)时,就开始合并碎片,而不是等到最后才处理。
  3. 信息回收:用“合并”代替“丢弃”,把被压缩的信息融合进重要信息里,确保 AI 不“变傻”。

一句话总结
iLLaVA 就像给 AI 装了一套**“智能压缩与回收系统”,让它在处理海量图片时,既能轻装上阵**(省资源、速度快),又能眼观六路(不丢失关键信息),最终让大模型变得既聪明又高效。