Attention-aware Inference Optimizations for Large Vision-Language Models with Memory-efficient Decoding

该论文提出了名为 AttentionPack 的自适应优化框架,通过多注意力头压缩和特定 Token 的感知解压机制,显著降低了大型视觉语言模型在长上下文解码过程中的显存占用并提升了推理效率,同时保持了模型输出质量。

Fatih Ilhan, Gaowen Liu, Ramana Rao Kompella, Selim Furkan Tekin, Tiansheng Huang, Zachary Yahn, Yichang Xu, Ling Liu2026-03-26🤖 cs.LG