MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

本文针对多模态大语言模型后训练量化中存在的平滑失配与跨模态计算不变性挑战,提出了模态感知平滑量化(MASQuant)框架,通过引入模态感知平滑和跨模态补偿机制,实现了在双模态及三模态模型中稳定且高效的量化性能。

Lulu Hu, Wenhu Xiao, Xin Chen, Xinhua Xu, Bowen Xu, Kun Li, Yongliang Tao

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个关于多模态大模型(既能看图、听声音,又能聊天的 AI)在“瘦身”(量化)过程中遇到的尴尬问题。

为了让你轻松理解,我们可以把大模型想象成一个超级繁忙的跨国餐厅,而“量化”就是为了让餐厅在资源有限(比如只有小厨房、小冰箱)的情况下也能高效运营,把原本用“金盘子”装菜(高精度浮点数)改成用“普通瓷碗”装菜(低精度整数)。

1. 核心问题:为什么以前的“瘦身”方法会翻车?

以前的方法(比如 SmoothQuant)就像是一个只懂“一刀切”的厨师长

  • 场景:餐厅里有三种客人:
    • 文字客人(Text):说话声音小,像蚊子叫(激活值小)。
    • 视觉客人(Vision):像大象一样,声音巨大,动作夸张(激活值大,可能是文字的 10-100 倍)。
    • 音频客人(Audio):声音也很小。
  • 旧方法的问题:厨师长为了把菜装进小碗,计算了一个“平均缩放比例”。因为视觉客人(大象)动静太大,这个比例完全被大象主导了。
  • 后果
    • 大象的菜(视觉信息)勉强能装下。
    • 但是,文字和音频客人(小蚊子)的菜,因为被强行按大象的比例缩小,结果被压扁了,甚至直接变成了空气(信号丢失)。
    • 这就叫**“平滑错位”(Smoothing Misalignment)**:用大象的标准去衡量蚊子,蚊子就没了。

2. 新方案:MASQuant(模态感知平滑量化)

作者提出了一个聪明的新办法,叫 MASQuant。它的核心思想是:“因材施教,但只用一个主菜单”

第一步:模态感知平滑 (MAS) —— “给每种客人定制专属餐具”

  • 做法:不再用那个“一刀切”的比例。厨师长分别为大象、蚊子和音频客人准备了专属的缩放比例
  • 效果:大象的菜用大碗,蚊子的菜用小碗,大家都舒服了,信号不会丢失。
  • 新麻烦:如果给每种客人都存一套不同的“碗”(权重),那冰箱(内存)就塞不下了,违背了“瘦身”的初衷。

第二步:跨模态补偿 (CMC) —— “用魔法补丁修补差异”

  • 做法
    1. 我们只保留一套**“文字版”的主菜单**(因为文字是最基础的,且通常作为推理的基准)。
    2. 当大象(视觉)或音频客人来吃饭时,我们不需要换一套全新的碗。
    3. 我们利用一种叫SVD 白化的数学魔法,发现大象和蚊子之间的差异其实非常简单(数学上叫“低秩”)。
    4. 我们只需要在“文字版主菜单”上,贴几个极小的“补丁”(低秩矩阵),就能完美模拟出大象或音频的效果。
  • 比喻:就像你有一件白色的 T 恤(主权重)。
    • 大象来穿,我们给它贴个“大象贴纸”。
    • 蚊子来穿,我们给它贴个“蚊子贴纸”。
    • 关键点:我们不需要给大象和蚊子分别做一件新衣服,只需要一件白 T 恤 + 几个小贴纸,既省空间,又让大家都穿得合身。

3. 实验结果:效果如何?

  • 以前:如果强行把模型压缩得很小(比如 4 位精度),视觉模型还能凑合,但听声音的模型直接“失聪”了(错误率飙升 20 倍),因为声音信号被视觉信号“压死”了。
  • 现在:用了 MASQuant 后:
    • 视觉:看得清。
    • 文字:聊得顺。
    • 声音:听得准(甚至接近原始高精度模型的效果)。
    • 速度:因为只存了一套主权重,推理速度很快,没有变慢。

总结

这篇论文就像是在说:

以前我们给大模型“瘦身”时,因为太照顾“大块头”(视觉),把“小个子”(文字和声音)给饿死了。

现在我们发明了一种新技巧:给每个人发专属的“饮食指南”(MAS),但只存一本“基础食谱”(主权重),再配合几个“小贴纸”(CMC)来微调。

这样,既让所有模态(眼、耳、口)都吃得饱、算得准,又让模型变得足够小巧,能在普通设备上流畅运行。

一句话总结:MASQuant 让多模态 AI 在“瘦身”时,不再牺牲任何一位模态(眼、耳、口)的体验,实现了真正的“全员瘦身,全员达标”。