FreeAct: Freeing Activations for LLM Quantization

本文提出了 FreeAct 框架,通过利用激活值的秩亏特性解耦权重与激活的变换,为不同 token 类型分配动态变换矩阵,从而在扩散和多模态大语言模型中显著提升了量化性能。

Xiaohao Liu, Xiaobo Xia, Manyi Zhang, Ji-Fu Li, Xianzhi Yu, Fei Shen, Xiu Su, See-Kiong Ng, Tat-Seng Chua

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 FreeAct 的新方法,旨在解决大型语言模型(LLM)在“瘦身”(量化)过程中遇到的一个核心难题。

为了让你轻松理解,我们可以把大型语言模型想象成一家超级繁忙的“信息处理工厂”

1. 背景:为什么要给工厂“瘦身”?

现在的 AI 模型(如 ChatGPT 等)非常聪明,但也非常“重”。它们占用的内存和计算资源巨大,就像一辆满载货物的巨型卡车,虽然能跑,但油耗高、停车难,很难在普通手机或小型设备上运行。

为了能让这些模型在普通设备上跑起来,研究人员尝试给它们“瘦身”,也就是量化(Quantization)

  • 比喻:这就好比把工厂里原本用“高精度黄金”(32 位或 16 位浮点数)做的零件,换成“轻便的铝合金”(4 位整数)。
  • 问题:直接换材料,工厂的流水线(计算过程)就会出错,导致产品(生成的回答)变得乱七八糟,甚至无法使用。

2. 旧方法的困境:僵化的“一对一”规则

为了解决换材料带来的误差,以前的方法(如 QuaRot, FlatQuant)引入了一种“平滑剂”(变换矩阵)。

  • 旧方法逻辑:它们认为,无论输入什么,工厂的“进料口”(激活值)和“机器核心”(权重)必须严格遵循**“一对一”**的锁定规则。
    • 比喻:想象工厂的进料口和机器核心被一根刚性的铁棍死死连在一起。如果进料口想向左转,机器核心必须向右转同样的角度,以保持平衡(数学上的等价性)。
  • 局限性:这种“铁棍”太僵硬了。
    • 现在的 AI 模型很复杂,比如多模态模型(能看图也能读文)和扩散模型(像画画一样一步步生成文字)。
    • 当工厂处理“图片”时,进料口的数据像洪水;处理“文字”时,数据像溪流
    • 旧方法强行用同一根铁棍去控制洪水和溪流,结果就是:要么洪水冲垮了机器,要么溪流被铁棍卡住流不动。

3. FreeAct 的突破:把“铁棍”换成“智能软管”

FreeAct 的核心思想是:打破僵硬的“一对一”规则,让进料口和机器核心可以“解绑”!

  • 核心创新
    • 机器核心(权重)保持静止:就像工厂的机器底座不动,只换一种通用的“适配器”。
    • 进料口(激活值)灵活多变:根据进来的东西是什么(是图片、是文字、还是被遮挡的“填空”),自动切换不同的“软管”来引导水流。
  • 比喻
    • 以前是铁棍:进料口动多少,机器必须动多少,死板。
    • 现在是智能软管
      • 图片进来时,软管自动变宽,适应洪水的冲击力。
      • 文字进来时,软管自动变细,精准引导溪流。
      • 虽然软管形状变了,但通过一种巧妙的数学设计(利用数据的“低秩”特性,即数据其实没那么复杂,有很多冗余),保证最终流到机器里的总量和方向依然是正确的,不会出错。

4. 为什么这很重要?(实际效果)

这种方法让模型在“瘦身”后,依然能保持极高的智商。

  • 实验结果:在多种复杂的模型(如能看图说话的模型、能像画画一样写故事的模型)上,FreeAct 的表现比之前的最佳方法提升了 5.3%
  • 生动案例
    • 在旧方法(RTN)下,让模型做一道数学题,它可能直接开始胡言乱语(输出乱码)。
    • 用了 FreeAct 后,模型能像正常人一样一步步算出正确答案,就像它没有“瘦身”过一样。

5. 总结

FreeAct 就像是为 AI 工厂设计了一套**“自适应物流系统”**。

它不再强迫所有货物(数据)走同一条僵硬的传送带,而是根据货物的种类(图片、文字、掩码),动态调整传送带的宽度和角度。这样,即使把工厂的零件从“黄金”换成了“铝合金”,工厂依然能高效、精准地生产出高质量的产品。

一句话总结:FreeAct 通过让数据流“灵活变通”,解决了 AI 模型在极度压缩后容易“变傻”的问题,让轻量级 AI 也能拥有大智慧。