QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources

本文提出了 QFT 框架,通过将 LLM 训练中的权重、梯度和优化器状态全部量化为 INT8 格式,并结合 Lion 优化器的鲁棒性、混合特征量化策略及整数梯度流方案,在仅需单张 A6000 GPU(<30GB 显存)的有限资源下实现了全参数微调,同时保持了与标准方案相当的性能。

Zhikai Li, Xiaoxuan Liu, Banghua Zhu, Zhen Dong, Qingyi Gu, Kurt Keutzer

发布于 2026-03-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 QFT (Quantized Full-parameter Tuning) 的新技术,它的核心目标是:让普通人在普通的显卡上,也能轻松“微调”(训练)超大型的人工智能模型。

为了让你更容易理解,我们可以把训练大模型想象成在厨房里做一道顶级大餐

1. 现在的困境:厨房太小,买不起顶级食材

  • 大模型(LLM) 就像是一个拥有几百亿个“记忆细胞”的超级大厨。
  • 微调(Fine-tuning) 就是让这位大厨学习新的菜谱(比如学习如何写代码、如何讲笑话)。
  • 问题:以前,要教这位大厨新菜谱,你需要一个巨大的厨房(昂贵的顶级显卡,如 A100),并且要准备海量的食材(巨大的内存,比如 100GB 以上)。
  • 现状:大多数人的厨房(显卡)很小,放不下这么多食材。为了省钱,大家以前只能只教大厨几个手指的动作(这叫 PEFT,如 LoRA),虽然省空间,但大厨学得不透彻,效果不如全学。

2. QFT 的解决方案:把食材“压缩”并“智能分类”

QFT 提出了一套全新的“厨房管理术”,它不需要换大厨房,而是通过两个神奇的技巧,把原本需要 100GB 内存的食材,压缩到只需要 21GB(甚至能在一张普通的 A6000 显卡上运行)。

技巧一:给所有数据穿上“紧身衣”(全参数量化)

  • 传统做法:大厨记菜谱时,每个字都写得非常详细,用 32 位浮点数(FP32),就像用整张 A4 纸记一个词,非常占地方。
  • QFT 的做法:它把菜谱里的所有东西(权重、梯度、优化器状态)都压缩成 8 位整数(INT8)
    • 比喻:这就好比把 A4 纸折成了小纸条。虽然字变小了,但核心意思没变。
    • 效果:内存占用瞬间减少了 4 倍!

技巧二:聪明的“二八定律”(混合特征量化)

  • 难点:有些“食材”(数据)非常特殊,它们数值极大,像巨大的鲸鱼(Outliers),如果强行把它们也塞进小纸条(INT8),整个菜谱就会乱套,大厨就学歪了。
  • QFT 的妙招
    • 它发现,99% 的“食材”都很普通(密集特征),可以统统塞进小纸条。
    • 但那 1% 的“鲸鱼”(关键特征/离群点)太重要了,不能压缩。
    • 比喻:QFT 就像是一个精明的管家。他把 99% 的普通蔬菜塞进小冰箱(INT8 压缩),而那 1% 珍贵的“松露”和“鱼子酱”(关键特征),则单独放在一个透明的小保鲜盒里(保持高精度)。
    • 结果:既省了空间,又没丢掉最重要的味道。

技巧三:特殊的“记性”训练法(Lion 优化器)

  • 挑战:通常把数据压缩后,计算会出错,导致大厨学不会。
  • QFT 的对策:它换了一种特殊的训练方法,叫 Lion 优化器
    • 比喻:普通的训练方法(如 Adam)像是一个纠结的会计,既要记“方向”,又要记“速度”,还要记“波动”,数据太多容易乱。
    • Lion 优化器 像是一个果断的将军。它只关心“往哪走”(方向),不纠结“走多快”(波动)。
    • 神奇之处:论文证明,这种“只看方向”的将军,即使面对被压缩过的数据(小纸条),也不会迷路,依然能精准地找到新菜谱。

3. 最终成果:小厨房也能做大餐

  • 以前:微调一个 70 亿参数(LLaMA-7B)的模型,需要 104GB 内存,普通玩家根本玩不起。
  • 现在 (QFT):只需要 25.3GB 内存(甚至不到 30GB)。
  • 意义:这意味着你只需要一张消费级的显卡(比如 RTX A6000,甚至更便宜的卡),就能在家里或公司服务器上,对大模型进行全参数微调

总结

这篇论文就像发明了一种**“超级折叠术”**:

  1. 把庞大的模型数据折叠成小纸条(INT8 量化)。
  2. 把最珍贵的“珍珠”单独拿出来保护(混合特征量化)。
  3. 换了一个不纠结细节、只看大方向的教练(Lion 优化器)。

最终,它让全参数微调(效果最好的训练方式)从“富豪的专属游戏”,变成了普通开发者和研究者也能负担得起的日常操作。这大大降低了大模型落地的门槛,让 AI 技术更加普惠。