ZorBA: Zeroth-order Federated Fine-tuning of LLMs with Heterogeneous Block Activation

本文提出了 ZorBA,一种基于零阶优化与异构块激活机制的联邦大语言模型微调框架,通过消除客户端梯度存储、动态分配 Transformer 块以及利用共享随机种子降低通信开销,在显著减少显存占用的同时提升了收敛效率。

Chuiyang Meng, Ming Tang, Vincent W. S. Wong

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ZorBA 的新系统,它的目标是让许多小电脑(客户端)能够联手“微调”(Fine-tune)巨大的语言模型(LLM,比如像 ChatGPT 这样的 AI),同时不把它们各自的内存撑爆,也不把网络带宽跑断。

为了让你更容易理解,我们可以把整个过程想象成一群学生(客户端)合作完成一本超级厚的百科全书(大语言模型)的修订工作

1. 遇到的难题:书太厚,桌子太小,快递太贵

  • 书太厚(模型太大): 现在的 AI 模型像一本拥有几十亿字的百科全书。
  • 桌子太小(显存 VRAM 不足): 每个学生(客户端)只有一张很小的书桌(显存)。如果要同时把整本书摊开在桌上,还要记下修改时的草稿(梯度),桌子根本放不下,书会掉在地上(显存溢出)。
  • 快递太贵(通信开销大): 如果每个学生都要把自己修改好的整本书寄给老师(服务器)汇总,快递费(数据传输)会贵得离谱。

2. 以前的笨办法:要么累死,要么慢死

  • 传统方法(反向传播): 就像要求学生把整本书摊开,逐字逐句地计算怎么改。这需要巨大的桌子,小桌子根本做不到。
  • 现有的零阶优化(Zeroth-order): 这是一种“盲猜”法。学生不计算复杂的导数,而是随机把书里的几个词改一下,看看分数变高还是变低,从而推测怎么改。这省去了记草稿的麻烦(省了显存),但有两个新问题:
    1. 猜得太慢: 因为书太大,随机乱猜效率很低,收敛(学会)得很慢。
    2. 还是占地方: 虽然不用记复杂的草稿,但为了“盲猜”,学生还是得把书摊开一部分,如果全摊开,桌子还是不够大。

3. ZorBA 的绝招:分块协作 + 共享暗号

ZorBA 提出了三个聪明的策略来解决这些问题:

策略一:异质化分块激活(Heterogeneous Block Activation)——“大家只修自己那部分”

  • 比喻: 想象那本百科全书有 100 个章节(Transformer 块)。
  • 做法: 老师(服务器)根据每个学生的桌子大小,分配不同的任务。
    • 桌子大的学生(显存多):负责修第 1-20 章。
    • 桌子小的学生(显存少):只负责修第 50-55 章。
    • 关键点: 并不是每个人都修所有的章节,也不是每个人都修完全一样的章节。
  • 好处: 这样每个学生只需要把几章书摊开在桌上,桌子就不爆了。而且,通过数学分析,ZorBA 发现只要分配得当,大家合力修书的速度并不会变慢,甚至更快。

策略二:零阶优化 + 共享随机种子(Shared Random Seeds)——“不用寄书,只寄暗号”

  • 比喻: 以前学生要寄修改后的整本书给老师。现在,老师和学生手里都有一本完全一样的“随机数生成器”(种子)
  • 做法:
    1. 老师告诉学生:“今天用第 5 号种子。”
    2. 学生用自己的种子生成随机修改方案,修改后算出“分数变化量”(有限差分)。
    3. 学生只把这个微小的“分数变化量”(比如:+0.5 分)发给老师。
    4. 老师收到后,因为自己也有同样的种子,能立刻反推出学生到底是怎么改的,从而更新全局模型。
  • 好处: 不需要传输几亿字的书,只需要传输几个数字。通信开销(快递费)瞬间降低了几个数量级。

策略三:智能分配算法(ϵ\epsilon-constraint Lexicographic Algorithm)——“最完美的排班表”

  • 问题: 怎么分配章节才最好?给桌子大的多分点?还是让大家都平均一点?
  • 做法: 作者设计了一个复杂的数学算法,像是一个超级排班员。它会在“让书修得最快(收敛率)”和“让桌子不爆(显存使用)”之间寻找最佳平衡点。
  • 结果: 它找出了一个“帕累托最优”方案,既保证了大家修书的速度,又让每个学生的桌子都刚刚好够用。

4. 实验结果:真的好用吗?

作者用真实的 AI 模型(OPT-125M 和 OPT-1.3B)和真实的数据集(新闻分类、情感分析等)做了测试,对比了其他几种方法:

  • 省内存: ZorBA 比传统方法节省了高达 62.41% 的显存。这意味着以前需要昂贵显卡才能跑的任务,现在普通的电脑也能跑了。
  • 速度快: 虽然用了“盲猜”法,但因为分配合适,它比其他的“盲猜”方法收敛得更快。
  • 省流量: 通信开销极低,几乎可以忽略不计。

总结

ZorBA 就像是一个聪明的图书管理员。他不再强迫所有学生都去搬动整本巨著,而是:

  1. 把书拆成小块,分给不同大小的桌子。
  2. 让大家用“盲猜”的方式只修改自己负责的那几页。
  3. 大家只汇报“改得好不好”的分数,而不是把书寄回来。

最终,一群拥有小桌子的学生,也能高效、低成本地联手把一本超级厚的百科全书修订得完美无缺。这让在普通设备上训练和微调大模型成为可能。