Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

该论文介绍了 Covenant-72B,这是首个利用区块链协议实现完全开放、无需许可的参与,并通过高效稀疏优化器 SparseLoCo 在动态变化的全球分布式网络中成功预训练的 720 亿参数大语言模型,证明了在大规模去中心化场景下训练出具有竞争力的基础模型是可行的。

Joel Lidin, Amir Sarfi, Erfan Miahi, Quentin Anthony, Shivam Chauhan, Evangelos Pappas, Benjamin Thérien, Eugene Belilovsky, Samuel Dare

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常酷的故事:一群互不相识、互不信任的人,通过互联网联手训练出了一个超级强大的人工智能(AI),而且这个 AI 的聪明程度完全可以和那些由科技巨头在昂贵数据中心里训练出来的模型相媲美。

我们可以把这个过程想象成**“全球众包烹饪大赛”**。

1. 核心挑战:如何让大家一起做饭而不捣乱?

通常,训练一个像 Covenant-72B 这样的大模型,需要成千上万张顶级显卡(GPU)连在一起,像一个大工厂一样同步工作。但这非常贵,而且只有大公司玩得起。

这篇论文想尝试一种新玩法:“去中心化”

  • 场景:想象一下,你有 20 个厨师(参与者),他们分散在世界各地的不同厨房里,用的是普通的家庭网络(互联网),而不是光纤专线。
  • 问题
    1. 网络慢:大家互相传菜谱(数据)很慢。
    2. 不信任:你怎么知道那个叫“张三”的厨师真的在努力炒菜,而不是在偷懒,或者故意往锅里扔沙子(恶意攻击)?
    3. 人员流动:有人可能突然断电、断网或者回家睡觉了。

2. 解决方案:两个神奇的“魔法道具”

为了解决上述问题,作者用了两个核心工具:

道具一:Gauntlet(“角斗场”)—— 信任的裁判

既然大家互不信任,那就需要一个**“区块链裁判”**。

  • 比喻:想象这是一个公开的烹饪比赛。每个厨师做完一部分菜(计算出一部分结果),必须提交给裁判。
  • 如何防作弊:裁判不会只听厨师说“我做得很好”,而是会随机抽查一小部分食材,看看厨师提交的结果是否真的让菜变得更好吃(降低损失函数)。
    • 如果你提交的“菜谱”让菜变难吃了,或者你试图抄袭别人的,裁判会直接给你打低分,甚至把你踢出比赛。
    • 只有诚实且努力的人,才能获得奖励(加密货币代币)。
  • 结果:这就叫“无许可参与”(Permissionless)。不需要谁给你发邀请函,只要你愿意遵守规则并贡献算力,就能加入。

道具二:SparseLoCo(“极简快递”)—— 聪明的沟通方式

在普通的大模型训练中,大家每走一步都要互相同步所有细节,就像每做一道菜都要把整本菜谱传一遍,网络根本扛不住。

  • 比喻:SparseLoCo 就像是一个**“只传重点”的快递系统**。
    • 每个厨师在自己的厨房里独立烹饪(本地训练)很久(比如 30 步)。
    • 到了交流环节,他们不传整本菜谱,只把“哪里做得最好”和“哪里需要改进”的核心要点(伪梯度)压缩打包。
    • 压缩技术:作者用了类似“只保留最重要的 64 个词,其他都扔掉”的方法,并且把数据压缩到只有 2 个比特(就像把一张高清照片压缩成几个像素点,但通过“误差反馈”机制,下次能补回来)。
    • 效果:原本需要传 100MB 的数据,现在只传几 KB。这让在普通互联网上训练大模型成为可能。

3. 训练过程:一场马拉松

  • 规模:他们训练了一个拥有 720 亿参数 的模型(Covenant-72B),吃了大约 1.1 万亿个单词 的数据。
  • 参与者:虽然网络波动很大,有人进有人出,但系统非常稳定。平均有约 17 个活跃的“厨师”在同时工作,最高峰时有 20 个。
  • 效率:尽管大家用的是普通网络,但系统的“空闲等待时间”非常短(每轮只等 70 秒),大部分时间都在干活。这比之前的类似尝试(如 Intellect-1)效率高得多。

4. 结果:真的成功了吗?

是的,而且非常成功!

  • 对比测试:作者把这个模型和那些在超级计算机中心训练的“正规军”(如 LLaMA-2-70B, K2 等)进行了考试。
  • 成绩
    • 在逻辑推理、数学、常识问答等考试中,Covenant-72B 的成绩完全能和那些花了大价钱、用顶级硬件训练的模型打成平手,甚至在某些科目上更优
    • 虽然它用的数据量比某些巨头少一点(1.1T vs 2T),但考虑到它是用“散落在全球的普通电脑”和“普通网络”训练出来的,这个成绩简直是奇迹。
  • 后续:他们还对这个模型进行了“微调”(SFT),让它学会了像聊天机器人一样对话(Covenant-72B-Chat),结果发现它不仅能聊天,还能写代码、解数学题,表现同样出色。

5. 总结与意义

这篇论文证明了:训练超级人工智能不再需要被少数科技巨头垄断。

  • 以前:只有谷歌、Meta 这种巨头能建起“超级工厂”来训练大模型。
  • 现在:只要有一群互不相识的人,通过互联网连接,利用“角斗场”机制保证公平,利用“极简快递”机制解决网速问题,就能共同训练出世界顶级的 AI。

一句话总结
这就好比一群分散在世界各地的普通人,通过一套聪明的游戏规则和压缩技术,联手造出了一辆能跑赢法拉利(顶级大模型)的“拼车版”赛车。这不仅是技术的胜利,更是AI 民主化的重要一步。