Each language version is independently generated for its own context, not a direct translation.
这篇论文讲述了一个非常酷的故事:一群互不相识、互不信任的人,通过互联网联手训练出了一个超级强大的人工智能(AI),而且这个 AI 的聪明程度完全可以和那些由科技巨头在昂贵数据中心里训练出来的模型相媲美。
我们可以把这个过程想象成**“全球众包烹饪大赛”**。
1. 核心挑战:如何让大家一起做饭而不捣乱?
通常,训练一个像 Covenant-72B 这样的大模型,需要成千上万张顶级显卡(GPU)连在一起,像一个大工厂一样同步工作。但这非常贵,而且只有大公司玩得起。
这篇论文想尝试一种新玩法:“去中心化”。
- 场景:想象一下,你有 20 个厨师(参与者),他们分散在世界各地的不同厨房里,用的是普通的家庭网络(互联网),而不是光纤专线。
- 问题:
- 网络慢:大家互相传菜谱(数据)很慢。
- 不信任:你怎么知道那个叫“张三”的厨师真的在努力炒菜,而不是在偷懒,或者故意往锅里扔沙子(恶意攻击)?
- 人员流动:有人可能突然断电、断网或者回家睡觉了。
2. 解决方案:两个神奇的“魔法道具”
为了解决上述问题,作者用了两个核心工具:
道具一:Gauntlet(“角斗场”)—— 信任的裁判
既然大家互不信任,那就需要一个**“区块链裁判”**。
- 比喻:想象这是一个公开的烹饪比赛。每个厨师做完一部分菜(计算出一部分结果),必须提交给裁判。
- 如何防作弊:裁判不会只听厨师说“我做得很好”,而是会随机抽查一小部分食材,看看厨师提交的结果是否真的让菜变得更好吃(降低损失函数)。
- 如果你提交的“菜谱”让菜变难吃了,或者你试图抄袭别人的,裁判会直接给你打低分,甚至把你踢出比赛。
- 只有诚实且努力的人,才能获得奖励(加密货币代币)。
- 结果:这就叫“无许可参与”(Permissionless)。不需要谁给你发邀请函,只要你愿意遵守规则并贡献算力,就能加入。
道具二:SparseLoCo(“极简快递”)—— 聪明的沟通方式
在普通的大模型训练中,大家每走一步都要互相同步所有细节,就像每做一道菜都要把整本菜谱传一遍,网络根本扛不住。
- 比喻:SparseLoCo 就像是一个**“只传重点”的快递系统**。
- 每个厨师在自己的厨房里独立烹饪(本地训练)很久(比如 30 步)。
- 到了交流环节,他们不传整本菜谱,只把“哪里做得最好”和“哪里需要改进”的核心要点(伪梯度)压缩打包。
- 压缩技术:作者用了类似“只保留最重要的 64 个词,其他都扔掉”的方法,并且把数据压缩到只有 2 个比特(就像把一张高清照片压缩成几个像素点,但通过“误差反馈”机制,下次能补回来)。
- 效果:原本需要传 100MB 的数据,现在只传几 KB。这让在普通互联网上训练大模型成为可能。
3. 训练过程:一场马拉松
- 规模:他们训练了一个拥有 720 亿参数 的模型(Covenant-72B),吃了大约 1.1 万亿个单词 的数据。
- 参与者:虽然网络波动很大,有人进有人出,但系统非常稳定。平均有约 17 个活跃的“厨师”在同时工作,最高峰时有 20 个。
- 效率:尽管大家用的是普通网络,但系统的“空闲等待时间”非常短(每轮只等 70 秒),大部分时间都在干活。这比之前的类似尝试(如 Intellect-1)效率高得多。
4. 结果:真的成功了吗?
是的,而且非常成功!
- 对比测试:作者把这个模型和那些在超级计算机中心训练的“正规军”(如 LLaMA-2-70B, K2 等)进行了考试。
- 成绩:
- 在逻辑推理、数学、常识问答等考试中,Covenant-72B 的成绩完全能和那些花了大价钱、用顶级硬件训练的模型打成平手,甚至在某些科目上更优。
- 虽然它用的数据量比某些巨头少一点(1.1T vs 2T),但考虑到它是用“散落在全球的普通电脑”和“普通网络”训练出来的,这个成绩简直是奇迹。
- 后续:他们还对这个模型进行了“微调”(SFT),让它学会了像聊天机器人一样对话(Covenant-72B-Chat),结果发现它不仅能聊天,还能写代码、解数学题,表现同样出色。
5. 总结与意义
这篇论文证明了:训练超级人工智能不再需要被少数科技巨头垄断。
- 以前:只有谷歌、Meta 这种巨头能建起“超级工厂”来训练大模型。
- 现在:只要有一群互不相识的人,通过互联网连接,利用“角斗场”机制保证公平,利用“极简快递”机制解决网速问题,就能共同训练出世界顶级的 AI。
一句话总结:
这就好比一群分散在世界各地的普通人,通过一套聪明的游戏规则和压缩技术,联手造出了一辆能跑赢法拉利(顶级大模型)的“拼车版”赛车。这不仅是技术的胜利,更是AI 民主化的重要一步。
Each language version is independently generated for its own context, not a direct translation.
Covenant-72B 技术报告详细总结
1. 研究背景与问题 (Problem)
大型语言模型(LLM)的训练通常依赖于高度集中化的基础设施(如数千个通过高带宽、低延迟互连连接的加速器),这导致训练成本极高,且只有少数大型组织能够参与。虽然去中心化训练(Decentralized Training)有望降低门槛并实现全球分布式参与,但现有方案面临以下主要挑战:
- 规模限制:现有的去中心化训练模型规模较小,未能充分发挥大模型的性能潜力。
- 参与限制:大多数现有项目依赖“白名单”机制(Whitelisted participants),即仅允许受信任的节点参与,未能实现真正的“无许可”(Permissionless)和开放参与。
- 通信效率瓶颈:在公共互联网(Commodity Internet)上进行训练面临带宽限制、高延迟和节点动态加入/退出的问题,导致通信开销大,训练效率低。
- 信任问题:在开放网络中,如何防止恶意节点提交虚假梯度或进行攻击,同时保持训练的高效性,是一个未解决的难题。
核心目标:构建一个在公共互联网上运行、支持无许可参与、且能训练出具有竞争力的 720 亿参数(72B)大模型的分布式训练系统。
2. 方法论 (Methodology)
Covenant-72B 项目通过结合两种核心技术解决了上述问题:SparseLoCo(通信优化器)和 Gauntlet(无许可激励机制)。
2.1 通信优化器:SparseLoCo
SparseLoCo 是一种基于局部更新(Local-update)的分布式优化器,旨在大幅减少节点间的通信量。
- 核心机制:
- 局部训练:每个对等节点(Peer)在本地数据分片上运行 H 步内部优化器(如 AdamW),生成局部模型。
- 伪梯度计算与压缩:计算伪梯度(Pseudo-gradients),并利用 Top-k 稀疏化、误差反馈(Error-Feedback) 和 量化(Quantization) 技术进行压缩。
- 分块处理(Chunk-wise):为了适配标准的模型并行策略(如 FSDP 和 TP),SparseLoCo 将张量划分为块(Chunk),在每个块内独立进行 Top-k 选择。这减少了索引传输的开销。
- 压缩效果:通过 2-bit 量化和 Top-k 稀疏化,实现了超过 146 倍 的压缩率,使得在低带宽互联网上频繁同步成为可能。
- 动态内存管理:利用动态 FSDP,在计算阶段卸载误差反馈缓冲区,在通信阶段卸载内部优化器状态,以优化显存使用。
2.2 无许可激励机制:Gauntlet
Gauntlet 是基于区块链(Bittensor Subnet 3)的协调机制,用于在无需信任(Trustless)的环境中筛选和激励诚实的参与者。
- 验证与评分:
- LossScore:验证器(Validator)将少量数据转发给参与者,计算其贡献前后的损失差异,以此评估梯度质量。
- OpenSkill 排名:维护一个动态的排名系统,以稳定评分并减少随机性影响。
- 防作弊检测:通过比较参与者在“分配数据”和“随机数据”上的损失改善情况,防止参与者复制他人梯度或提交无效数据。
- 动态聚合:验证器异步选择得分最高的伪梯度进行聚合。系统被校准为始终有略多于所需数量的活跃参与者,确保节点掉线时能迅速被替换。
- 归一化:在聚合前对伪梯度进行归一化,防止单个恶意节点通过异常大的更新主导模型。
2.3 系统架构
- 硬件:每个参与者至少拥有 8 张 NVIDIA B200 GPU。
- 通信骨干:利用 Cloudflare R2 对象存储作为通信中间层,避免直接的 P2P 连接,支持异步上传和下载。
- 并行策略:每个节点内部使用动态 FSDP 分片模型参数、梯度和优化器状态。
3. 关键贡献 (Key Contributions)
- 最大规模的无许可分布式预训练:Covenant-72B 是目前最大的协作式去中心化预训练运行,模型参数量达 72B,训练数据量约 1.1T tokens。
- 首次实现大规模无许可参与:打破了以往去中心化训练依赖白名单的限制,证明了在公共互联网上,通过区块链激励机制和高效压缩算法,可以安全地组织全球数千个不可信节点共同训练大模型。
- 通信效率的突破:在标准互联网链路(上行 110 Mb/s,下行 500 Mb/s)上,实现了约 94.5% 的计算利用率。相比之前的 DiLoCo 方案,同步开销显著降低(每轮仅 70 秒空闲时间 vs 8.3 分钟)。
- 开源与复现:开源了中间检查点、最终预训练检查点及微调后的 Chat 模型(Apache 许可证),为社区提供了宝贵的基准。
4. 实验结果 (Results)
4.1 预训练基准测试
Covenant-72B 在多个零样本(Zero-shot)基准测试中表现优异,与集中式训练的模型相比具有竞争力:
- 对比对象:与集中式训练的 LLaMA-2-70B(2T tokens)和 LLM360 K2(65B, 1.4T tokens)相比。
- 性能表现:
- 在 ARC-Challenge (56.8 vs 53.8/57.4)、MMLU (67.1 vs 65.5/65.6) 和 ARC-Easy (80.9 vs 76.0/79.6) 等任务上,Covenant-72B 的表现优于或持平于 K2 和 LLaMA-2-70B。
- 尽管训练 token 数(1.1T)少于 LLaMA-2-70B(2T),且使用公共互联网,其性能仍极具竞争力。
- 显著优于之前的去中心化模型(如 INTELLECT-1 和 Psyche Consilience)。
- 结论:证明了在低带宽、动态参与环境下,通过高效压缩算法训练的模型可以达到集中式训练的质量。
4.2 监督微调 (SFT) 与 Chat 模型
- 微调过程:在 14.8B tokens 的数据上进行了两阶段 SFT(4k 和 8k 上下文),包含指令、代码、数学和 STEM 数据。
- Chat 模型表现:
- IFEval(指令遵循):得分 64.7,优于 LLaMA-2-70B-Chat (40.7) 和 K2-Chat (45.5)。
- MATH(数学推理):得分 26.3,同样领先于对比模型。
- 在通用基准(如 MMLU, GSM8K)上保持了与集中式 Chat 模型相当的水平。
4.3 参与动态与效率
- 动态参与:训练过程中,平均有 16.9 个贡献者(最大 20 个),系统能自动适应节点的加入和离开。
- 通信效率:每轮通信时间仅 70 秒,计算利用率高达 94.5%,证明了稀疏梯度通信在大规模互联网训练中的可行性。
5. 意义与展望 (Significance)
- 民主化大模型开发:Covenant-72B 证明了“无许可”(Permissionless)的全球分布式训练是可行的。这意味着未来构建基础模型不再需要依赖昂贵的集中式数据中心,而是可以汇聚全球分散的算力资源。
- 降低门槛:通过利用消费级互联网连接和开源硬件,大幅降低了参与大模型训练的门槛。
- 技术验证:验证了 SparseLoCo 等通信高效优化器与区块链激励机制(Gauntlet)结合的有效性,为未来更大规模、更多样化的去中心化 AI 训练提供了技术蓝图。
- 未来方向:研究团队计划进一步扩展参与者的异质性,探索更广泛的信任less 参与模式,推动基础模型训练从“中心化垄断”向“开放协作”转变。
总结:Covenant-72B 是一项里程碑式的工作,它不仅在规模上刷新了去中心化训练的纪录,更在机制上证明了在开放、不可信的网络环境中训练高质量大模型的可行性,为 AI 基础设施的民主化铺平了道路。