Each language version is independently generated for its own context, not a direct translation.
「Covenant-72B」の物語:世界中の誰とでも一緒に巨大な AI を作る実験
この論文は、**「Covenant-72B(コーヴェナント -72B)」**という、非常に大きな人工知能(AI)モデルを、世界中の誰にでも参加できる形で作り上げた実験について書かれています。
通常、巨大な AI を作るには、Google や Meta のような巨大企業が、何千もの高性能なコンピューターを並べた「巨大なデータセンター」を建て、莫大な費用をかけて行います。しかし、このプロジェクトは**「信頼できない見知らぬ人」が、自宅のコンピューターや普通のインターネット回線を使って、世界中から集まった計算能力を寄せ集めて AI を作った**という点で画期的です。
これをわかりやすく、3 つのメタファー(たとえ話)で説明します。
1. 「巨大なパズル」を完成させる方法
(従来の方法 vs 新しい方法)
従来の方法(中央集権型):
巨大なパズル(AI)を完成させるために、1 人の天才が、何千ものピースを一度に並べられる「巨大な作業台(データセンター)」を用意します。全員が同じテーブルで、一瞬一瞬の動きを同期させながら作業します。これは速いですが、作業台を買うお金と場所が莫大にかかり、参加できるのは選ばれた一部の人だけです。
Covenant-72B の方法(分散型):
世界中の何十人もの人々が、それぞれの家の机でパズルの一部分を解きます。彼らは「見知らぬ人」同士で、お互いのことを信頼していません。
- 工夫: 全員が同時に連絡を取り合うと、インターネットがパンクしてしまいます。そこで、彼らは**「完成したパズルの一部だけ(圧縮された情報)」**を、非常に小さく折りたたんで(圧縮して)、お互いに送ります。
- 結果: 1 人の天才が巨大なテーブルでやるのと同じくらい、素晴らしいパズル(720 億パラメータの AI)が完成しました。
2. 「泥棒と警備員」のゲーム
(なぜ「信頼できない人」でも大丈夫なのか?)
「見知らぬ人が参加して、嘘をついたり、間違った答えを送ったりしたらどうする?」という心配があります。これに対処するために、**「Gauntlet(ガントレット)」**という仕組みが使われました。
- たとえ話:
Imagine 100 人が「料理コンテスト」に出場しているとしましょう。
- 参加者: 誰でも参加できますが、中には「ただの嘘つき」や「サボり屋」がいるかもしれません。
- 審査員(Gauntlet): 料理の出来栄えを瞬時にチェックする AI 審査員がいます。
- 仕組み: 審査員は、参加者が送ってきた「料理(学習データ)」を少しだけ食べて(検証して)、本物かどうか、美味しいかどうかを判定します。
- 本物で美味しい料理を送った人 → ポイントがもらえる(報酬)。
- 嘘をついたり、変な料理を送った人 → 失格(ポイントなし)。
- 効果: 「正直に頑張れば報われる」というルールがあるため、見知らぬ人同士でも、誰もが悪さをしようとしません。結果として、世界中の誰にでも参加できる「民主的な」AI 作りが可能になりました。
3. 「重い荷物を運ぶ」工夫
(通信効率の良さ)
世界中のコンピューターをインターネットでつなぐと、通信速度が遅く、データを送るのに時間がかかります。これを「重い荷物を運ぶ」ことに例えます。
- 問題: 通常、AI の学習では「荷物の重さ(データ)」をすべて送らなければなりません。しかし、インターネット回線では、この荷物を運ぶのに何時間もかかってしまいます。
- Covenant-72B の解決策(SparseLoCo):
- 荷物の圧縮: 彼らは「荷物の 99% は捨てて、1% だけ(重要な部分だけ)を送る」ことにしました。これを「スパース(疎)な情報」と呼びます。
- 誤差のメモ帳: 「捨てた 99% の情報」は完全に消すのではなく、「メモ帳(エラーフィードバック)」に記録しておきます。次の回で、そのメモ帳の内容を少しだけ足して補正します。
- 結果: 重い荷物を一度に運ぶのではなく、**「必要なものだけ、軽やかに何度も往復させる」**ことで、通信の遅さをカバーし、驚くほど速く学習を進めることができました。
この実験のすごいところ
- 規模の大きさ: これまで「インターネット越しに分散して学習させた AI」は、せいぜい小さなもの(100 億パラメータ程度)でした。しかし、Covenant-72B は720 億パラメータという、巨大なモデルを成功させました。
- 性能: 中央集権的なデータセンターで、何千台の高性能コンピューターを使って作られた AI と比べても、負けていません。むしろ、多くのテストで同等か、それ以上の性能を出しています。
- 民主化: 「お金持ちの企業しか作れない AI」から、「世界中の誰にでも参加できる AI」への第一歩となりました。
まとめ
この論文は、**「信頼できない見知らぬ人同士が、インターネットという狭い道を使って、巨大な AI を一緒に作れる」**ことを証明しました。
まるで、世界中の何万人もの人が、それぞれの家のパソコンで「小さなパズル」を解き、それを小さな紙片にまとめて送り合い、最終的に一つの巨大な絵を完成させたようなものです。これにより、AI 開発の未来は、特定の巨大企業だけでなく、世界中の誰でも参加できる「民主的なもの」になる可能性があります。
Each language version is independently generated for its own context, not a direct translation.
Covenant-72B: 信頼できないピア(Trustless Peers)を用いたインターネット上での 72B パラメータ LLM の事前学習
技術的サマリー(日本語)
本論文は、Covenant AI 社と Mila 研究所が共同で発表したCovenant-72Bに関する技術報告書です。これは、ブロックチェーンプロトコルを基盤とした「信頼できない(Trustless)」ピア(参加者)からの許可不要(Permissionless)な参加を可能にし、インターネットを介して大規模に分散学習を行った、史上最大規模の協調的分散事前学習の実証実験です。
以下に、問題定義、手法、主要な貢献、結果、そして意義について詳細をまとめます。
1. 問題定義 (Problem)
大規模言語モデル(LLM)の事前学習は、通常、高帯域・低遅延の専用ネットワークで接続された数千の GPU を備えた大規模データセンターに依存しており、極めて高コストかつ中央集権的です。
- 分散学習の課題: 既存の分散学習アプローチは、通信帯域幅の制約、高いレイテンシ、参加者の動的な出入り(ジョイン/リーフ)による不安定性により、大規模モデルの学習には適していませんでした。
- 参加の制限: これまでの分散学習プロジェクト(例:INTELLECT-1, Psyche Consilience)は、参加者をホワイトリスト(許可リスト)で制限しており、真の意味での「民主化」や「信頼できない環境下での参加」を実現していませんでした。
- 目標: 一般のインターネット回線(コモディティインターネット)と、信頼できない参加者(ホワイトリストなし)を用いて、中央集権的なデータセンターと同等の品質を持つ大規模 LLM を学習可能にするかの実証。
2. 手法 (Methodology)
Covenant-72B は、通信効率の高いオプティマイザと、ブロックチェーンに基づくインセンティブ設計の 2 つの主要コンポーネントを組み合わせることで、この課題を解決しました。
A. SparseLoCo (通信効率オプティマイザ)
- 概要: 局所更新(Local-update)型の分散オプティマイザで、DiLoCo の改良版です。
- 技術的特徴:
- Top-k スパース化と量子化: 勾配の全送信ではなく、重要度の高い Top-k 成分のみを選択し、2 ビット量子化を適用します。
- エラーフィードバック: 送信されなかった情報の累積(エラーフィードバックバッファ)を用いることで、激しいスパース化による情報損失を防ぎます。
- チャンク単位の処理: 2D テンソルを 64x64 ブロック、1D テンソルを 4096 要素のチャンクに分割し、各チャンク内で Top-k を適用することで、インデックス送信のオーバーヘッドを最小化し、FSDP(Fully Sharded Data Parallelism)との親和性を高めています。
- 圧縮率: 密な勾配通信と比較して、146 倍以上の圧縮率を達成しました。
B. Gauntlet (許可不要なインセンティブ設計)
- 概要: Bittensor ブロックチェーン(Subnet 3)上で動作する調整メカニズムです。
- 機能:
- ピアの選別: 検証者(Validator)が参加者から送信された疑似勾配(Pseudo-gradients)の品質をスコアリングし、グローバル集約に含める参加者を選定します。
- LossScore: 小規模なデータバッチを用いて、参加者の寄与前後の損失差を評価します。
- 不正防止: 割り当てられたデータとランダムなデータに対する損失改善を比較し、他の参加者の模倣や重複行動を検知・排除します。
- 動的参加: 参加者が自由に参加・離脱できても、報酬メカニズムにより常に十分な数のアクティブな参加者が維持されるよう調整されています。
C. システム設計
- ハードウェア: 各ピアは最低 8 枚の NVIDIA B200 GPU を保有。
- 通信基盤: 直接 P2P 接続ではなく、Cloudflare R2 オブジェクトストレージを介して疑似勾配をアップロード・ダウンロードする非同期方式を採用。これにより、ブロックチェーンへの直接書き込みを避け、スケーラビリティを確保しました。
- メモリ管理: 計算フェーズと通信フェーズで、内側オプティマイザの状態とエラーフィードバックバッファを GPU メモリからオフロード/スワップし、メモリ制約を回避しています。
3. 主要な貢献 (Key Contributions)
- 史上最大の分散事前学習: 約 1.1 兆トークン(1.1T tokens)のデータを用いた、72B パラメータモデルの事前学習を成功させました。これは、許可不要な参加者を用いた分散学習としては過去最大規模です。
- 実用的な通信効率: 146 倍を超える圧縮率と、1 回の同期に約 70 秒のアイドル時間(通信オーバーヘッド)のみで済む高い計算利用率(約 94.5%)を達成しました。
- 信頼できない環境での学習の証明: ホワイトリストなし(Permissionless)で、不特定多数の参加者が自由に参加・離脱する環境下でも、モデルの学習が安定して進行し、高品質な結果が得られることを実証しました。
- オープンソース化: 事前学習の中間チェックポイント、最終モデル、および SFT(教師あり微調整)後のモデルを Apache License で公開しました。
4. 結果 (Results)
事前学習モデル (Covenant-72B)
- ベンチマーク性能: 0-shot 評価において、中央集権的に学習された同規模モデル(LLaMA-2-70B, LLM360 K2)と競合する性能を示しました。
- MMLU: 67.1% (LLaMA-2-70B: 65.6%, K2: 65.5%)
- ARC-Challenge: 56.8% (LLaMA-2-70B: 57.4%)
- HellaSwag: 80.6% (K2: 82.9% よりやや低いが、分散学習としては卓越)
- 比較: 既存の分散学習モデル(INTELLECT-1: 10B, Psyche Consilience: 40B)を大きく凌駕し、中央集権モデルに匹敵する性能を達成しました。
教師あり微調整モデル (Covenant-72B-Chat)
- SFT 手法: 約 148 億トークンの指示データを用い、4k コンテキストから 8k コンテキストへ段階的に拡張する 2 段階の微調整を行いました。
- 性能:
- IFEval (指示追従): 比較対象のモデル中、最高スコア(64.7%)を達成。
- MATH (数学推論): 26.3% と、同規模の中央集権モデル(K2-Chat: 19.1%)を上回る性能を示しました。
- 一般的なチャットタスクやコーディングタスクにおいても、LLaMA-2-70B-Chat や K2-Chat と競合する性能を維持しました。
5. 意義と将来展望 (Significance)
- インフラの民主化: 高価なデータセンターや専用ネットワークに依存せず、一般のインターネット回線と分散リソースを活用して、最先端の基礎モデルを構築できる可能性を示しました。
- スケーラビリティの限界突破: 通信ボトルネックを克服する最適化手法(SparseLoCo)と、信頼性を担保するインセンティブ設計(Gauntlet)の組み合わせが、大規模分散学習の現実的な解決策となり得ます。
- 未来への示唆: 今後は、より多様な参加者(異質なハードウェア)へのスケーリングや、さらに大規模なモデル学習への適用が期待されます。Covenant-72B は、中央集権的なインフラへの依存を脱却し、オープンな参加をデフォルトとしたモデル学習のパラダイムシフトへの道筋を示す重要なマイルストーンです。
結論:
Covenant-72B は、通信効率の高い最適化アルゴリズムとブロックチェーンベースのインセンティブ設計を融合させることで、信頼できないピアによる大規模分散学習を成功させました。その結果得られたモデルは、中央集権的な環境で学習されたモデルと同等の性能を有しており、LLM 開発の民主化とコスト削減に向けた画期的な進歩と言えます。