Each language version is independently generated for its own context, not a direct translation.

Covenant-72B: 전 세계의 '누구나'가 함께 만든 거대 인공지능 이야기

이 논문은 **'Covenant-72B'**라는 이름의 거대한 인공지능 (AI) 을 어떻게 만들었는지 설명하는 보고서입니다. 보통 거대 AI 는 구글이나 메타 같은 거대 기업이 수천 개의 고성능 컴퓨터를 한곳에 모아 비싼 돈으로 만들죠. 하지만 이 연구는 전 세계의 일반인들이 각자의 집에서 컴퓨터를 내어주고, 인터넷을 통해 함께 AI 를 학습시켰습니다.

이 과정을 이해하기 쉽게 몇 가지 비유로 설명해 드릴게요.

1. 거대한 퍼즐을 함께 맞추는 '전 세계 게임'

상상해 보세요. 거대한 AI 모델을 완성하기 위해 **1.1 조 개 (1.1 Trillion)**의 퍼즐 조각을 맞춰야 한다고 칩시다.

기존 방식: 한 회사가 수천 명의 전문 인력과 거대한 공장을 세워, 모든 조각을 한곳에서 빠르게 맞추는 방식입니다. 비용이 엄청나게 비싸죠.
이 연구의 방식 (Covenant-72B): 전 세계에 있는 수백 명의 일반인들에게 "누구나 이 퍼즐 조각을 하나씩 맞춰서 보내면 돼!"라고 말합니다. 사람들은 각자 집 컴퓨터 (GPU) 를 켜고, 인터넷을 통해 조각을 보냅니다.
- 핵심: 참여를 제한하지 않습니다. 누구나, 언제든, 어디서든 참여할 수 있습니다 (이걸 '허가 없는 참여'라고 합니다).

2. "누가 진짜로 일했는지 어떻게 알까?" (가드레일과 Gauntlet)

전 세계 누구나 참여할 수 있다는 건, 누군가 속임수를 쓰거나 엉뚱한 조각을 보낼 수도 있다는 뜻입니다. 여기서 **'Gauntlet (게틀릿)'**이라는 시스템이 등장합니다.

비유: 마치 거대한 오디션 프로그램의 심사위원처럼 작동합니다.
- 참가자들이 보낸 퍼즐 조각 (학습 데이터) 을 작은 테스트에 통과시켜 봅니다.
- 진짜로 열심히 일한 사람에게는 보상을 주고, 속임수를 쓰거나 엉뚱한 일을 한 사람은 탈락시킵니다.
- 블록체인 기술을 써서 이 과정을 투명하게 기록합니다.

3. "메시지 보내기보다 '요약' 보내기" (SparseLoCo)

전 세계 사람들이 인터넷으로 퍼즐 조각을 보낼 때, 모든 조각을 다 보내면 인터넷이 터져버립니다. 그래서 **'SparseLoCo'**라는 기술을 썼습니다.

비유: 친구에게 긴 편지를 보낼 때, 모든 내용을 다 쓰지 않고 핵심 내용만 146 배나 압축해서 보내는 것과 같습니다.
- AI 가 학습할 때 필요한 모든 정보를 다 보내는 게 아니라, '가장 중요한 변화'만 추려서 아주 작게 압축 (2 비트 양자화) 해 보냅니다.
- 이렇게 하면 느린 일반 인터넷 연결에서도 AI 학습이 가능해집니다.

4. 결과: 중앙집중식 AI 와도 대등한 실력!

이 프로젝트의 결과는 놀랍습니다.

규모: 720 억 개의 파라미터 (AI 의 뇌세포) 를 가진 72B 모델을 만들었습니다.
성능: 전 세계 일반인들과 느린 인터넷으로 만든 이 AI 는, 거대 기업들이 비싼 데이터센터에서 만든 AI 들과 비슷하거나 더 좋은 성능을 냈습니다.
의미: "AI 는 부자 기업만 만드는 거야"라는 고정관념을 깨뜨렸습니다. 이제 누구나 참여해서 거대 AI 를 만들 수 있는 길이 열렸습니다.

5. 그 후, 대화하는 AI 로 진화 (SFT)

기본 학습을 마친 후, 이 AI 를 사람과 대화할 수 있도록 조금 더 가르쳤습니다 (SFT 단계).

수학 문제 풀기, 논리적 추론, 코드 작성, 심지어 창의적인 이야기 쓰기까지 잘해냅니다.
특히 "명령을 잘 따르는 능력"과 "수학 문제 해결 능력"에서 기존 유명 AI 들과 견주어도 손색이 없는 결과를 보여줬습니다.

요약하자면

이 논문은 **"거대 AI 를 만드는 것이 더 이상 거대 기업의 독무대가 아니다"**라고 선언합니다.

"전 세계의 작은 컴퓨터들이 인터넷으로 연결되고, 서로를 믿지 않아도 되는 시스템 (블록체인) 으로 검증받으며, 압축된 정보만 주고받으면, 우리는 함께 거대하고 똑똑한 AI 를 만들 수 있다."

이는 AI 의 민주화를 향한 거대한 첫걸음이며, 앞으로 더 많은 사람이 AI 개발의 주역이 될 수 있음을 보여준 획기적인 연구입니다.

Each language version is independently generated for its own context, not a direct translation.

Covenant-72B: 신뢰할 수 없는 피어 (Trustless Peers) 를 통한 인터넷 기반 72B LLM 사전 학습 기술 요약

본 보고서는 Covenant-72B라는 720 억 파라미터 규모의 대규모 언어 모델 (LLM) 을 공개적이고 허가 없는 (permissionless) 참여 방식을 통해 전 세계적으로 분산된 컴퓨팅 자원을 활용하여 사전 학습한 사례를 소개합니다. 기존 분산 학습이 소규모이거나 신뢰할 수 있는 참여자 (whitelisted) 에만 국한되었던 한계를 극복하고, 블록체인 기반의 인센티브 메커니즘과 통신 효율적인 최적화 기법을 결합하여 대규모 모델 학습의 민주화를 실현했습니다.

1. 문제 정의 (Problem)

중앙 집중식 인프라의 한계: 최신 LLM 학습은 고대역폭, 저지연 연결이 필요한 수천 개의 가속기 (GPU) 를 갖춘 중앙 집중식 데이터센터에 의존하고 있어 비용이 매우 높고 진입 장벽이 높습니다.
분산 학습의 제약: 기존에 시도된 전 세계 분산 학습 (Over-the-Internet training) 은 통신 대역폭 제약, 높은 지연 시간, 동적 참여 (참여자 유입/퇴출) 로 인해 효율성이 낮았습니다. 또한, 대부분의 기존 연구는 신뢰할 수 있는 참여자 (whitelisted) 만 허용하여 진정한 '민주화'를 이루지 못했습니다.
신뢰할 수 없는 환경에서의 학습: 불특정 다수의 참여자가 참여하는 '신뢰할 수 없는 (trustless)' 환경에서 악성 참여자나 오류를 방지하면서도 대규모 모델을 학습시키는 것은 기술적으로 매우 어려운 과제였습니다.

2. 방법론 (Methodology)

Covenant-72B 는 크게 두 가지 핵심 기술의 결합을 통해 문제를 해결했습니다.

2.1 SparseLoCo (통신 효율적 최적화기)

개념: 로컬 업데이트 기반 분산 최적화 알고리즘으로, Top-k 희소화 (sparsification), 오차 피드백 (error-feedback), 양자화 (quantization) 를 활용하여 통신량을 극도로 줄입니다.
작동 원리:
1. 각 피어 (참여자) 는 동기화된 글로벌 모델 파라미터를 복사받아 로컬 데이터에서 $H$ 단계의 내부 최적화 (예: AdamW) 를 수행합니다.
2. 생성된 로컬 모델과 글로벌 모델의 차이 (가상 그래디언트) 를 계산합니다.
3. Top-k 희소화 및 양자화: 2 비트 양자화와 함께 Top-k 희소화를 적용하여 전송 데이터량을 146 배 이상 압축합니다.
4. Chunk-wise Top-k: 텐서를 64x64 블록이나 4096 크기의 청크로 나누어 희소화를 적용함으로써, 텐서 병렬화 (TP) 및 FSDP 와의 호환성을 높이고 인덱스 오버헤드를 줄였습니다.
5. 오차 피드백: 전송되지 않은 정보의 일부를 버퍼에 누적하여 다음 라운드에 반영함으로써, 희소화 과정에서 발생하는 정보 손실을 보정합니다.

2.2 Gauntlet (허가 없는 인센티브 및 검증 메커니즘)

블록체인 기반 조정: Bittensor 블록체인 (Subnet 3) 을 기반으로 하여, 참여자를 검증하고 보상하는 시스템을 구축했습니다.
LossScore 및 검증:
- 검증자 (Validator) 는 제출된 가상 그래디언트의 품질을 평가하기 위해 작은 데이터 배치를 사용하여 손실 (Loss) 개선을 측정합니다.
- 할당된 데이터 검증: 참여자가 할당된 데이터에서 손실을 개선하는지, 아니면 무작위 데이터에서 더 큰 개선을 보이는지 (복제 또는 악성 행동 의심) 를 비교하여 검증합니다.
- OpenSkill 랭킹: 라운드별 무작위성을 보정하기 위해 지속적인 랭킹 시스템을 유지합니다.
동적 참여 관리: 참여자가 자유롭게 들어오고 나갈 수 있도록 설계되었으며, 검증되지 않거나 악성인 제출은 필터링됩니다.

2.3 시스템 아키텍처

하드웨어: 각 피어는 최소 8 개의 NVIDIA B200 GPU 를 보유해야 하며, 로컬 GPU 간에는 동적 FSDP(Fully Sharded Data Parallel) 를 사용하여 모델 파라미터와 옵티마이저 상태를 분할합니다.
통신 프로토콜: P2P 직접 연결 대신 Cloudflare R2 객체 스토리지를 중계 서버로 사용합니다. 참여자는 압축된 가상 그래디언트를 R2 에 업로드하고, 검증자가 이를 선택하여 다른 참여자들이 다운로드하도록 합니다. 이는 동기화 오버헤드를 줄이고 인터넷 규모의 변동을 수용합니다.

3. 주요 기여 (Key Contributions)

최대 규모의 분산 사전 학습: 720 억 파라미터 규모의 모델을 약 1.1 조 토큰 (tokens) 으로 학습시킨 역사상 가장 큰 규모의 협력적 분산 학습입니다.
허가 없는 참여 (Permissionless Participation) 의 실현: 신뢰할 수 있는 참여자만 허용하던 기존 방식과 달리, 블록체인 기반의 Gauntlet 메커니즘을 통해 누구나 참여할 수 있는 환경을 구축했습니다.
압도적인 통신 효율성: 2 비트 양자화와 Top-k 희소화를 결합하여 146 배 이상의 압축률을 달성했습니다. 이로 인해 72B 모델 학습 시 라운드당 유휴 시간 (idle time) 을 70 초 수준으로 줄여 컴퓨팅 활용률을 약 94.5% 까지 높였습니다.
중앙 집중식 모델과의 경쟁력 입증: 허가 없는 분산 환경에서도 학습된 모델이 중앙 집중식 데이터센터에서 학습된 동급 모델 (K2, LLaMA-2-70B 등) 과 경쟁 가능한 성능을 보임을 입증했습니다.

4. 결과 (Results)

4.1 사전 학습 성능 (Base Model)

벤치마크: ARC-Challenge, MMLU, HellaSwag 등 다양한 0-shot 벤치마크에서 평가되었습니다.
성능 비교:
- LLaMA-2-70B (2T 토큰 학습, 중앙 집중식) 와 비교했을 때, Covenant-72B (1.1T 토큰 학습, 분산) 는 ARC-Challenge(56.8 vs 57.4), MMLU(67.1 vs 65.6) 등에서 매우 유사하거나 오히려 더 높은 점수를 기록했습니다.
- K2 (65B) 와 비교해도 ARC-Challenge, MMLU 등에서 우세하거나 동등한 성능을 보였습니다.
- 이는 데이터 양이 적음 (1.1T vs 2T) 에도 불구하고, 통신 효율적인 최적화 기법 (SparseLoCo) 과 고품질 데이터 (Annealing phase) 가 결합되었을 때 분산 학습이 중앙 집중식 학습을 따라잡을 수 있음을 시사합니다.

4.2 지도 미세 조정 (SFT) 및 챗 모델 성능

Covenant-72B-Chat: 148 억 토큰의 SFT 데이터를 통해 4k 및 8k 컨텍스트로 확장하여 미세 조정했습니다.
성과:
- IFEval (지시 따르기): 64.7 점으로 비교 대상 모델 중 가장 높은 점수를 기록했습니다.
- MATH (수학 문제): 26.3 점으로 K2-Chat(19.1) 보다 우수한 성능을 보였습니다.
- 전반적으로 LLaMA-2-70B-Chat 및 K2-Chat 과 유사한 수준의 대화 능력을 갖추었으며, 사전 학습된 능력을 유지하면서도 지시 따르기 및 추론 능력이 크게 향상되었습니다.

4.3 시스템 효율성 및 참여 동향

컴퓨팅 활용률: 72B 모델 학습 시 146 배 압축으로 인해 통신 오버헤드가 최소화되어 94.5% 의 컴퓨팅 활용률을 달성했습니다. (기존 INTELLECT-1 의 82.1% 대비 향상)
참여 동적성: 학습 기간 동안 평균 16.9 개의 참여자가 기여했으며, 최대 20 개까지 확장되었습니다. 최소 70 개 이상의 고유한 참여자 (Unique Peers) 가 모델 학습에 기여했습니다.

5. 의의 (Significance)

인프라 민주화: 대규모 LLM 학습이 고가의 중앙 집중식 데이터센터에 의존하지 않고, 전 세계의 상용 인터넷 연결과 분산 컴퓨팅 자원을 통해 가능함을 증명했습니다.
신뢰 없는 환경의 실용성: 블록체인과 검증 메커니즘을 통해 악성 참여자를 차단하고 신뢰할 수 없는 환경에서도 고품질 모델을 학습할 수 있는 기술적 토대를 마련했습니다.
미래 지향적 접근: "허가 없는 참여 (Permissionless Participation)"가 기초 모델 (Foundation Model) 개발의 표준 메커니즘이 될 수 있음을 보여주며, AI 개발의 진입 장벽을 낮추고 더 많은 이해관계자가 참여할 수 있는 길을 열었습니다.

결론적으로, Covenant-72B 는 통신 효율성 최적화 (SparseLoCo) 와 블록체인 기반 인센티브 (Gauntlet) 를 결합하여, 전 세계적으로 분산된 자원을 활용하여 중앙 집중식 모델과 경쟁 가능한 720 억 파라미터 LLM 을 성공적으로 학습시킨 획기적인 사례입니다. 이는 AI 인프라의 민주화와 대규모 모델 학습의 새로운 패러다임을 제시합니다.

Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet