Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer construir o carro mais rápido e inteligente do mundo. Normalmente, para fazer isso, você precisaria de uma fábrica gigante, com milhares de engenheiros trabalhando juntos em um único prédio, usando equipamentos caríssimos e conectados por cabos de fibra óptica ultra-rápidos. Se você não tem esse dinheiro ou essa fábrica, você não consegue construir o carro.

O artigo que você leu conta a história de como um grupo de pesquisadores decidiu fazer exatamente o oposto: eles construíram um "super-carro" (um modelo de Inteligência Artificial gigante) usando peças de bicicletas espalhadas pelo mundo todo, conectadas apenas pela internet comum.

Aqui está a explicação de como eles fizeram isso, usando analogias simples:

1. O Grande Desafio: A "Fábrica" vs. A "Rede de Bicicletas"

Normalmente, treinar uma Inteligência Artificial (IA) gigante, como o Covenant-72B, exige que milhares de computadores fiquem lado a lado, trocando informações a cada segundo. É como tentar fazer uma coreografia perfeita onde, se um bailarino atrasar um milésimo de segundo, todo o grupo erra. Isso exige equipamentos caros e uma internet super-rápida e estável.

O problema é que poucas empresas têm esse dinheiro. O resto do mundo fica de fora.

2. A Solução: O "Cavalo de Troia" da Colaboração

Os autores criaram o Covenant-72B. Em vez de uma fábrica centralizada, eles usaram uma rede descentralizada.

A Metáfora: Imagine que você precisa enviar uma carta gigante para 20 amigos ao redor do mundo. Em vez de enviar uma carta enorme para cada um (o que demoraria muito e custaria caro), você corta a carta em pedaços minúsculos, envia apenas os resumos principais e pede para cada amigo fazer um pequeno cálculo mental. Depois, eles enviam apenas a resposta desse cálculo de volta.
Na prática: Eles usaram um algoritmo chamado SparseLoCo. Em vez de os computadores trocarem "toda a mente" do modelo a cada passo (o que seria lento na internet comum), eles trocam apenas "dicas" muito comprimidas (como um resumo de 2 bits, que é minúsculo). É como se os computadores conversassem em "telepatia de texto curto" em vez de "vídeo chamadas em 4K".

3. O Problema dos "Estranhos": Como confiar em quem você não conhece?

Aqui está a parte mais genial. Em projetos anteriores, só podiam participar pessoas "de confiança" (uma lista branca). Mas o Covenant-72B permitiu que qualquer pessoa com um computador potente participasse, sem precisar de convite.

O Risco: E se alguém tentar trapacear? E se alguém enviar respostas erradas de propósito para estragar o carro?
A Solução (Gauntlet): Eles usaram uma "caixa de segurança" baseada em blockchain (como o Bittensor). Imagine um juiz invisível que, a cada rodada, testa se a resposta de cada participante faz sentido.
- Se você enviar uma resposta que melhora o modelo, você ganha pontos (e possivelmente recompensas).
- Se você enviar algo estranho ou copiar de outro, o sistema percebe e te pune.
- É como um jogo de "quem não é o impostor": o sistema verifica se você realmente está jogando o jogo ou apenas fingindo.

4. O Resultado: Um Gigante Feito de Pequenos Passos

O resultado foi impressionante. Eles conseguiram treinar um modelo com 72 bilhões de parâmetros (o "cérebro" da IA) usando computadores espalhados pelo mundo, conectados apenas pela internet de casa.

Comparação: Eles treinaram esse modelo gigante usando a internet comum e conseguiram resultados tão bons quanto os modelos treinados em supercomputadores caros de grandes empresas (como a Meta ou a Google).
A Lição: Eles provaram que não é preciso ter uma "fábrica de ouro" para criar uma IA de ponta. Com as técnicas certas de compressão de dados e um sistema de confiança automatizado, qualquer pessoa com um computador potente pode ajudar a construir o futuro da inteligência.

Resumo em uma frase

O Covenant-72B é a prova de que, se você tiver um bom sistema de coordenação (o algoritmo) e um juiz justo (o blockchain), você pode construir um supercomputador mental usando apenas a força combinada de computadores comuns espalhados pelo mundo, sem precisar de uma fábrica centralizada.

O que isso significa para o futuro?
Significa que a criação de Inteligência Artificial pode se tornar democrática. Em vez de ser um brinquedo apenas para as empresas mais ricas, qualquer pessoa, em qualquer lugar, poderá contribuir para o desenvolvimento das IAs mais inteligentes do mundo.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Covenant-72B

1. O Problema

O treinamento de Grandes Modelos de Linguagem (LLMs) de última geração tem sido dominado por organizações com acesso a infraestrutura centralizada massiva (milhares de aceleradores interconectados por redes de baixa latência e alta largura de banda). Embora o treinamento distribuído globalmente prometa reduzir custos e democratizar o acesso, as abordagens existentes enfrentam desafios significativos:

Escala Limitada: Os modelos treinados de forma distribuída até agora são relativamente pequenos.
Participação Restrita: A maioria dos esforços anteriores depende de participantes "brancos" (whitelisted), ou seja, entidades verificadas e confiáveis, o que impede a verdadeira democratização.
Ineficiência de Comunicação: Treinar sobre a internet comercial (commodity internet) sofre com latência variável, largura de banda limitada e a natureza dinâmica dos participantes (que podem entrar e sair a qualquer momento), tornando a sincronização de gradientes tradicional (como em Synchronous SGD) inviável em grande escala.

O objetivo deste trabalho é demonstrar que é possível pré-treinar um modelo de 72 bilhões de parâmetros de alta qualidade utilizando uma rede global de participantes não confiáveis (trustless), sem permissão e conectados apenas pela internet padrão.

2. Metodologia

O sistema Covenant-72B combina duas tecnologias principais para superar as barreiras de comunicação e confiança:

A. Otimizador SparseLoCo (Eficiência de Comunicação)

Mecanismo: Utiliza o otimizador SparseLoCo, uma variante distribuída que executa múltiplos passos internos (inner steps) localmente em cada nó antes de sincronizar.
Compressão Agressiva: Em vez de transmitir gradientes densos, o sistema calcula "pseudo-gradients" ( $\Delta = \theta_{global} - \theta_{local}$ $Δ = θ_{g l o ba l} - θ_{l oc a l}$ ) e aplica:
- Sparsificação Top-k: Seleciona apenas os $k$ valores mais significativos por bloco.
- Quantização de 2 bits: Reduz a precisão dos valores transmitidos.
- Feedback de Erro (Error-Feedback): Acumula os gradientes não transmitidos para garantir que nenhuma informação seja perdida ao longo do tempo.
Resultado: Uma taxa de compressão superior a 146x em comparação com a comunicação de gradientes densos, permitindo a operação em links de internet com largura de banda limitada (ex: 110 Mb/s de upload).
Paralelismo: Cada participante (peer) utiliza 8x GPUs NVIDIA B200 e emprega FSDP (Fully Sharded Data Parallel) dinâmico para gerenciar a memória, alternando entre estados do otimizador interno e o buffer de feedback de erro conforme a fase de computação ou comunicação.

B. Mecanismo Gauntlet (Incentivação e Validação Sem Permissão)

Blockchain: O sistema roda sobre a blockchain Bittensor (Subnet 3), que coordena os participantes.
Validação de Confiança Zero: Um validador (validator) pontua os pseudo-gradients submetidos pelos pares.
- LossScore: O validador testa a melhoria de perda (loss improvement) de cada contribuição em pequenos lotes de dados.
- Detecção de Comportamento Malicioso: Se um peer melhorar a perda em dados aleatórios mais do que em seus dados atribuídos, recebe uma pontuação negativa (impedindo cópia ou comportamento duplicado).
- Normalização: Os gradientes são normalizados pela mediana de sua norma para evitar que um único participante com atualizações de magnitude anormal domine a agregação global.
Dinâmica de Participação: O sistema é calibrado para ter sempre mais participantes ativos do que o necessário para a agregação, permitindo que peers caiam ou entrem sem interromper o treinamento.

3. Configuração do Treinamento

Modelo: Arquitetura Transformer densa (estilo LLaMA-3) com 72B parâmetros, 80 camadas, atenção com grupo de consultas (GQA) e embeddings de posição rotacionais (RoPE).
Dados: ~1,1 trilhões de tokens.
- Fase Principal: ~1,09T tokens de texto da web (DCLM).
- Fase de Annealing: ~14,2B tokens de dados de alta qualidade (instruções, código, matemática) para refinar o modelo.
Hiperparâmetros: 30 passos internos (inner steps) por rodada, batch size de 192 por peer, e compressão Top-k com tamanho de bloco de 4096 e $k=64$ .

4. Resultados Principais

Desempenho do Modelo Base (Pré-treinamento):

Benchmarks: O modelo alcançou resultados competitivos com modelos centralizados de escala similar (como LLaMA-2-70B e LLM360 K2), apesar de ter sido treinado com menos tokens (~1,1T vs 2T do LLaMA-2) e em infraestrutura descentralizada.
Comparação:
- Superou modelos descentralizados anteriores (INTELLECT-1, Psyche Consilience) em todas as métricas.
- Em tarefas como ARC-Challenge (56.8%) e MMLU (67.1%), o Covenant-72B superou o modelo centralizado K2 (65B) e foi comparável ao LLaMA-2-70B, demonstrando que a infraestrutura descentralizada não compromete a qualidade final.
Eficiência: O sistema alcançou uma utilização de computação de ~94,5%, com apenas 70 segundos de tempo ocioso por rodada de comunicação, superando significativamente o tempo de sincronização de abordagens anteriores.

Ajuste Fino Supervisionado (SFT) - Covenant-72B-Chat:

Após o pré-treinamento, o modelo passou por um estágio de SFT de ~14,8B tokens com extensão de contexto para 8k.
O modelo resultante (Chat) superou ou empatou com modelos centralizados de chat de tamanho similar em tarefas de raciocínio matemático (MATH: 26,3% vs 19,1% do K2) e seguimento de instruções (IFEval: 64,7% vs 45,5% do K2).

Dinâmica de Participação:

O treinamento suportou a entrada e saída dinâmica de participantes. Ao longo da execução, houve uma média de 16,9 peers contribuintes por rodada (de um máximo de 20 selecionados), com um total de 70 peers únicos participando, validando a robustez do sistema em um ambiente aberto.

5. Contribuições Chave

Escala Sem Precedentes: O maior treinamento colaborativo distribuído globalmente até a data (em termos de tamanho do modelo e escala de computação), permitindo a participação sem permissão (permissionless).
Validação Técnica: Demonstra que a combinação de SparseLoCo (para eficiência de banda) e Gauntlet (para incentivos e segurança) permite treinar modelos de nível SOTA sobre a internet comercial, sem a necessidade de data centers centralizados.
Liberdade de Acesso: Quebra a barreira de entrada para o desenvolvimento de modelos fundacionais, provando que a participação aberta e não confiável é viável em escala industrial.
Código Aberto: Todos os checkpoints (intermediários, finais e pós-treinamento) foram liberados sob licença Apache.

6. Significado e Impacto

O Covenant-72B representa um marco fundamental na democratização da inteligência artificial. Ele prova que a dependência de infraestrutura centralizada e de alto custo para treinar modelos de ponta pode ser substituída por uma rede global de recursos computacionais heterogêneos. Ao resolver os problemas de comunicação e confiança em ambientes descentralizados, o trabalho abre caminho para um futuro onde o desenvolvimento de modelos fundacionais é um esforço verdadeiramente colaborativo, global e acessível, reduzindo a concentração de poder tecnológico nas mãos de poucas grandes corporações.

Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

1. O Grande Desafio: A "Fábrica" vs. A "Rede de Bicicletas"

2. A Solução: O "Cavalo de Troia" da Colaboração

3. O Problema dos "Estranhos": Como confiar em quem você não conhece?

4. O Resultado: Um Gigante Feito de Pequenos Passos

Resumo em uma frase

Resumo Técnico: Covenant-72B

1. O Problema

2. Metodologia

3. Configuração do Treinamento

4. Resultados Principais

5. Contribuições Chave

6. Significado e Impacto

Mais como este

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models