Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

O artigo apresenta o Covenant-72B, um modelo de linguagem de 72 bilhões de parâmetros pré-treinado em escala sem precedentes por meio de uma colaboração global e permissionless apoiada por blockchain e pelo otimizador SparseLoCo, demonstrando que a participação aberta e não whitelistada é viável e competitiva em relação a modelos centralizados.

Joel Lidin, Amir Sarfi, Erfan Miahi, Quentin Anthony, Shivam Chauhan, Evangelos Pappas, Benjamin Thérien, Eugene Belilovsky, Samuel Dare

Publicado Tue, 10 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer construir o carro mais rápido e inteligente do mundo. Normalmente, para fazer isso, você precisaria de uma fábrica gigante, com milhares de engenheiros trabalhando juntos em um único prédio, usando equipamentos caríssimos e conectados por cabos de fibra óptica ultra-rápidos. Se você não tem esse dinheiro ou essa fábrica, você não consegue construir o carro.

O artigo que você leu conta a história de como um grupo de pesquisadores decidiu fazer exatamente o oposto: eles construíram um "super-carro" (um modelo de Inteligência Artificial gigante) usando peças de bicicletas espalhadas pelo mundo todo, conectadas apenas pela internet comum.

Aqui está a explicação de como eles fizeram isso, usando analogias simples:

1. O Grande Desafio: A "Fábrica" vs. A "Rede de Bicicletas"

Normalmente, treinar uma Inteligência Artificial (IA) gigante, como o Covenant-72B, exige que milhares de computadores fiquem lado a lado, trocando informações a cada segundo. É como tentar fazer uma coreografia perfeita onde, se um bailarino atrasar um milésimo de segundo, todo o grupo erra. Isso exige equipamentos caros e uma internet super-rápida e estável.

O problema é que poucas empresas têm esse dinheiro. O resto do mundo fica de fora.

2. A Solução: O "Cavalo de Troia" da Colaboração

Os autores criaram o Covenant-72B. Em vez de uma fábrica centralizada, eles usaram uma rede descentralizada.

  • A Metáfora: Imagine que você precisa enviar uma carta gigante para 20 amigos ao redor do mundo. Em vez de enviar uma carta enorme para cada um (o que demoraria muito e custaria caro), você corta a carta em pedaços minúsculos, envia apenas os resumos principais e pede para cada amigo fazer um pequeno cálculo mental. Depois, eles enviam apenas a resposta desse cálculo de volta.
  • Na prática: Eles usaram um algoritmo chamado SparseLoCo. Em vez de os computadores trocarem "toda a mente" do modelo a cada passo (o que seria lento na internet comum), eles trocam apenas "dicas" muito comprimidas (como um resumo de 2 bits, que é minúsculo). É como se os computadores conversassem em "telepatia de texto curto" em vez de "vídeo chamadas em 4K".

3. O Problema dos "Estranhos": Como confiar em quem você não conhece?

Aqui está a parte mais genial. Em projetos anteriores, só podiam participar pessoas "de confiança" (uma lista branca). Mas o Covenant-72B permitiu que qualquer pessoa com um computador potente participasse, sem precisar de convite.

  • O Risco: E se alguém tentar trapacear? E se alguém enviar respostas erradas de propósito para estragar o carro?
  • A Solução (Gauntlet): Eles usaram uma "caixa de segurança" baseada em blockchain (como o Bittensor). Imagine um juiz invisível que, a cada rodada, testa se a resposta de cada participante faz sentido.
    • Se você enviar uma resposta que melhora o modelo, você ganha pontos (e possivelmente recompensas).
    • Se você enviar algo estranho ou copiar de outro, o sistema percebe e te pune.
    • É como um jogo de "quem não é o impostor": o sistema verifica se você realmente está jogando o jogo ou apenas fingindo.

4. O Resultado: Um Gigante Feito de Pequenos Passos

O resultado foi impressionante. Eles conseguiram treinar um modelo com 72 bilhões de parâmetros (o "cérebro" da IA) usando computadores espalhados pelo mundo, conectados apenas pela internet de casa.

  • Comparação: Eles treinaram esse modelo gigante usando a internet comum e conseguiram resultados tão bons quanto os modelos treinados em supercomputadores caros de grandes empresas (como a Meta ou a Google).
  • A Lição: Eles provaram que não é preciso ter uma "fábrica de ouro" para criar uma IA de ponta. Com as técnicas certas de compressão de dados e um sistema de confiança automatizado, qualquer pessoa com um computador potente pode ajudar a construir o futuro da inteligência.

Resumo em uma frase

O Covenant-72B é a prova de que, se você tiver um bom sistema de coordenação (o algoritmo) e um juiz justo (o blockchain), você pode construir um supercomputador mental usando apenas a força combinada de computadores comuns espalhados pelo mundo, sem precisar de uma fábrica centralizada.

O que isso significa para o futuro?
Significa que a criação de Inteligência Artificial pode se tornar democrática. Em vez de ser um brinquedo apenas para as empresas mais ricas, qualquer pessoa, em qualquer lugar, poderá contribuir para o desenvolvimento das IAs mais inteligentes do mundo.