Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

Ce rapport présente Covenant-72B, un modèle de langage de 72 milliards de paramètres pré-entraîné à l'échelle mondiale via une participation ouverte et sans permission soutenue par un protocole blockchain, démontrant ainsi la viabilité d'un entraînement décentralisé massif compétitif avec les approches centralisées.

Joel Lidin, Amir Sarfi, Erfan Miahi, Quentin Anthony, Shivam Chauhan, Evangelos Pappas, Benjamin Thérien, Eugene Belilovsky, Samuel Dare

Publié Tue, 10 Ma
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Voici une explication du rapport Covenant-72B en français, imagée et simplifiée pour tout le monde.

🌍 L'Idée de Base : Construire un Géant avec des Briques Éparpillées

Imaginez que vous voulez construire la plus grande cathédrale du monde (un modèle d'intelligence artificielle géant appelé Covenant-72B).

Habituellement, pour construire une telle cathédrale, il faut un seul architecte très riche qui possède un immense chantier avec des milliers d'ouvriers travaillant côte à côte, connectés par des câbles ultra-rapides. C'est cher, centralisé, et seuls quelques géants de la tech peuvent se le permettre.

Covenant-72B change la donne. Au lieu d'un seul chantier, ils ont décidé de construire la cathédrale en utilisant des milliers de petites briques venant de gens du monde entier, connectés par Internet (la connexion "normale" de votre maison).

🧱 Le Problème : Le Réseau de la Maison vs Le Super-Haut-débit

Le défi, c'est que si vous essayez de faire travailler 20 personnes sur le même dessin en utilisant votre connexion Internet classique, tout va être lent. Si tout le monde doit envoyer ses notes à chaque seconde, le réseau s'effondre. C'est comme essayer de faire passer un camion de déménagement dans une rue de village : ça bloque tout.

🚀 La Solution Magique : Le "Messager Économe" (SparseLoCo)

Pour résoudre ce problème, les chercheurs ont utilisé une technique intelligente appelée SparseLoCo.

Imaginez que chaque ouvrier (chaque ordinateur) travaille sur sa partie du dessin pendant 30 minutes sans parler à personne. Au lieu d'envoyer tout le dessin à ses voisins à la fin de la demi-heure (ce qui serait énorme), il ne leur envoie que les 64 changements les plus importants (comme dire : "J'ai changé la couleur de la fenêtre" et "J'ai ajouté une fleur").

  • Compression extrême : Ils envoient ces changements sous forme de messages ultra-courts (compressés 146 fois !). C'est comme envoyer un SMS au lieu d'un film entier.
  • Le "Tampon d'Erreur" : Si un ouvrier ne peut pas envoyer un petit détail aujourd'hui à cause de la lenteur, il le garde dans sa poche (un tampon) et l'ajoute au message du lendemain. Ainsi, rien n'est jamais perdu, même si le réseau est lent.

🛡️ La Confiance : Le "Juge Blockchain" (Gauntlet)

Le plus gros risque quand on fait travailler des inconnus sur Internet, c'est qu'un malin puisse envoyer un faux dessin pour saboter le projet ou voler le travail des autres.

Pour éviter ça, ils ont utilisé un système de blockchain (comme un grand registre public infalsifiable) appelé Gauntlet.

  • C'est comme un juge impartial qui vérifie chaque brique envoyée.
  • Il dit : "Tiens, cette brique semble bizarre, je ne la compte pas." ou "Ah, cette brique est excellente, l'ouvrier gagne des points."
  • Cela permet à n'importe qui de participer sans avoir besoin d'une autorisation spéciale (pas de "liste blanche"). Si vous êtes honnête et efficace, vous participez. Si vous trichez, le système vous repère.

🏆 Le Résultat : Un Géant qui Rivalise avec les Géants

Le résultat de cette expérience est Covenant-72B.

  • C'est un modèle de 72 milliards de "neurones" (paramètres).
  • Il a été entraîné avec l'aide de 70 personnes différentes venant de partout, utilisant leurs propres ordinateurs puissants (des cartes graphiques B200) connectées par Internet.
  • La performance : Malgré le fait qu'ils n'avaient pas le super-réseau des datacenters, ce modèle est aussi intelligent que ceux créés par les grandes entreprises (comme Meta avec LLaMA) qui ont dépensé des millions en infrastructures centralisées.

🗣️ Et après ? Le Chatbot

Après l'entraînement, ils ont donné un coup de pouce au modèle (un "raffinement") pour qu'il apprenne à discuter comme un humain. Le résultat, Covenant-72B-Chat, est capable de :

  • Résoudre des problèmes de mathématiques complexes.
  • Écrire du code informatique.
  • Raconter des histoires créatives.
  • Répondre à des questions de logique.

💡 En Résumé

Cette étude prouve une chose révolutionnaire : on n'a plus besoin d'être un géant technologique pour créer une intelligence artificielle de classe mondiale.

Grâce à des astuces pour réduire les échanges de données (comme envoyer des résumés au lieu de livres entiers) et un système de confiance automatisé, nous pouvons rassembler la puissance de milliers d'ordinateurs dispersés dans le monde pour construire des intelligences collectives. C'est la démocratisation de l'IA : n'importe qui, n'importe où, peut contribuer à construire le futur.