Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

Each language version is independently generated for its own context, not a direct translation.

Voici une explication du rapport Covenant-72B en français, imagée et simplifiée pour tout le monde.

🌍 L'Idée de Base : Construire un Géant avec des Briques Éparpillées

Imaginez que vous voulez construire la plus grande cathédrale du monde (un modèle d'intelligence artificielle géant appelé Covenant-72B).

Habituellement, pour construire une telle cathédrale, il faut un seul architecte très riche qui possède un immense chantier avec des milliers d'ouvriers travaillant côte à côte, connectés par des câbles ultra-rapides. C'est cher, centralisé, et seuls quelques géants de la tech peuvent se le permettre.

Covenant-72B change la donne. Au lieu d'un seul chantier, ils ont décidé de construire la cathédrale en utilisant des milliers de petites briques venant de gens du monde entier, connectés par Internet (la connexion "normale" de votre maison).

🧱 Le Problème : Le Réseau de la Maison vs Le Super-Haut-débit

Le défi, c'est que si vous essayez de faire travailler 20 personnes sur le même dessin en utilisant votre connexion Internet classique, tout va être lent. Si tout le monde doit envoyer ses notes à chaque seconde, le réseau s'effondre. C'est comme essayer de faire passer un camion de déménagement dans une rue de village : ça bloque tout.

🚀 La Solution Magique : Le "Messager Économe" (SparseLoCo)

Pour résoudre ce problème, les chercheurs ont utilisé une technique intelligente appelée SparseLoCo.

Imaginez que chaque ouvrier (chaque ordinateur) travaille sur sa partie du dessin pendant 30 minutes sans parler à personne. Au lieu d'envoyer tout le dessin à ses voisins à la fin de la demi-heure (ce qui serait énorme), il ne leur envoie que les 64 changements les plus importants (comme dire : "J'ai changé la couleur de la fenêtre" et "J'ai ajouté une fleur").

Compression extrême : Ils envoient ces changements sous forme de messages ultra-courts (compressés 146 fois !). C'est comme envoyer un SMS au lieu d'un film entier.
Le "Tampon d'Erreur" : Si un ouvrier ne peut pas envoyer un petit détail aujourd'hui à cause de la lenteur, il le garde dans sa poche (un tampon) et l'ajoute au message du lendemain. Ainsi, rien n'est jamais perdu, même si le réseau est lent.

🛡️ La Confiance : Le "Juge Blockchain" (Gauntlet)

Le plus gros risque quand on fait travailler des inconnus sur Internet, c'est qu'un malin puisse envoyer un faux dessin pour saboter le projet ou voler le travail des autres.

Pour éviter ça, ils ont utilisé un système de blockchain (comme un grand registre public infalsifiable) appelé Gauntlet.

C'est comme un juge impartial qui vérifie chaque brique envoyée.
Il dit : "Tiens, cette brique semble bizarre, je ne la compte pas." ou "Ah, cette brique est excellente, l'ouvrier gagne des points."
Cela permet à n'importe qui de participer sans avoir besoin d'une autorisation spéciale (pas de "liste blanche"). Si vous êtes honnête et efficace, vous participez. Si vous trichez, le système vous repère.

🏆 Le Résultat : Un Géant qui Rivalise avec les Géants

Le résultat de cette expérience est Covenant-72B.

C'est un modèle de 72 milliards de "neurones" (paramètres).
Il a été entraîné avec l'aide de 70 personnes différentes venant de partout, utilisant leurs propres ordinateurs puissants (des cartes graphiques B200) connectées par Internet.
La performance : Malgré le fait qu'ils n'avaient pas le super-réseau des datacenters, ce modèle est aussi intelligent que ceux créés par les grandes entreprises (comme Meta avec LLaMA) qui ont dépensé des millions en infrastructures centralisées.

🗣️ Et après ? Le Chatbot

Après l'entraînement, ils ont donné un coup de pouce au modèle (un "raffinement") pour qu'il apprenne à discuter comme un humain. Le résultat, Covenant-72B-Chat, est capable de :

Résoudre des problèmes de mathématiques complexes.
Écrire du code informatique.
Raconter des histoires créatives.
Répondre à des questions de logique.

💡 En Résumé

Cette étude prouve une chose révolutionnaire : on n'a plus besoin d'être un géant technologique pour créer une intelligence artificielle de classe mondiale.

Grâce à des astuces pour réduire les échanges de données (comme envoyer des résumés au lieu de livres entiers) et un système de confiance automatisé, nous pouvons rassembler la puissance de milliers d'ordinateurs dispersés dans le monde pour construire des intelligences collectives. C'est la démocratisation de l'IA : n'importe qui, n'importe où, peut contribuer à construire le futur.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du rapport de recherche sur COVENANT-72B, présenté en français.

Titre : COVENANT-72B : Pré-entraînement d'un LLM de 72B avec des pairs sans confiance via Internet

1. Problématique

L'entraînement des grands modèles de langage (LLM) repose actuellement sur des infrastructures hautement centralisées, coûteuses et dépendantes de connexions matérielles à faible latence (interconnexions haut débit). Bien que l'entraînement distribué mondial puisse démocratiser l'accès aux ressources de calcul et réduire les coûts, les tentatives précédentes souffrent de deux limitations majeures :

Échelle limitée : Les modèles entraînés de manière distribuée sont généralement petits.
Participation restreinte : La plupart des projets existants (comme INTELLECT-1) reposent sur des participants "blanchis" (whitelisted), c'est-à-dire approuvés et de confiance, ce qui empêche une véritable démocratisation.

Le défi principal est de réaliser un pré-entraînement à grande échelle (des dizaines de milliards de paramètres) sur un réseau "sans confiance" (trustless) où les pairs peuvent rejoindre et quitter le réseau librement, tout en surmontant les contraintes de bande passante et de latence d'Internet.

2. Méthodologie

COVENANT-72B combine deux innovations clés pour résoudre ces problèmes : un optimiseur efficace en communication et un mécanisme d'incitation décentralisé.

A. Optimiseur SparseLoCo

Principe : C'est un optimiseur distribué basé sur des mises à jour locales. Chaque pair exécute plusieurs étapes d'optimiseur interne (ex: AdamW) sur ses données locales avant de communiquer.
Compression agressive : Au lieu d'envoyer les gradients complets, les pairs calculent des "pseudo-gradients" (différence entre les paramètres globaux et locaux). Ces gradients sont compressés via :
- Sparsification Top-k : Seuls les $k$ éléments les plus importants sont conservés par blocs (chunks).
- Quantification 2 bits : Les valeurs sont réduites à 2 bits.
- Rétroaction d'erreur (Error-Feedback) : Les informations perdues lors de la compression sont accumulées dans un tampon et réinjectées lors des tours suivants, garantissant que l'information n'est pas perdue malgré la compression.
Efficacité : Cette approche permet un taux de compression supérieur à 146x par rapport à la communication de gradients denses, rendant l'entraînement possible sur des connexions Internet standards.

B. Mécanisme d'incitation "Gauntlet" (sur Bittensor)

Fonctionnement : Pour gérer un réseau "sans confiance" (permissionless), le système utilise un protocole blockchain (Subnet 3 de Bittensor).
Validation : Un validateur évalue les contributions des pairs en calculant une "LossScore" (amélioration de la perte sur un sous-ensemble de données).
Sécurité : Le système détecte et pénalise les comportements malveillants (comme la copie de gradients ou l'envoi de données aléatoires) en comparant l'amélioration de la perte sur des données assignées versus des données non assignées.
Dynamique : Le mécanisme assure qu'il y a toujours plus de participants actifs que de contributeurs sélectionnés, permettant un remplacement rapide des pairs qui quittent le réseau.

C. Architecture Système

Matériel : Chaque pair dispose d'au moins 8 GPU NVIDIA B200.
Parallélisme : Utilisation de FSDP (Fully Sharded Data Parallel) dynamique pour partager les paramètres, gradients et états d'optimiseur entre les GPU locaux.
Communication : Les pseudo-gradients compressés sont hébergés sur un stockage objet (Cloudflare R2) plutôt que via des connexions P2P directes, facilitant la validation asynchrone et la distribution rapide.

3. Contributions Clés

COVENANT-72B : Le plus grand pré-entraînement collaboratif décentralisé à ce jour, avec un modèle de 72 milliards de paramètres entraîné sur 1,1 trillion de tokens.
Participation Permissionless : Première démonstration réussie d'un entraînement à cette échelle avec une participation ouverte et non filtrée, validée par une blockchain.
Efficacité Communicationnelle : Démonstration que l'entraînement sur Internet est viable à grande échelle grâce à une communication ultra-rare et fortement compressée, atteignant une utilisation du calcul de ~94,5 %.
Open Source : Publication des checkpoints intermédiaires, finaux et post-entraînement sous licence Apache.

4. Résultats

Performance du Modèle de Base (Pre-training)

Comparaison : COVENANT-72B rivalise avec des modèles centralisés de taille similaire (comme LLaMA-2-70B et LLM360 K2) entraînés sur des infrastructures de datacenters, malgré un budget de tokens légèrement inférieur (1,1T vs 2T pour LLaMA-2).
Benchmarks :
- MMLU : 67,1 % (supérieur à LLaMA-2-70B à 65,6 % et K2 à 65,5 %).
- ARC-Challenge : 56,8 % (supérieur à K2 à 53,8 %).
- Supériorité sur les modèles décentralisés précédents : Surpasse largement les modèles plus petits et les approches précédentes (INTELLECT-1, Psyche Consilience).
Efficacité : Le temps d'attente (idle time) dû à la synchronisation est d'environ 70 secondes par tour, contre 8,3 minutes pour des approches antérieures comme DiLoCo sur INTELLECT-1.

Performance après Affinage (SFT - COVENANT-72B-Chat)

Un affinage supervisé (SFT) sur 14,8 milliards de tokens a été réalisé en deux étapes (contexte 4k puis 8k).
Le modèle chat obtient des résultats compétitifs avec LLaMA-2-70B-Chat et K2-Chat.
Points forts : Il obtient les meilleurs scores en IFEval (suivi d'instructions) et MATH (raisonnement mathématique) parmi les modèles comparés.

5. Signification et Impact

Ce travail marque un tournant majeur dans le développement des modèles de fondation (Foundation Models) :

Démocratisation Réelle : Il prouve qu'il n'est plus nécessaire d'appartenir à un grand laboratoire ou d'avoir un accès à des clusters centralisés pour entraîner des modèles de classe mondiale. L'infrastructure "commodité" (Internet standard) suffit.
Viabilité Économique : En permettant à des acteurs diversifiés de contribuer, le coût marginal de l'entraînement diminue, rendant la recherche plus accessible.
Robustesse Technique : La combinaison de SparseLoCo et Gauntlet démontre que les problèmes de bande passante et de confiance peuvent être résolus par des algorithmes d'optimisation avancés et des mécanismes cryptographiques, ouvrant la voie à une nouvelle ère de l'IA collaborative et décentralisée.

En conclusion, COVENANT-72B établit un nouveau standard de référence pour l'entraînement décentralisé, prouvant que la participation permissionless peut atteindre une qualité compétitive avec les approches centralisées traditionnelles.