Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres construir el cerebro digital más grande y sabio del mundo (un modelo de Inteligencia Artificial), pero en lugar de tener un presupuesto infinito para comprar miles de superordenadores en un solo edificio, decides pedir ayuda a todo el mundo.

Así es como funciona el proyecto Covenant-72B. Aquí te lo explico con una historia sencilla:

1. El Problema: Construir un rascacielos con una sola grúa

Normalmente, para entrenar estas inteligencias artificiales, las grandes empresas construyen "fábricas de cerebros" (centros de datos) con miles de tarjetas gráficas conectadas por cables ultra rápidos y caros. Es como intentar construir un rascacielos usando una sola grúa gigante: es rápido, pero cuesta una fortuna y solo unas pocas empresas pueden permitírselo.

2. La Solución: Un equipo de construcción global

Los autores de este paper dicen: "¿Y si en lugar de una grúa gigante, usamos 20 grúas pequeñas repartidas por todo el planeta?".

La idea: Conectar ordenadores de personas normales (con sus propias tarjetas gráficas potentes) a través de internet normal (como el que usas para ver videos).
El desafío: Internet es lento y caótico. Si intentas que todos trabajen al mismo tiempo y se comuniquen en cada paso, el proyecto se frenaría por el tráfico. Además, ¿cómo confías en que alguien no esté haciendo trampa o robando el trabajo?

3. Las Herramientas Mágicas

Para que esto funcione, usaron dos "superpoderes":

A. El Mensajero Eficiente (SparseLoCo)

Imagina que tienes que enviar un libro de 1,000 páginas a un amigo cada hora para que lo revise. Enviar el libro entero es lento y caro.

Lo que hacen: En lugar de enviar el libro entero, solo envían las 50 páginas más importantes que cambiaron en esa hora.
La magia: Usan un sistema llamado SparseLoCo que comprime la información un 146 veces. Es como enviar un resumen de un libro en lugar del libro completo. Además, si alguien se desconecta o llega tarde, el sistema sigue funcionando sin problemas, como un equipo de fútbol donde, si un jugador se lesiona, los demás cubren su puesto inmediatamente.

B. El Árbitro Justo (Gauntlet y Blockchain)

En un equipo tan grande y abierto, ¿cómo sabes que alguien no está enviando respuestas falsas para ganar dinero o fama?

La solución: Usaron una cadena de bloques (blockchain) como un árbitro digital incorruptible.
Cómo funciona: Cada vez que alguien envía su "resumen de páginas" (los datos de aprendizaje), el árbitro lo revisa rápidamente. Si el trabajo es bueno, el participante gana puntos (recompensas). Si intenta hacer trampa o enviar basura, el árbitro lo descarta. Esto crea un sistema donde cualquiera puede participar, pero solo los honestos y eficientes ayudan a construir el modelo.

4. El Resultado: Un gigante hecho por todos

Lograron entrenar un modelo con 72 mil millones de "neuronas" (parámetros) usando internet normal.

La prueba: Lo compararon con modelos entrenados en fábricas gigantes y caras (como los de Meta o LLM360).
El veredicto: ¡Funcionó! El modelo "Covenant-72B" es tan inteligente como los entrenados en centros de datos costosos, a pesar de haber sido entrenado por una comunidad global de desconocidos.

5. ¿Qué aprendió el modelo?

Después de entrenarlo, le dieron un "curso intensivo" (ajuste fino) para que pudiera chatear, hacer matemáticas, escribir código y contar historias.

Ejemplo: Si le preguntas por qué el cielo es azul, te explica la física de la luz. Si le pides un plan de mudanza, te da una lista paso a paso. Si le pides un cuento de hadas sobre un reloj que no quiere dar la hora, te escribe una historia creativa.

En resumen

Este paper demuestra que no necesitas ser un gigante tecnológico para crear una inteligencia artificial gigante. Con las herramientas correctas (compresión inteligente y un sistema de confianza digital), podemos democratizar la creación de cerebros artificiales, permitiendo que cualquiera con un buen ordenador y conexión a internet contribuya al futuro de la IA.

Es como si, en lugar de que una sola persona escriba la Gran Enciclopedia Universal, miles de personas alrededor del mundo pudieran escribir una página cada una, y un sistema inteligente las uniera todas sin errores, creando algo más grande que cualquiera podría haber imaginado solo.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet", estructurado según los puntos solicitados:

1. El Problema

El entrenamiento de Grandes Modelos de Lenguaje (LLM) de vanguardia ha estado dominado por organizaciones con acceso a infraestructuras centralizadas masivas (miles de aceleradores conectados por interconexiones de alta velocidad y baja latencia). Esto crea barreras de entrada económicas y técnicas que impiden la democratización del desarrollo de modelos fundacionales.

Aunque el entrenamiento distribuido globalmente promete reducir costos y permitir la participación de recursos computacionales dispersos, los esfuerzos anteriores han enfrentado dos limitaciones principales:

Escala reducida: Los modelos entrenados de manera distribuida han sido relativamente pequeños.
Participación restringida: La mayoría de los proyectos han requerido participantes "blanqueados" (whitelisted) y de confianza, lo que no logra una democratización real.

El desafío técnico radica en lograr un entrenamiento eficiente en un entorno de internet comercial (con ancho de banda limitado, alta latencia y participantes dinámicos que pueden unirse o salir libremente) sin sacrificar la calidad del modelo final.

2. Metodología

El proyecto COVENANT-72B aborda estos desafíos combinando una arquitectura de optimización eficiente en comunicación con un mecanismo de incentivos basado en blockchain.

A. Optimizador SparseLoCo

Se utilizó SparseLoCo, un optimizador distribuido de actualizaciones locales diseñado para minimizar la comunicación:

Mecanismo: En cada ronda, cada nodo (peer) ejecuta $H$ pasos de un optimizador interno (AdamW) sobre sus datos locales.
Compresión Agresiva: En lugar de enviar gradientes completos, los nodos calculan "pseudo-gradiantes" ( $\Delta$ $Δ$ ) y los comprimen mediante:
- Esparsificación Top-k: Se seleccionan solo los $k$ elementos más grandes dentro de bloques (chunks) de 4096 elementos.
- Cuantización de 2 bits: Los valores seleccionados se cuantizan a 2 bits.
- Retroalimentación de Error (Error-Feedback): Se mantiene un búfer local que acumula la información no transmitida en rondas anteriores, permitiendo una esparsificación agresiva sin pérdida de información a largo plazo.
Resultado: Esto logra una relación de compresión superior a 146x en comparación con la comunicación de gradientes densos.

B. Mecanismo de Incentivos "Gauntlet"

Para permitir la participación sin permiso (permissionless) y sin confianza (trustless), se integró Gauntlet sobre la blockchain Bittensor (Subnet 3):

Validación: Un validador escoge qué pseudo-gradiantes se agregan a la ronda global.
Puntaje (LossScore): Se evalúa la contribución de cada peer calculando la diferencia de pérdida (loss) en pequeños lotes de datos antes y después de aplicar su actualización.
Detección de Malas Prácticas: Se verifica que los peers estén entrenando en sus datos asignados (comparando la mejora de pérdida en datos asignados vs. datos aleatorios) para evitar copias o comportamientos duplicados.
Robustez: Se normalizan los gradientes para evitar que un solo participante con actualizaciones de magnitud anormalmente grande domine la agregación.

C. Diseño del Sistema

Hardware: Cada peer opera con al menos 8 GPUs NVIDIA B200.
Paralelismo: Uso de FSDP (Fully Sharded Data Parallel) dinámico dentro de cada peer para dividir parámetros, gradientes y estados del optimizador entre las GPUs locales.
Comunicación: Se utiliza almacenamiento de objetos (Cloudflare R2) como columna vertebral de comunicación. Los peers suben sus pseudo-gradiantes comprimidos a R2, y el validador selecciona los mejores, que luego son descargados por todos los demás para la agregación. Esto evita la necesidad de conexiones directas peer-to-peer (P2P) complejas.

3. Contribuciones Clave

Escala sin precedentes: COVENANT-72B es el entrenamiento pre-entrenado colaborativo descentralizado más grande realizado hasta la fecha (72B parámetros, ~1.1T tokens).
Participación sin permiso: Es uno de los primeros modelos de gran escala entrenado en una red de computación sin confianza, donde cualquier persona puede unirse sin ser aprobada previamente.
Eficiencia en Comunicación: Demuestra que es posible entrenar modelos masivos sobre internet comercial utilizando optimizadores como SparseLoCo, logrando una utilización de cómputo del ~94.5% a pesar de las restricciones de ancho de banda.
Rendimiento Competitivo: El modelo final compite favorablemente con modelos centralizados de tamaño similar o incluso mayores, desafiando la noción de que el entrenamiento descentralizado debe ser de menor calidad.

4. Resultados

El modelo fue pre-entrenado con 1.1 billones de tokens y posteriormente sometido a un ajuste fino supervisado (SFT) de ~14.8B tokens.

Benchmarks Zero-Shot (Pre-entrenamiento):
- En tareas como ARC-Challenge, MMLU y ARC-Easy, COVENANT-72B superó o igualó a modelos centralizados de referencia como LLaMA-2-70B (entrenado con 2T de tokens) y LLM360 K2 (65B parámetros).
- Superó significativamente a otros enfoques descentralizados anteriores (como INTELLECT-1 de 10B y Psyche Consilience de 40B).
- Logró una precisión de 67.1% en MMLU y 56.8% en ARC-Challenge, demostrando capacidades de razonamiento robustas.
Modelo de Chat (Covenant-72B-Chat):
- Tras el SFT, el modelo mostró un rendimiento competitivo en instrucciones, matemáticas y codificación.
- Destacó especialmente en IFEval (seguimiento de instrucciones) y MATH, obteniendo las puntuaciones más altas entre los modelos comparados en estas categorías.
Eficiencia Operativa:
- Tiempo de comunicación por ronda: ~70 segundos (frente a ~8.3 minutos en sistemas anteriores como INTELLECT-1).
- Utilización de cómputo: ~94.5%.
- Dinámica de participantes: El sistema mantuvo un promedio de 16.9 peers contribuyentes activos con un máximo de 20, a pesar de la naturaleza dinámica de la red.

5. Significado e Impacto

El éxito de COVENANT-72B es un hito fundamental para el futuro de la IA:

Democratización Real: Demuestra que no es necesario un centro de datos centralizado costoso para entrenar modelos de clase mundial. La participación abierta y sin permiso es viable a gran escala.
Reducción de Barreras: Abre la puerta a que actores diversos (desde individuos hasta pequeñas empresas) contribuyan a la infraestructura de IA global, reduciendo la dependencia de las grandes corporaciones tecnológicas.
Viabilidad Técnica: Valida que las técnicas de compresión de comunicación (SparseLoCo) y los mecanismos de incentivos criptoeconómicos (Gauntlet) pueden resolver los problemas de latencia, ancho de banda y seguridad en redes distribuidas heterogéneas.
Futuro: Sugiere un camino práctico hacia un ecosistema de modelos fundacionales donde la colaboración global y abierta es el mecanismo predeterminado para escalar la inteligencia artificial, en lugar del acceso exclusivo a infraestructura cerrada.

El equipo ha liberado los checkpoints intermedios, finales y post-entrenamiento bajo licencia Apache, fomentando la reproducibilidad y el desarrollo futuro en este paradigma.