Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

El informe presenta Covenant-72B, un modelo de lenguaje de 72 mil millones de parámetros pre-entrenado de manera competitiva a través de la mayor colaboración distribuida globalmente hasta la fecha, logrando una participación abierta y sin permisos mediante un protocolo blockchain y el optimizador SparseLoCo.

Joel Lidin, Amir Sarfi, Erfan Miahi, Quentin Anthony, Shivam Chauhan, Evangelos Pappas, Benjamin Thérien, Eugene Belilovsky, Samuel Dare

Publicado Tue, 10 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres construir el cerebro digital más grande y sabio del mundo (un modelo de Inteligencia Artificial), pero en lugar de tener un presupuesto infinito para comprar miles de superordenadores en un solo edificio, decides pedir ayuda a todo el mundo.

Así es como funciona el proyecto Covenant-72B. Aquí te lo explico con una historia sencilla:

1. El Problema: Construir un rascacielos con una sola grúa

Normalmente, para entrenar estas inteligencias artificiales, las grandes empresas construyen "fábricas de cerebros" (centros de datos) con miles de tarjetas gráficas conectadas por cables ultra rápidos y caros. Es como intentar construir un rascacielos usando una sola grúa gigante: es rápido, pero cuesta una fortuna y solo unas pocas empresas pueden permitírselo.

2. La Solución: Un equipo de construcción global

Los autores de este paper dicen: "¿Y si en lugar de una grúa gigante, usamos 20 grúas pequeñas repartidas por todo el planeta?".

  • La idea: Conectar ordenadores de personas normales (con sus propias tarjetas gráficas potentes) a través de internet normal (como el que usas para ver videos).
  • El desafío: Internet es lento y caótico. Si intentas que todos trabajen al mismo tiempo y se comuniquen en cada paso, el proyecto se frenaría por el tráfico. Además, ¿cómo confías en que alguien no esté haciendo trampa o robando el trabajo?

3. Las Herramientas Mágicas

Para que esto funcione, usaron dos "superpoderes":

A. El Mensajero Eficiente (SparseLoCo)

Imagina que tienes que enviar un libro de 1,000 páginas a un amigo cada hora para que lo revise. Enviar el libro entero es lento y caro.

  • Lo que hacen: En lugar de enviar el libro entero, solo envían las 50 páginas más importantes que cambiaron en esa hora.
  • La magia: Usan un sistema llamado SparseLoCo que comprime la información un 146 veces. Es como enviar un resumen de un libro en lugar del libro completo. Además, si alguien se desconecta o llega tarde, el sistema sigue funcionando sin problemas, como un equipo de fútbol donde, si un jugador se lesiona, los demás cubren su puesto inmediatamente.

B. El Árbitro Justo (Gauntlet y Blockchain)

En un equipo tan grande y abierto, ¿cómo sabes que alguien no está enviando respuestas falsas para ganar dinero o fama?

  • La solución: Usaron una cadena de bloques (blockchain) como un árbitro digital incorruptible.
  • Cómo funciona: Cada vez que alguien envía su "resumen de páginas" (los datos de aprendizaje), el árbitro lo revisa rápidamente. Si el trabajo es bueno, el participante gana puntos (recompensas). Si intenta hacer trampa o enviar basura, el árbitro lo descarta. Esto crea un sistema donde cualquiera puede participar, pero solo los honestos y eficientes ayudan a construir el modelo.

4. El Resultado: Un gigante hecho por todos

Lograron entrenar un modelo con 72 mil millones de "neuronas" (parámetros) usando internet normal.

  • La prueba: Lo compararon con modelos entrenados en fábricas gigantes y caras (como los de Meta o LLM360).
  • El veredicto: ¡Funcionó! El modelo "Covenant-72B" es tan inteligente como los entrenados en centros de datos costosos, a pesar de haber sido entrenado por una comunidad global de desconocidos.

5. ¿Qué aprendió el modelo?

Después de entrenarlo, le dieron un "curso intensivo" (ajuste fino) para que pudiera chatear, hacer matemáticas, escribir código y contar historias.

  • Ejemplo: Si le preguntas por qué el cielo es azul, te explica la física de la luz. Si le pides un plan de mudanza, te da una lista paso a paso. Si le pides un cuento de hadas sobre un reloj que no quiere dar la hora, te escribe una historia creativa.

En resumen

Este paper demuestra que no necesitas ser un gigante tecnológico para crear una inteligencia artificial gigante. Con las herramientas correctas (compresión inteligente y un sistema de confianza digital), podemos democratizar la creación de cerebros artificiales, permitiendo que cualquiera con un buen ordenador y conexión a internet contribuya al futuro de la IA.

Es como si, en lugar de que una sola persona escriba la Gran Enciclopedia Universal, miles de personas alrededor del mundo pudieran escribir una página cada una, y un sistema inteligente las uniera todas sin errores, creando algo más grande que cualquiera podría haber imaginado solo.