ZorBA: Zeroth-order Federated Fine-tuning of LLMs with Heterogeneous Block Activation

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres entrenar a un genio artificial (un modelo de lenguaje grande, como los que escriben textos o hacen resúmenes) para que sea experto en un tema específico, como la medicina o el derecho.

El problema es que este "genio" es enorme. Es tan grande que ni siquiera cabe en la memoria de una sola computadora potente. Además, si intentas entrenarlo en una sola máquina, se agota la memoria de video (VRAM) y la computadora se bloquea.

Aquí es donde entra la Federated Learning (Aprendizaje Federado). En lugar de traer todos los datos a un solo lugar, enviamos el "genio" a muchas computadoras pequeñas (clientes) alrededor del mundo. Cada una aprende un poco con sus propios datos y luego envía sus "lecciones" de vuelta para mejorar al genio central.

Pero hay un nuevo problema: Las computadoras de los clientes son débiles y el "genio" es tan pesado que ni siquiera pueden abrirlo para estudiarlo sin explotar su memoria. Además, enviar las lecciones completas de vuelta consume muchísimo internet.

La Solución: ZorBA (El Chef Inteligente)

Los autores de este paper proponen ZorBA, una nueva forma de entrenar a estos genios. Para entenderlo, usemos una analogía de una gran cocina con muchos cocineros.

1. El Problema de la Memoria (VRAM)

Imagina que el "genio" es un libro de recetas de 10,000 páginas.

El método antiguo: Pedirle a cada cocinero que memorice todas las 10,000 páginas y luego escriba sus notas al margen. ¡Ningún cocinero tiene un cuaderno tan grande! Se les acaba el espacio (VRAM).
El problema de los métodos actuales: Algunos métodos dicen: "No escribas notas, solo lee el libro". Pero para leerlo sin escribir, el cocinero aún necesita tener el libro abierto en su mesa, ocupando mucho espacio.

2. La Magia de ZorBA: "Zeroth-Order" (El Método de Prueba y Error)

ZorBA usa una técnica llamada optimización de orden cero.

La analogía: En lugar de analizar por qué una receta salió mal (lo cual requiere mucha memoria para guardar los cálculos), ZorBA le dice al cocinero: "Prueba la receta con un poco más de sal. ¿Sabe mejor? ¿Peor?".
El cocinero solo necesita probar (hacer un "paso hacia adelante") y comparar el resultado. No necesita guardar los cálculos complejos de por qué funcionó. Esto ahorra muchísima memoria. Es como cocinar a ciegas probando sabores en lugar de hacer química avanzada.

3. La Activación de Bloques Heterogénea (El Equipo Especializado)

Aquí está la parte más brillante. El libro de recetas tiene 100 capítulos (bloques).

El problema: Si todos los cocineros intentan leer los 100 capítulos, se ahogan.
La solución de ZorBA: El jefe de cocina (el servidor central) asigna diferentes capítulos a diferentes cocineros según el tamaño de su mesa (memoria).
- El cocinero con la mesa pequeña solo lee los capítulos 1 al 10.
- El cocinero con la mesa grande lee del 1 al 50.
- Otro lee solo del 80 al 100.
Heterogéneo: No todos hacen lo mismo. Cada uno trabaja en lo que puede manejar.
El truco: Aunque cada uno lee partes diferentes, al final, el jefe de cocina junta todas las partes y el libro completo mejora. Esto asegura que nadie se quede sin espacio en su mesa.

4. Ahorrando Internet (Semillas Compartidas)

Normalmente, para que los cocineros hagan la prueba de "más sal", necesitan recibir una lista de instrucciones aleatorias del jefe. Enviar esa lista a 50 cocineros consume mucho internet.

La solución de ZorBA: El jefe de cocina y todos los cocineros tienen el mismo dado mágico (una "semilla aleatoria" compartida).
Si el jefe dice "Lanza el dado", todos lanzan el mismo dado y obtienen el mismo número. No necesitan enviar la lista de números por internet. Solo envían el resultado de la prueba (si la sal estaba bien o mal). Esto reduce el tráfico de internet casi a cero.

¿Por qué es importante?

El paper demuestra matemáticamente y con experimentos que ZorBA es el ganador en tres frentes:

Ahorro de Memoria: Reduce el uso de memoria de video en hasta un 62% comparado con otros métodos. ¡Significa que puedes entrenar genios en computadoras que antes no podían hacerlo!
Velocidad: Al asignar los capítulos (bloques) de forma inteligente, el sistema converge (aprende) más rápido que si todos intentaran hacer lo mismo o si solo usaran el método de prueba y error sin organización.
Comunicación: Al usar las "semillas compartidas", el tráfico de internet se vuelve insignificante.

En resumen

ZorBA es como un director de orquesta que sabe que sus músicos tienen instrumentos de diferentes tamaños. En lugar de pedirles que toquen toda la sinfonía (lo cual es imposible para los instrumentos pequeños), les asigna secciones específicas que pueden tocar perfectamente. Además, les da un metrónomo compartido para que no tengan que gritarse las instrucciones, ahorrando energía y tiempo.

El resultado: Una orquesta completa (el modelo de IA) que suena mejor, se entrena más rápido y no requiere que cada músico tenga un estadio entero para tocar.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: ZorBA

1. Planteamiento del Problema

El ajuste fino (fine-tuning) de Modelos de Lenguaje Grande (LLMs) en un entorno de Aprendizaje Federado (FL) enfrenta dos desafíos críticos cuando se aplican métodos convencionales de retropropagación (backpropagation):

Uso excesivo de VRAM: Los LLMs tienen miles de millones de parámetros. El almacenamiento de gradientes y activaciones durante el entrenamiento requiere una memoria de video (VRAM) que a menudo excede la capacidad de los dispositivos de los clientes con recursos limitados.
Sobrecarga de Comunicación: La frecuencia de intercambio de modelos o gradientes de alta dimensión entre clientes y el servidor central genera un ancho de banda prohibitivo.

Aunque la optimización de orden cero (zeroth-order) elimina la necesidad de almacenar gradientes (usando solo pasos hacia adelante), las implementaciones existentes tienen limitaciones:

Convergencia lenta en espacios de parámetros de alta dimensión debido a la varianza introducida por los vectores de perturbación.
Aún requieren almacenar activaciones de todos los bloques del transformador, manteniendo alto el uso de VRAM.
No optimizan qué bloques actualizar en cada cliente, desperdiciando recursos.

2. Metodología Propuesta: ZorBA

El authors proponen ZorBA, un marco de ajuste fino federado basado en optimización de orden cero con activación heterogénea de bloques. Los componentes clave son:

Optimización de Orden Cero (Zeroth-Order):
- Elimina la necesidad de calcular y almacenar gradientes mediante retropropagación.
- Estima los gradientes utilizando diferencias finitas de los valores de la función de pérdida generados por vectores de perturbación aleatorios.
- Solo requiere pasos hacia adelante (forward passes), reduciendo drásticamente el uso de VRAM.
Activación Heterogénea de Bloques:
- En lugar de actualizar todos los bloques del modelo en todos los clientes, el servidor central asigna subconjuntos diferentes de bloques de transformadores a cada cliente.
- Esto permite adaptar la carga de trabajo a la capacidad de VRAM de cada dispositivo y optimizar la convergencia global.
- Se define una matriz de decisión binaria $A$ donde $a_{m,n}=1$ si el bloque $m$ está activado para el cliente $n$ .
Semillas Aleatorias Compartidas (Shared Random Seeds):
- Para reducir la sobrecarga de comunicación, el servidor y los clientes comparten un conjunto de semillas aleatorias.
- Esto permite que todos los participantes generen los mismos vectores de perturbación de forma independiente, evitando el envío de vectores de alta dimensión.
- Solo se transmiten las diferencias finitas de los gradientes estimados, no los gradientes completos ni los parámetros del modelo.
Modelo de Uso de VRAM:
- El uso de memoria se modela como la suma de los parámetros del modelo y las activaciones de los pasos hacia adelante.
- Las activaciones de los bloques no utilizados se omiten, reduciendo linealmente el consumo de memoria según el número de bloques activados.

3. Contribuciones Clave

Marco ZorBA: Integración de optimización de orden cero con una estrategia de selección de bloques heterogénea para LLMs en FL.
Análisis Teórico de Convergencia:
- Se deriva un límite de convergencia para entornos no convexos.
- Se introduce un término de sesgo ( $\Lambda(A)$ ) que depende de la matriz de activación de bloques.
- Se demuestra teóricamente que minimizar $\Lambda(A)$ (relacionado con la "popularidad" mínima de los bloques activados entre los clientes) acelera la convergencia.
- Se presenta un límite de convergencia libre de dimensión (dimension-free) bajo ciertas condiciones de rango efectivo del Hessiano.
Algoritmo de Optimización:
- Se formula un problema de optimización multiobjetivo para minimizar simultáneamente $\Lambda(A)$ (convergencia) y el uso total de VRAM.
- Se propone un algoritmo lexicográfico de restricción $\epsilon$ para resolver este problema NP-difícil. El algoritmo se divide en dos subproblemas:
  1. Maximizar la popularidad mínima de los bloques (para mejorar la convergencia).
  2. Ajustar la activación de bloques adicionales bajo restricciones de VRAM para minimizar el número de clientes en el límite inferior de popularidad.
Validación Experimental:
- Comparación con baselines como FedIT, FedZO y DeComFL en modelos OPT-125M y OPT-1.3B.

4. Resultados Experimentales

Los experimentos se realizaron en conjuntos de datos de clasificación de texto (AG-News, SST-2, SNLI) con 50 clientes.

Eficiencia de VRAM: ZorBA reduce el uso total de VRAM en los clientes hasta en un 62.41% en comparación con los métodos de estado del arte (FedIT, FedZO, DeComFL), permitiendo el ajuste fino en dispositivos con recursos limitados.
Sobrecarga de Comunicación: ZorBA incurre en una sobrecarga de comunicación insignificante en comparación con FedIT y FedZO, y comparable a DeComFL, gracias al uso de semillas compartidas y la transmisión de diferencias finitas.
Velocidad de Convergencia:
- ZorBA converge más rápido que FedZO y DeComFL en la mayoría de los casos.
- En el conjunto de datos AG-News con OPT-125M, ZorBA requiere 138 rondas frente a 155 de FedZO y 181 de DeComFL.
- La optimización de la matriz de activación de bloques demuestra ser crucial para acelerar la convergencia sin sacrificar la eficiencia de memoria.

5. Significado e Impacto

El trabajo de ZorBA es significativo porque:

Habilita el FL en LLMs en el Edge: Resuelve el cuello de botella de la VRAM, permitiendo que dispositivos con hardware limitado participen en el ajuste fino de modelos masivos.
Equilibra Compromisos (Trade-offs): Proporciona una metodología teórica y práctica para equilibrar la velocidad de convergencia y el consumo de recursos, demostrando que no es necesario activar todos los bloques en todos los clientes para obtener buenos resultados.
Reduce la Barrera de Comunicación: Al eliminar el intercambio de gradientes de alta dimensión y parámetros, hace viable la implementación de FL para LLMs en redes con ancho de banda limitado.
Avance Teórico: Ofrece nuevos límites de convergencia para la optimización de orden cero en entornos federados heterogéneos, destacando la importancia de la distribución de la "popularidad" de los bloques activados.

En conclusión, ZorBA representa un avance fundamental hacia la viabilidad práctica del ajuste fino federado de LLMs, superando las limitaciones de memoria y comunicación mediante una combinación inteligente de optimización de orden cero y asignación dinámica de recursos.