DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un gigante (una Inteligencia Artificial muy avanzada) que sabe todo sobre el mundo, pero no sabe hacer tareas específicas, como resolver problemas matemáticos o escribir código de programación. Para enseñarle esas habilidades, necesitamos "ajustarlo" o "entrenarlo" de nuevo.

Aquí te explico la idea del papel DiaBlo usando una analogía sencilla:

1. El Problema: El Gigante es demasiado grande

Imagina que el modelo de IA es un gigante con 100 millones de músculos (parámetros).

Ajuste completo (Full Fine-Tuning): Para enseñarle algo nuevo, intentas entrenar todos sus músculos a la vez. Es como intentar hacer flexiones con los 100 millones de músculos simultáneamente. ¡Es agotador, cuesta una fortuna en electricidad y requiere una computadora enorme!
Métodos actuales (LoRA): Para ahorrar energía, los científicos dicen: "No entrenemos todo. Entrenemos solo un pequeño grupo de músculos". Pero el método actual (LoRA) es como intentar entrenar esos músculos usando dos palos conectados que deben moverse perfectamente sincronizados. A veces se desincronizan, se rompen o necesitan trucos especiales para empezar a moverse bien.

2. La Solución: DiaBlo (Bloques Diagonales)

Los autores de este paper proponen DiaBlo. Su idea es muy simple y elegante:

Imagina que los músculos del gigante están organizados en una cuadrícula gigante (como un tablero de ajedrez o una hoja de cálculo).

Lo que hace DiaBlo: En lugar de entrenar todo el tablero, o de usar esos trucos complicados con palos, DiaBlo dice: "Entrenemos solo los cuadros que están en la línea diagonal" (de la esquina superior izquierda a la inferior derecha).
La analogía de la cuadrícula: Imagina que tienes una hoja de cálculo con miles de celdas. La mayoría están vacías o no necesitan cambios. DiaBlo solo toca las celdas que forman una línea diagonal.
- No necesita "palos conectados" (matrices de bajo rango).
- No necesita trucos de inicio complicados.
- Simplemente toca esas celdas específicas y las ajusta.

3. ¿Por qué es mejor? (La Magia)

El paper demuestra que, sorprendentemente, solo ajustar esa línea diagonal es suficiente para que el gigante aprenda perfectamente.

Estabilidad: Como no hay que coordinar dos palos separados, el entrenamiento es mucho más estable. Es como caminar por una línea recta en lugar de intentar mantener el equilibrio sobre dos tablas que se mueven solas.
Velocidad y Memoria: Al ser tan simple (solo tocar cuadros específicos), es tan rápido y consume tanta poca memoria como los métodos actuales, pero sin los dolores de cabeza.
Funciona incluso con modelos "viejos" o pequeños: El paper probó que incluso si usas una versión del gigante que ha sido comprimida (cuantizada) para ocupar menos espacio (como un archivo ZIP), DiaBlo sigue funcionando mejor que los demás.

4. El Resultado Final

En resumen, DiaBlo es como encontrar el atajo perfecto.

Antes, pensábamos que para aprender una tarea nueva necesitábamos mover muchos músculos o usar herramientas complejas.
DiaBlo nos dice: "No, solo necesitas mover los músculos que están en la línea diagonal".
Resultado: El gigante aprende igual de bien (o incluso mejor), pero con menos esfuerzo, menos dinero y menos tiempo.

En una frase: DiaBlo es la forma inteligente de "afinar" una Inteligencia Artificial gigante sin tener que reescribir todo su manual de instrucciones, simplemente ajustando los puntos clave que están en la diagonal de su cerebro.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "DiaBlo: Diagonal Blocks Are Sufficient for Finetuning", presentado en ICLR 2026.

1. El Problema

El ajuste fino (fine-tuning) completo de Modelos de Lenguaje Grande (LLMs) es computacionalmente costoso y requiere mucha memoria, lo que lo hace inviable en dispositivos con recursos limitados. Para abordar esto, se han desarrollado métodos de Ajuste Fino Eficiente en Parámetros (PEFT), siendo LoRA (Low-Rank Adaptation) el más popular.

Sin embargo, los métodos basados en LoRA y sus variantes presentan limitaciones:

Inestabilidad en la convergencia: La descomposición en producto de matrices de bajo rango ( $AB$ ) puede generar flujos de gradiente inestables.
Dependencia de inicialización: Requieren esquemas de inicialización complejos (como Pissa, MiLoRA) o estrategias de optimización personalizadas para funcionar bien.
Complejidad algorítmica: Las extensiones para mejorar LoRA añaden complejidad a la implementación y al entrenamiento.
Métodos de dispersión (Sparsity): Los enfoques basados en esparsidad no estructurada (máscaras aleatorias) aumentan la complejidad temporal y son difíciles de optimizar en hardware moderno.

2. Metodología: DiaBlo

Los autores proponen DiaBlo, un marco PEFT simple pero efectivo que actualiza únicamente los bloques diagonales de las matrices de peso del modelo, evitando por completo la factorización de bajo rango.

Mecanismo de Funcionamiento:
- Considerando una capa lineal $Y = XW$ , la matriz de pesos $W$ se reescribe como una matriz de bloques.
- Durante el ajuste fino, solo los bloques diagonales ( $W_{11}, W_{22}, \dots, W_{NN}$ ) son entrenables, mientras que todos los bloques fuera de la diagonal se congelan.
- Se introduce una matriz de adaptación $D$ que es estrictamente diagonal por bloques. La actualización se realiza como $Y = X(W_0 + D)$ .
Implementación Eficiente:
- No requiere reconstruir la matriz completa $D$ . La operación $XD$ se calcula mediante multiplicaciones de matrices por lotes (batched matrix multiplications) usando operaciones como torch.einsum en PyTorch.
- Esto mantiene la eficiencia computacional y de memoria comparable a LoRA.
Inicialización:
- A diferencia de LoRA, que requiere inicializaciones cuidadosas (ej. $A$ con distribución de Kaiming y $B$ en cero), DiaBlo se inicializa simplemente como un tensor de ceros. Esto elimina problemas de gradientes que se desvanecen o actualizaciones de parámetros entrelazadas.

3. Contribuciones Clave y Garantías Teóricas

El artículo ofrece tanto fundamentos teóricos como empíricos sólidos:

Suficiencia de los Bloques Diagonales: Demuestran que actualizar solo los bloques diagonales es suficiente para lograr un rendimiento de ajuste fino comparable o superior al ajuste completo y a LoRA.
Garantías Teóricas:
- Caso Lineal (Mínimos Cuadrados): Bajo suposiciones de bajo rango en la matriz de entrada $X$ , se demuestra que cualquier minimizador del problema de DiaBlo es también un minimizador del ajuste fino completo. Además, DiaBlo es estrictamente más expresivo que LoRA bajo el mismo presupuesto de parámetros.
- Caso No Lineal: Se prueba que, si las matrices de activación y los gradientes de salida exhiben propiedades de bajo rango (comúnmente observado en la práctica), DiaBlo converge a un punto estacionario del objetivo de ajuste fino completo.
Estabilidad de Optimización: Al evitar el producto de matrices, DiaBlo elimina las dificultades inherentes de optimización de la descomposición de bajo rango, resultando en una convergencia más estable y robusta sin necesidad de "trucos" especiales.

4. Resultados Experimentales

Los autores evaluaron DiaBlo en una amplia gama de tareas y modelos (LLaMA2-7B, LLaMA3-8B, Mistral-7B) utilizando datasets de razonamiento, generación de código y alineación de seguridad.

Razonamiento de Sentido Común y Aritmético:
- DiaBlo superó consistentemente a LoRA, DoRA, Pissa, MiLoRA y SMT en tareas de razonamiento.
- En LLaMA2-7B, alcanzó un promedio del 83.5% de precisión (superando a LoRA y DoRA) usando solo el 0.52% de parámetros entrenables.
- En razonamiento aritmético (GSM8K/MATH), superó al ajuste fino completo (43.4% vs 43.2%) y a todas las variantes de LoRA.
Generación de Código y Alineación de Seguridad:
- En HumanEval (generación de código) y HEx-PHI (seguridad), DiaBlo logró los mejores resultados en Pass@1 y tasas de rechazo de prompts dañinos, superando a LoRA y LoRI.
Modelos Cuantizados (4-bit y 2-bit):
- DiaBlo demostró una robustez superior en modelos cuantizados. En configuraciones de 2-bit, donde otros métodos colapsan, DiaBlo mantuvo un rendimiento alto (ej. 48.7% en promedio en 2-bit para LLaMA2-7B), superando significativamente a QLoRA y otras adaptaciones cuantizadas.
Eficiencia:
- DiaBlo tiene la misma complejidad computacional teórica y huella de memoria que LoRA cuando se configuran con el mismo número de parámetros.
- En la práctica, el tiempo de entrenamiento por época es comparable a LoRA (170 min), mientras que métodos como DoRA son mucho más lentos (480 min).

5. Significado e Impacto

DiaBlo representa un cambio de paradigma en el PEFT al demostrar que la estructura de bajo rango no es necesaria para un ajuste fino eficiente.

Simplicidad: Elimina la necesidad de inicializaciones complejas y optimizadores personalizados, integrándose fácilmente en pipelines de entrenamiento estándar.
Robustez: Su rendimiento superior en entornos de baja precisión (2-bit/4-bit) lo hace ideal para el despliegue de LLMs en hardware con recursos limitados.
Eficiencia: Ofrece un equilibrio óptimo entre precisión, eficiencia de memoria y velocidad de entrenamiento, superando a los métodos de estado del arte actuales sin sacrificar la estabilidad del entrenamiento.

En conclusión, DiaBlo establece que actualizar selectivamente los bloques diagonales de las matrices de peso es una alternativa poderosa, práctica y teóricamente fundamentada para el ajuste fino de grandes modelos de lenguaje.

DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

1. El Problema: El Gigante es demasiado grande

2. La Solución: DiaBlo (Bloques Diagonales)

3. ¿Por qué es mejor? (La Magia)

4. El Resultado Final

1. El Problema

2. Metodología: DiaBlo

3. Contribuciones Clave y Garantías Teóricas

4. Resultados Experimentales

5. Significado e Impacto

Más como este

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA