DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superintelligente robot hebt die alles over de wereld weet. Deze robot is getraind op miljarden boeken en artikelen. Hij is geweldig in algemeen gesprek, maar als je hem wilt gebruiken voor een heel specifiek doel – bijvoorbeeld om wiskundige raadsels op te lossen of om veiliger te reageren op gevaarlijke vragen – moet je hem een beetje "opleiden" of fine-tunen.

De oude manier om dit te doen, heet Full Fine-Tuning. Dit is alsof je de hele robot uit elkaar haalt, elke schroef, elk circuit en elke draad opnieuw instelt om hem perfect te laten werken voor die ene taak. Het werkt goed, maar het is extreem duur, langzaam en vergt een enorm amount aan energie en geheugen. Alsof je een hele fabriek herbouwt om één nieuw product te maken.

Om dit op te lossen, hebben onderzoekers methoden bedacht om alleen een klein deel van de robot aan te passen. De bekendste hiervan is LoRA. LoRA werkt als een soort "tussenlaag" of een extra bril die je op de robot zet. Je traint alleen die bril, niet de robot zelf. Dit is veel sneller en goedkoper. Maar er is een probleem: het bouwen van die bril is ingewikkeld. Je moet twee losse stukken (matrixen) met elkaar vermenigvuldigen, en dat vereist heel precies rekenwerk en speciale instellingen om te voorkomen dat de robot in de war raakt of dat het proces vastloopt.

De Oplossing: DiaBlo (De "Diagonale Blokken")

In dit nieuwe paper introduceren de auteurs DiaBlo. Dit is een heel slim, maar simpel idee.

De Analogie: Het Kruiswoordraadsel
Stel je voor dat de hersenen van de robot een gigantisch kruiswoordraadsel zijn, een groot rooster van letters (de gewichten).

Full Fine-Tuning betekent dat je elke letter in dat hele rooster mag veranderen.
LoRA betekent dat je twee dunne stroken papier neemt en die over het rooster plakt om de letters te veranderen. Dat is lastig om precies te doen.
DiaBlo doet iets heel anders: je mag alleen de letters veranderen die op de diagonaal staan. Dat is de lijn van linksboven naar rechtsonder. Je verandert alleen die specifieke blokken, en laat de rest van het rooster precies zoals het was.

Waarom is dit zo slim?

Geen ingewikkelde wiskunde: Bij LoRA moet je twee dingen vermenigvuldigen (zoals twee puzzelstukken samenvoegen). Bij DiaBlo verander je gewoon de letters die je ziet. Je hoeft geen complexe formules te gebruiken. Het is alsof je in plaats van een ingewikkeld mechanisme te bouwen, gewoon de knoppen op het bedieningspaneel direct omdraait.
Stabiel en betrouwbaar: Omdat je geen complexe vermenigvuldigingen doet, gaat het trainen veel rustiger. De robot raakt niet in de war. Het is alsof je een auto rijdt: LoRA is als rijden met een ingewikkelde versnellingsbak die soms vastloopt; DiaBlo is als rijden met een automaat die gewoon soepel schakelt.
Net zo goed, maar sneller: De onderzoekers hebben getest of het veranderen van alleen die diagonale blokken genoeg is. Het antwoord is een volmondig JA. Of het nu gaat om logisch redeneren, wiskunde, het schrijven van computercode of het veilig houden van de robot, DiaBlo werkt net zo goed (soms zelfs beter) dan de oude methoden, maar gebruikt veel minder rekenkracht.

Wat zeggen de resultaten?

De auteurs hebben DiaBlo getest op verschillende modellen (zoals LLaMA) en verschillende taken:

Wiskunde: Het kon moeilijke wiskundeproblemen oplossen, zelfs als de robot in een heel compacte, "gekwantiseerde" vorm zat (waarbij de geheugenruimte zeer beperkt is).
Veiligheid: Het leerde de robot om gevaarlijke vragen beter af te wijzen.
Code: Het kon betere computercode schrijven.

In al deze gevallen deed DiaBlo het beter dan of net zo goed als de geavanceerde methoden, maar dan zonder de ingewikkelde instellingen die je bij LoRA nodig hebt.

De Conclusie

De boodschap van dit paper is simpel: Je hoeft niet het hele systeem te herbouwen, en je hoeft ook geen ingewikkelde tussenlagen te bouwen. Soms is het genoeg om alleen de "diagonale blokken" van de robot aan te passen.

Het is alsof je een oude, zware kast wilt verplaatsen. In plaats van hem helemaal uit elkaar te halen (Full Fine-Tuning) of een ingewikkeld hijsysteem te bouwen (LoRA), ontdek je dat je gewoon een paar specifieke wielen onder de kast kunt draaien (DiaBlo). De kast komt net zo makkelijk en veilig naar de nieuwe plek, maar dan met veel minder moeite en kosten.

DiaBlo maakt het dus makkelijker, sneller en goedkoper om slimme AI-modellen aan te passen aan onze specifieke behoeften, zonder dat we de complexiteit van de wiskunde hoeven te begrijpen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het aanpassen van grote taalmodellen (LLMs) aan specifieke domeinen vereist doorgaans "full fine-tuning", waarbij alle parameters worden bijgewerkt. Dit is echter computatiewerkelijk en geheugenintensief, wat het onpraktisch maakt voor veel toepassingen. Parameter-efficiënte fine-tuning (PEFT) methoden, zoals LoRA (Low-Rank Adaptation), zijn ontwikkeld om dit probleem op te lossen door slechts een klein subset van parameters bij te werken via het product van twee lage-rang matrices.

Echter, LoRA en zijn varianten hebben enkele belangrijke beperkingen:

Optimalisatieproblemen: De afhankelijkheid van het product van twee matrices ( $AB$ ) maakt de optimalisatie niet-convex en gevoelig voor instabiliteit.
Afhankelijkheid van initialisatie: Om convergentie te garanderen, zijn vaak complexe initialisatieschema's (zoals Pissa, MiLoRA) of aangepaste optimalisatiestrategieën nodig.
Expressiviteit: Onder bepaalde voorwaarden is LoRA minder expressief dan full fine-tuning, zelfs bij gelijke parameterbudgetten.

Methodologie: DiaBlo

De auteurs stellen DiaBlo voor, een eenvoudige maar effectieve PEFT-methode die alleen de diagonale blokken van de gewichtsmatrices van het model bijwerkt.

Kernidee: In plaats van een lage-rang decompositie ( $W + AB$ ) te gebruiken, wordt de gewichtsmatrix $W$ opgedeeld in blokken. Tijdens het fine-tunen worden alleen de diagonale blokken ( $W_{ii}$ ) trainbaar gemaakt, terwijl alle niet-diagonale blokken ( $W_{ij}$ waar $i \neq j$ ) bevroren blijven.
Implementatie:
- De aanpassing wordt gerealiseerd als een blok-diagonale matrix $D$ . De voorwaartse pass wordt berekend als $Y = X(W_0 + D)$ .
- In plaats van de volledige matrix $D$ te reconstrueren, wordt de berekening geoptimaliseerd als een batch van matrixvermenigvuldigingen: $(X_1 D_1, \dots, X_N D_N)$ . Dit maakt het zeer efficiënt op GPU's (implementeerbaar via torch.einsum).
- Initialisatie: In tegenstelling tot LoRA, dat vaak niet-nul initialisatie vereist, wordt DiaBlo initieel op nul gezet. Omdat er geen matrixproducten zijn, verdwijnen de gradiënten niet en is de training stabiel zonder speciale trucs.
Theoretische Onderbouwing:
- De auteurs bewijzen dat onder milde lage-rang aannames (die vaak gelden voor activaties en gradiënten in LLMs), DiaBlo convergeert naar een stationair punt van de volledige fine-tuning.
- In lineaire minste-kwadratenproblemen (LSQ) is DiaBlo strikt expressiever dan LoRA bij hetzelfde parameterbudget. Als de inputmatrix $X$ lage rang heeft, kan DiaBlo de optimale oplossing van de volledige fine-tuning bereiken met minder parameters dan LoRA nodig heeft.

Belangrijkste Bijdragen

Voldoendeheid van Diagonale Blokken: Het paper demonstreert dat het bijwerken van alleen diagonale blokken voldoende is voor sterke prestaties op diverse taken, vaak beter dan LoRA en zijn varianten.
Theoretische Garantie: Er worden wiskundige bewijzen geleverd die aantonen dat DiaBlo convergeert naar een stationair punt van full fine-tuning en superieur is aan LoRA in termen van expressiviteit onder lage-rang condities.
Eenvoudige Optimalisatie: DiaBlo elimineert de noodzaak voor complexe initialisatieschema's of aangepaste optimalisatoren, wat leidt tot stabielere en betrouwbaardere training.
Efficiëntie: Het behoudt de lage geheugenvoetafdruk en snelle trainingstijd van LoRA, maar met een eenvoudiger structuur die hardware-vriendelijk is.

Resultaten

DiaBlo werd geëvalueerd op een breed scala aan taken en modellen (LLaMA2-7B, LLaMA3-8B, Mistral-7B, LLaMA-13B) en presteerde consistent boven de bestaande PEFT-baselines:

Commonsense Reasoning: DiaBlo behaalde de hoogste gemiddelde scores op een reeks datasets (BoolQ, PIQA, etc.) voor LLaMA2-7B, LLaMA3-8B en LLaMA-13B, vaak met minder trainbare parameters dan concurrenten zoals DoRA, Pissa en SMT.
Aritmetisch Redeneren: Op de GSM8K en MATH datasets overtrof DiaBlo full fine-tuning en LoRA-varianten, zelfs met slechts 1-2% trainbare parameters.
Code Generatie & Veiligheid: Op HumanEval (code) en HEx-PHI (veiligheid/afwijzing van schadelijke prompts) behaalde DiaBlo state-of-the-art resultaten, vaak met een hogere "Pass@10" score dan LoRA en DoRA.
Gequantiseerde Modellen (Quantization): DiaBlo presteerde uitstekend op 4-bit en zelfs 2-bit gequantiseerde modellen (QLoRA, GPTQ, MagR). Het overtrof bestaande methoden voor gequantiseerde fine-tuning zonder dat er speciale initialisatie- of quantisatieprocedures nodig waren.
Efficiëntie: DiaBlo heeft dezelfde theoretische complexiteit als LoRA maar is praktischer sneller in training (bijv. 170 minuten per epoch vs. 480 minuten voor DoRA) en toont een lagere variantie in gradiëntnormen, wat wijst op stabielere convergentie.

Betekenis en Conclusie

DiaBlo biedt een fundamenteel nieuwe kijk op parameter-efficiënte fine-tuning. Het paper toont aan dat complexe lage-rang decomposities (zoals bij LoRA) niet noodzakelijk zijn voor succesvolle aanpassing van LLMs. Door simpelweg de diagonale blokken van de gewichten bij te werken, bereikt men:

Hogere stabiliteit door het vermijden van matrixproduct-gebaseerde optimalisatieproblemen.
Superieure prestaties op diverse taken, inclusief uitdagende scenario's zoals 2-bit quantisatie.
Implementatiegemak, omdat het naadloos integreert in standaard training pipelines zonder extra initialisatie-logic.

DiaBlo positioneert zich als een robuust, schaalbaar en praktisch alternatief voor bestaande PEFT-methoden, wat essentieel is naarmate AI-modellen groter en complexer worden. De code is open source beschikbaar, wat de reproduceerbaarheid en adoptie verder stimuleert.

DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

De Oplossing: DiaBlo (De "Diagonale Blokken")

Waarom is dit zo slim?

Wat zeggen de resultaten?

De Conclusie

Probleemstelling

Methodologie: DiaBlo

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification