DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

DiaBlo is een parameter-efficiënte fine-tuning-methode die alleen de diagonale blokken van modelgewichtsmatrices bijwerkt, waardoor het zonder complexe initialisatie of optimalisatiestrategieën stabiel convergeert en prestaties biedt die vergelijkbaar zijn met volledige fine-tuning.

Selcuk Gurses, Aozhong Zhang, Yanxia Deng, Xun Dong, Xin Li, Naigang Wang, Penghang Yin, Zi Yang

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superintelligente robot hebt die alles over de wereld weet. Deze robot is getraind op miljarden boeken en artikelen. Hij is geweldig in algemeen gesprek, maar als je hem wilt gebruiken voor een heel specifiek doel – bijvoorbeeld om wiskundige raadsels op te lossen of om veiliger te reageren op gevaarlijke vragen – moet je hem een beetje "opleiden" of fine-tunen.

De oude manier om dit te doen, heet Full Fine-Tuning. Dit is alsof je de hele robot uit elkaar haalt, elke schroef, elk circuit en elke draad opnieuw instelt om hem perfect te laten werken voor die ene taak. Het werkt goed, maar het is extreem duur, langzaam en vergt een enorm amount aan energie en geheugen. Alsof je een hele fabriek herbouwt om één nieuw product te maken.

Om dit op te lossen, hebben onderzoekers methoden bedacht om alleen een klein deel van de robot aan te passen. De bekendste hiervan is LoRA. LoRA werkt als een soort "tussenlaag" of een extra bril die je op de robot zet. Je traint alleen die bril, niet de robot zelf. Dit is veel sneller en goedkoper. Maar er is een probleem: het bouwen van die bril is ingewikkeld. Je moet twee losse stukken (matrixen) met elkaar vermenigvuldigen, en dat vereist heel precies rekenwerk en speciale instellingen om te voorkomen dat de robot in de war raakt of dat het proces vastloopt.

De Oplossing: DiaBlo (De "Diagonale Blokken")

In dit nieuwe paper introduceren de auteurs DiaBlo. Dit is een heel slim, maar simpel idee.

De Analogie: Het Kruiswoordraadsel
Stel je voor dat de hersenen van de robot een gigantisch kruiswoordraadsel zijn, een groot rooster van letters (de gewichten).

  • Full Fine-Tuning betekent dat je elke letter in dat hele rooster mag veranderen.
  • LoRA betekent dat je twee dunne stroken papier neemt en die over het rooster plakt om de letters te veranderen. Dat is lastig om precies te doen.
  • DiaBlo doet iets heel anders: je mag alleen de letters veranderen die op de diagonaal staan. Dat is de lijn van linksboven naar rechtsonder. Je verandert alleen die specifieke blokken, en laat de rest van het rooster precies zoals het was.

Waarom is dit zo slim?

  1. Geen ingewikkelde wiskunde: Bij LoRA moet je twee dingen vermenigvuldigen (zoals twee puzzelstukken samenvoegen). Bij DiaBlo verander je gewoon de letters die je ziet. Je hoeft geen complexe formules te gebruiken. Het is alsof je in plaats van een ingewikkeld mechanisme te bouwen, gewoon de knoppen op het bedieningspaneel direct omdraait.
  2. Stabiel en betrouwbaar: Omdat je geen complexe vermenigvuldigingen doet, gaat het trainen veel rustiger. De robot raakt niet in de war. Het is alsof je een auto rijdt: LoRA is als rijden met een ingewikkelde versnellingsbak die soms vastloopt; DiaBlo is als rijden met een automaat die gewoon soepel schakelt.
  3. Net zo goed, maar sneller: De onderzoekers hebben getest of het veranderen van alleen die diagonale blokken genoeg is. Het antwoord is een volmondig JA. Of het nu gaat om logisch redeneren, wiskunde, het schrijven van computercode of het veilig houden van de robot, DiaBlo werkt net zo goed (soms zelfs beter) dan de oude methoden, maar gebruikt veel minder rekenkracht.

Wat zeggen de resultaten?

De auteurs hebben DiaBlo getest op verschillende modellen (zoals LLaMA) en verschillende taken:

  • Wiskunde: Het kon moeilijke wiskundeproblemen oplossen, zelfs als de robot in een heel compacte, "gekwantiseerde" vorm zat (waarbij de geheugenruimte zeer beperkt is).
  • Veiligheid: Het leerde de robot om gevaarlijke vragen beter af te wijzen.
  • Code: Het kon betere computercode schrijven.

In al deze gevallen deed DiaBlo het beter dan of net zo goed als de geavanceerde methoden, maar dan zonder de ingewikkelde instellingen die je bij LoRA nodig hebt.

De Conclusie

De boodschap van dit paper is simpel: Je hoeft niet het hele systeem te herbouwen, en je hoeft ook geen ingewikkelde tussenlagen te bouwen. Soms is het genoeg om alleen de "diagonale blokken" van de robot aan te passen.

Het is alsof je een oude, zware kast wilt verplaatsen. In plaats van hem helemaal uit elkaar te halen (Full Fine-Tuning) of een ingewikkeld hijsysteem te bouwen (LoRA), ontdek je dat je gewoon een paar specifieke wielen onder de kast kunt draaien (DiaBlo). De kast komt net zo makkelijk en veilig naar de nieuwe plek, maar dan met veel minder moeite en kosten.

DiaBlo maakt het dus makkelijker, sneller en goedkoper om slimme AI-modellen aan te passen aan onze specifieke behoeften, zonder dat we de complexiteit van de wiskunde hoeven te begrijpen.