UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische, superintelligente bibliotheek (een Groot Taalmodel of LLM) in je broekzak wilt dragen. Deze bibliotheek bevat miljarden boeken (parameters) en kan alles beantwoorden, van wiskundeproblemen tot het schrijven van gedichten.

Het probleem? Je broekzak (je mobiele telefoon) is klein, heeft weinig ruimte en de batterij gaat snel leeg. Als je die hele bibliotheek probeert mee te nemen, wordt je telefoon zwaar, traag en gaat hij oververhitten.

De onderzoekers van dit paper, UniQL, hebben een slimme oplossing bedacht. Ze hebben een manier gevonden om die bibliotheek in te krimpen tot een handig pocketboekje, zonder dat de inhoud onleesbaar wordt. En het beste deel? Ze kunnen het boekje aanpassen aan hoe vol je broekzak op dat moment is.

Hier is hoe het werkt, vertaald in alledaags taal:

1. Het Probleem: De "Vaste Maat" Dilemma

Stel je voor dat je een jas koopt die perfect past als je alleen thuis bent. Maar als je naar de supermarkt gaat, heb je misschien een tas bij je, of als je sport, heb je extra spullen. Een vaste jas (een vastgemaakte AI) past niet altijd.

Huidige situatie: Als je telefoon vol zit met andere apps, is er geen ruimte voor de AI. Als je de AI wilt laten werken, moet je vaak alles opnieuw berekenen of een kleinere versie kiezen, wat tijd kost.
De oplossing van UniQL: Een "slimme jas" die je zelf kunt aanpassen. Je kunt hem strakker maken als je veel spullen hebt, of wat ruimer als je weinig hebt.

2. De Drie Slimme Trucs van UniQL

De onderzoekers gebruiken drie hoofdtrucs om de AI-koffer lichter te maken:

A. De "Sorteertruc" (Weight Sorting)

Stel je voor dat je een grote doos met Lego-blokjes hebt. Sommige blokjes zijn essentieel voor de structuur van je kasteel, andere zijn alleen decoratie.

Wat UniQL doet: In plaats van willekeurig blokjes weg te gooien, kijkt het model eerst precies welke blokjes het belangrijkst zijn. Het sorteert ze: "Deze 1000 blokjes zijn superbelangrijk, die 500 zijn minder belangrijk."
Het resultaat: Je kunt nu de minder belangrijke blokjes (de "luie" delen van de hersenen) veilig verwijderen. Omdat ze goed gesorteerd zijn, blijft het kasteel (de AI) stabiel staan. Dit gaat 20 keer sneller dan oude methoden.

B. De "Compacte Vertaling" (Quantization & SVD)

Stel je voor dat je een boek in een dik, zwaar papier hebt geschreven. Je wilt het op een telefoon zetten, maar het past niet.

Wat UniQL doet: Ze vertalen het boek naar een heel dun, licht papier (van 16-bit naar 4-bit). Maar ze doen dit slim. Ze gebruiken een wiskundige truc (SVD) om te zorgen dat de letters niet onleesbaar worden door het dunne papier. Ze "plakken" de zware inkt (de belangrijke cijfers) direct op het papier, zodat de tekst helder blijft, zelfs als het papier heel dun is.
Het resultaat: Het boek is nu 4 tot 5 keer lichter, maar je kunt er nog steeds alles in lezen.

C. De "Adaptieve Knop" (On-device Pruning)

Dit is de magische knop op je telefoon.

Hoe het werkt: Normaal gesproken moet je een nieuwe, kleinere versie van de AI downloaden als je telefoon vol zit. Bij UniQL hoef je dat niet. Je hebt één versie die "elastisch" is.
Het scenario: Je telefoon is vol? Tik op de knop: "Knip 35% van de minder belangrijke delen weg." De AI wordt direct lichter en sneller. Je telefoon is weer vrij? Tik op de knop: "Herstel de delen." De AI wordt weer slimmer.
Voordeel: Je hoeft nooit te wachten op downloads of nieuwe versies. De AI past zich aan je situatie aan.

3. Wat levert dit op?

De onderzoekers hebben dit getest op verschillende soorten "hersenen" (modellen zoals Llama, Mamba en Qwen). De resultaten zijn indrukwekkend:

Ruimte: De AI neemt 4 tot 5,7 keer minder ruimte in beslag.
Snelheid: Het reageren van de AI is 2,7 tot 3,4 keer sneller.
Kwaliteit: Zelfs als ze 35% van de "minder belangrijke" delen weghalen, blijft de slimheid van de AI bijna hetzelfde (binnen 5% van het origineel).

Samenvatting in één zin

UniQL is als een magische koffer voor je telefoon: hij kan zijn inhoud automatisch aanpassen aan hoeveel ruimte je hebt, zonder dat je de inhoud hoeft te verliezen, zodat je die gigantische slimme AI overal mee naartoe kunt nemen, zelfs als je telefoon vol zit.

Dit maakt het mogelijk om slimme AI-assistenten te gebruiken op je eigen telefoon, zonder dat je afhankelijk bent van de cloud of dure servers.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het implementeren van Large Language Models (LLMs) op mobiele en randapparaten (edge devices) wordt beperkt door de beperkte en gedeelde rekenkracht en het geheugen van deze apparaten. Een specifiek probleem is dat de beschikbaarheid van resources (zoals geheugen) dynamisch wordt beheerd door het besturingssysteem en sterk afhankelijk is van de huidige werklast van het apparaat.

Vaste comprimering is onvoldoende: Vooraf gecomprimeerde of gekwantiseerde modellen met een vaste grootte kunnen niet draaien als de device-werkload hoog is en er minder geheugen beschikbaar is.
Herscheppen is onpraktisch: Het opnieuw comprimeren of kwantiseren van een model om het in het beschikbare geheugen te laten passen, vereist enorme rekenkracht (uren op cloud-GPU's), wat onhaalbaar is voor on-device aanpassing.
Bestaande oplossingen: Het opslaan van meerdere modelreplica's met verschillende compressiepercentages is tijdrovend en opslagintensief. Elastic training vereist vaak toegang tot GPU-resources en specifieke trainingsdata, wat de generaliseerbaarheid beperkt.

Methodologie: UniQL Framework

UniQL is een unificatieframework voor post-training compressie dat kwantisatie en gestructureerde low-rank pruning combineert. Het doel is om één enkel model te creëren dat in de cloud wordt verwerkt, maar op het apparaat dynamisch kan worden aangepast (gepruned) op basis van de huidige resources.

Het proces verloopt in vier hoofdstappen:

Gestructureerde Gewichtsordening (Structured Weight Sorting):
- In plaats van het berekenen van een tijdrovende pseudoinversie (die $O(n^3)$ complexiteit heeft), gebruikt UniQL efficiënte methoden om kanalen op basis van belangrijkheid te sorteren.
- MLP (Multi-Layer Perceptron): Gebruikt ridge leverage scores op basis van kanaalcorrelaties uit een kalibratie-dataset. Dit elimineert de noodzaak voor pseudoinversie en versnelt de berekening met 20x.
- MHSA (Multi-Head Self-Attention):
  - Voor Query/Key: Gebruikt een symmetrische sortering die compatibel is met Rotary Positional Embeddings (RoPE).
  - Voor Value/Output: Past een kwantisatie-bewuste Singular Value Decomposition (SVD) toe. In tegenstelling tot eerdere methoden, wordt de diagonale matrix $\Sigma$ (eigenwaarden) samengevoegd met de matrix $U$ . Hierdoor fungeren de eigenwaarden als schalingsfactoren voor de kwantisatie, wat de numerieke fouten bij lage bit-breedtes (bijv. INT4) minimaliseert.
- SSM (State Space Models, bijv. Mamba): Introduceert een "state-aware" sorteringstrategie. Omdat SSM-blokken gevoelig zijn voor staat-matrices, worden de gewichten gesorteerd op basis van de correlaties van de interne staten ( $H$ ), in plaats van alleen input-activaties.
Gemaskerde LoRA Fine-tuning:
- Na het sorteren wordt het model niet direct gepreurd, maar onderworpen aan een "one-shot" fine-tuning met LoRA (Low-Rank Adaptation).
- Tijdens de training worden willekeurige globale pruning-rates ( $P_t$ ) geselecteerd en worden de minst belangrijke kanalen gemaskerd. Dit zorgt ervoor dat het model leert om robuust te zijn voor verschillende niveaus van compressie.
- Dit gebeurt één keer in de cloud op één server-GPU.
Kwantisatie en Fused Kernels:
- Het gefinetuned model wordt gekwantiseerd naar lage bit-breedtes (INT4 voor gewichten, met optionele FP16 voor embeddings/output).
- Er wordt een gefuseerde RoPE-kernel ontwikkeld. Omdat de structuur van de gewichten is gewijzigd door sortering, moeten de posities van de rotary embeddings worden aangepast. De nieuwe kernel verzamelt en verwerkt deze indices efficiënt, wat de geheugentoegang reduceert.
Adaptieve On-Device Pruning:
- Het gekwantiseerde model wordt gedeployed. Op het apparaat kan de gebruiker (of het systeem) dynamisch het pruning-percentage aanpassen (bijv. tot 35%) afhankelijk van de huidige geheugenuitputting.
- De kanalen worden online uitgepakt, gepreurd en weer ingepakt voor de kernel-executie.

Belangrijkste Bijdragen

Unificatie: Het eerste post-training framework dat kwantisatie en gestructureerde pruning systematisch combineert voor diverse architecturen: Transformers (Llama, Qwen), State Space Models (Mamba) en hybride modellen (Nemotron-H, Bamba).
Efficiëntie: Eliminatie van de pseudoinversie voor MLP-laag sortering, wat leidt tot een 20x versnelling in de compressietijd.
Kwantisatie-bewuste Decompositie: Een nieuwe SVD-methode die eigenwaarden integreert in de gewichten om de fouten bij INT4-kwantisatie te minimaliseren.
Adaptiviteit: Mogelijkheid om één model te deployen dat dynamisch kan schalen in grootte op het apparaat zonder hercomprimering, tot een pruning-rate van 35%.
Fused Kernels: Een geoptimaliseerde kernel voor RoPE die de latency verlaagt bij gepreurd inference.

Resultaten

De experimenten zijn uitgevoerd op modellen zoals Llama-3.1-8B, Qwen-2.5-7B, Mamba-2-8B en hybride modellen.

Geheugenreductie: UniQL bereikt een geheugenreductie van 4x tot 5.7x vergeleken met FP16-modellen.
Doorvoersnelheid (Throughput): Er is een verbetering in token-doorvoer van 2.7x tot 3.4x op edge-apparaten (Orin Nano 8G) en cloud-GPU's (A6000).
Nauwkeurigheid: Bij een pruning-rate van 15% blijft de nauwkeurigheid binnen 5% van het originele FP16-model. Zelfs bij 35% pruning behoudt het model bruikbare prestaties.
Vergelijking met State-of-the-Art:
- UniQL presteert beter dan MoDeGPT en SVD-LLM, vooral bij hoge compressiepercentages.
- Het is sneller in compressie: UniQL is 22x sneller dan MoDeGPT en 1.8x sneller dan SVD-LLM voor de compressiestap.
- Het model is kleiner dan concurrenten zoals TRT-AWQ en TAO-HQQ omdat het ook de embedding- en outputlagen kwantiseert naar 4-bit.
Energie-efficiëntie: Op de Orin Nano reduceert UniQL het energieverbruik per verzoek aanzienlijk (bijv. van ~381J naar ~143J bij 35% pruning), terwijl FP16-modellen vaak out-of-memory (OOM) fouten genereren.

Significantie

UniQL lost een kritieke bottleneck op in de deploy van LLMs op randapparaten: de onzekerheid van beschikbare resources. Door een "one-shot" cloud-compressie te combineren met dynamische on-device aanpassing, maakt het LLM-toepassingen mogelijk op apparaten met beperkt geheugen (zoals VR-brillen, mobiele telefoons en IoT-apparaten) zonder dat er meerdere modelversies nodig zijn of dat er zware herberekeningen nodig zijn tijdens runtime. De framework is breed toepasbaar op de nieuwste modelarchitecturen, inclusief de opkomende State Space Models, en biedt een praktische route naar energie-efficiënte en responsieve AI op de edge.

UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

1. Het Probleem: De "Vaste Maat" Dilemma

2. De Drie Slimme Trucs van UniQL

A. De "Sorteertruc" (Weight Sorting)

B. De "Compacte Vertaling" (Quantization & SVD)

C. De "Adaptieve Knop" (On-device Pruning)

3. Wat levert dit op?

Samenvatting in één zin

Probleemstelling

Methodologie: UniQL Framework

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks