TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superintelligente robot hebt die alles kan doen: van poëzie schrijven tot complexe wiskunde oplossen. Dit is een Groot Taalmodel (LLM). Maar hier is het probleem: deze robot is zo zwaar en groot dat hij een heel datacentrum nodig heeft om te werken. Hij is als een Formule-1-auto die alleen op een speciaal circuit kan rijden, niet in je straat.

Om deze robot in je eigen telefoon of laptop te laten werken, proberen we hem "kleiner" te maken. We doen dit door de getallen in zijn brein af te ronden (dit heet kwantisatie). Het is alsof je van een foto met miljoenen kleuren overgaat naar een zwart-wit tekening: het ziet er nog steeds hetzelfde uit, maar het neemt veel minder ruimte in beslag.

Het oude probleem: De "Vaste Recept"
Tot nu toe was het maken van zo'n klein model een beetje als het bakken van een cake met een vast recept. Je nam een grote hoeveelheid meel (data) om het recept te perfectioneren voordat je de oven aanstak.

Het nadeel: Als je later een heel ander soort taart wilde bakken (een nieuwe taak), bleek dat recept niet te werken. De cake viel tegen. Je moest opnieuw beginnen met bakken, wat veel tijd en energie kostte. In de tech-wereld noemen we dit "calibratie": je moet eerst veel voorbeelden zien om het model aan te passen.

De nieuwe oplossing: TTQ (Test-Time Quantization)
De auteurs van dit paper hebben een slimme nieuwe methode bedacht, genaamd TTQ. Laten we het vergelijken met een chirurg die direct in de operatiekamer denkt.

Geen vooraf bereiden: In plaats van wekenlang te oefenen met een vast recept, kijkt de chirurg (het model) naar de patiënt (de vraag die je stelt) en past hij zijn gereedschap direct aan.
Adaptief: Als je een vraag stelt over de natuur, past het model zich direct aan voor de natuur. Vraag je iets over geschiedenis? Het past zich direct aan voor geschiedenis. Het doet dit terwijl het antwoordt, niet van tevoren.
Snelheid: Omdat het model kleiner is gemaakt (de "zwart-wit tekening"), werkt het veel sneller op je eigen apparaat. Het is alsof je van een zware vrachtwagen overstapt op een sportieve motorfiets die door smalle straatjes kan.

Hoe werkt het precies? (De Analogie)
Stel je voor dat het model een gigantische bibliotheek is.

Oude methode: Je moet eerst alle boeken lezen om te weten welke je kunt weggooien. Als je een nieuw onderwerp krijgt, moet je de hele bibliotheek opnieuw sorteren.
TTQ-methode: Je loopt de bibliotheek binnen, kijkt naar het onderwerp waar de bezoeker naar vraagt, en pakt direct alleen de boeken die relevant zijn. Je maakt ze zelfs even korter en compacter (kwantisatie) terwijl je ze vasthoudt, zodat je ze sneller kunt lezen.

Waarom is dit belangrijk?

Geen "Domain Shift": De oude methoden faalden vaak als je ze gebruikte voor iets nieuws (bijvoorbeeld van het vertalen van teksten naar het besturen van een robot). TTQ werkt overal goed, omdat het zich aanpast aan de situatie.
Snelheid: Het maakt het mogelijk om deze super-intelligente modellen op je eigen telefoon of laptop te draaien, zonder dat je een dure server nodig hebt.
Geen extra training: Je hoeft het model niet opnieuw te leren. Het is "plug-and-play".

Conclusie
Dit paper introduceert een manier om de zware, trage AI-modellen van vandaag om te vormen tot lichte, snelle en slimme helpers die zich direct aanpassen aan wat jij nodig hebt. Het is alsof je een zware, statische atlas vervangt door een slimme GPS die live routeaanpassingen doet, ongeacht waar je naartoe wilt.

Each language version is independently generated for its own context, not a direct translation.

Titel: TTQ: Actiebewuste Testtijd-Quantisatie om LLM-inferentie Onderweg te Versnellen

Auteurs: Toshiaki Koike-Akino, Jing Liu, Ye Wang (Mitsubishi Electric Research Laboratories - MERL)
Context: ICLR 2026 Test-Time Updates (TTU) Workshop

1. Het Probleem

Grote foundation-modellen (LLMs) vereisen enorme rekenkracht en geheugen, wat hun toepasbaarheid beperkt. Hoewel compressietechnieken zoals quantisatie (het verminderen van het aantal bits voor gewichten) veelbelovend zijn, hebben bestaande methoden (zoals AWQ en GPTQ) ernstige beperkingen:

Afhankelijkheid van kalibratiegegevens: Deze methoden vereisen offline kalibratie met een dataset die representatief is voor de taak.
Domeinverschuiving (Domain Shift): Als de kalibratiegegevens niet overeenkomen met de downstream-taak (bijv. een ander onderwerp of taal), degradeert de prestatie aanzienlijk.
Gebrek aan flexibiliteit: Zodra een model is gekwantiseerd en uitgeleverd, kan het niet opnieuw worden gekalibreerd voor nieuwe domeinen zonder de oorspronkelijke volledige precisie-gewichten te behouden (wat vaak niet mogelijk is op de randapparatuur).

Het doel is om LLM's te comprimeren tijdens de inferentie (testtijd), zonder offline kalibratie, terwijl de snelheid wordt verhoogd en de nauwkeurigheid behouden blijft.

2. Methodologie: TTQ (Test-Time Quantization)

De auteurs stellen een nieuw framework voor genaamd TTQ, dat actiebewuste quantisatie toepast direct tijdens het verwerken van invoer (inference).

Kerncomponenten:

Online Actiebewuste Quantisatie (Online AWQ):
- In tegenstelling tot traditionele AWQ, die een statische schaling gebruikt gebaseerd op een kalibratiedataset, berekent TTQ de schalingsfactoren dynamisch voor elke invoer-prompt.
- Het gebruikt de statistieken van de activaties (de input $X$ ) om de diagonalen van de autocorrelatiematrix $C$ te schatten.
- De formule voor de schalingsmatrix $D$ wordt berekend als:
  $D = (\|X\|_p + \lambda)^\alpha$
  Waarbij $\|X\|_p$ de $L_p$ -norm is van de activaties, $\lambda$ een dempingsfactor is, en $\alpha$ een exponent.
- De gewichten $W$ worden vervolgens geschaald en gekwantiseerd: $\hat{W} = Q[W \cdot D^{1/2}] \cdot D^{-1/2}$ .
Zero-Overhead Kalibratie:
- TTQ vereist geen offline kalibratiegegevens. De parameters ( $\alpha, \lambda, p$ ) worden constant gehouden (geoptimaliseerd op basis van hyperparameter-zoekopdrachten voor de modelarchitectuur) en de schaling gebeurt volledig dynamisch op basis van de huidige token-invoer.
- Dit elimineert het risico op domeinverschuiving, omdat het model zich aanpast aan elke specifieke prompt.
Integratie met Low-Rank Decompositie (QLoRA-achtig):
- Om de fouten bij extreme quantisatie (bijv. 2 of 3 bits) te compenseren, integreert TTQ lage-rank factoren ( $B$ en $A$ ).
- Het gewicht wordt benaderd als: $\hat{W} = W_q + BA$ , waarbij $W_q$ de gekwantiseerde residu-gewichten zijn.
- De auteurs gebruiken statische lage-rank factoren (geïnitialiseerd via PCA) om de extra rekentijd minimaal te houden, maar het framework ondersteunt ook dynamische aanpassing.
Rekencomplexiteit:
- De extra complexiteit voor de online berekening is verwaarloosbaar. De verhouding van de overhead ten opzichte van de oorspronkelijke projectie is:
  $\rho \approx O\left(\frac{1}{d'} + \frac{3}{T}\right) \to 0$
  Waarbij $d'$ de output-dimensie en $T$ de token-lengte is. Voor grote modellen is deze overhead verwaarloosbaar.

3. Belangrijkste Bijdragen

TTQ Framework: Een nieuw framework dat LLM's versnelt tijdens de inferentie door dynamische, actiebewuste quantisatie toe te passen zonder offline kalibratie.
Oplossing voor Domeinverschuiving: Door de schaling per prompt aan te passen, lost TTQ het probleem op van statische methoden die falen bij onbekende downstream-taken.
Efficiëntie: De methode introduceert verwaarloosbare rekenoverhead en maakt gebruik van bestaande int_matmul kernels (zoals Marlin in vLLM) voor versnelling.
Integratie met Low-Rank: Een combinatie van dynamische quantisatie en lage-rank decompositie om prestaties bij zeer lage bit-breedtes (2-3 bits) te behouden.
Uitgebreide Evaluatie: Gedetailleerde benchmarks op diverse modellen (OPT, Qwen3, Gemma3) en taken (LLM, VLM, VLA).

4. Resultaten

De auteurs hebben TTQ getest op modellen zoals OPT, Qwen3 en Gemma3 over benchmarks zoals WikiText-2, PTB en C4.

Prestaties vs. Baselines:
- TTQ overtreft consistent state-of-the-art methoden zoals AWQ en GPTQ, vooral bij lage bit-breedtes (2 en 3 bits).
- Robuustheid: Waar AWQ sterk afhankelijk is van de grootte en kwaliteit van de kalibratiedataset (prestaties dalen sterk bij weinig kalibratie-tokens), behoudt TTQ stabiele prestaties ongeacht de dataset.
- Vergelijking: Bij 3-bit quantisatie op OPT-350M behaalde TTQ een perplexiteit van 24.93 (zonder kalibratie), terwijl AWQ met 217 kalibratie-tokens 25.73 haalde. Bij 2-bit presteerde TTQ aanzienlijk beter dan AWQ.
- High-End Modellen: Bij 4-bit en 5-bit quantisatie bereikt TTQ vaak prestaties die vergelijkbaar zijn met het originele, niet-gequantiseerde model (gemarkeerd met een sterretje in de tabellen).
Snelheid (Runtime):
- TTQ versnelt de inferentie aanzienlijk. Op een NVIDIA RTX4090 werd een snelheidsverhoging van 4.9x bereikt voor een Qwen3-32B model (met lage-rank factoren) ten opzichte van FP16.
- Zelfs zonder aangepaste kernels, presteert TTQ vergelijkbaar met of beter dan offline AWQ, omdat de dynamische schaling de cache-overhead vermindert.
Multimodale Taken:
- Op VLM-benchmarks (TextVQA) en VLA-benchmarks (robotica met LIBERO) behaalde TTQ de beste gemiddelde successcores, zelfs bij 2-bit quantisatie, waar andere methoden faalden.

5. Betekenis en Impact

Deze paper introduceert een paradigmaverschuiving in het comprimeren van grote modellen:

Van Offline naar Online: Het verplaatst de focus van statische, offline compressie naar dynamische, adaptieve compressie op het moment van gebruik.
Toepasbaarheid op de Rand (Edge): Omdat TTQ geen kalibratiegegevens nodig heeft en zich aanpast aan elke prompt, is het ideaal voor apparaten met beperkte resources die werken in diverse, onvoorspelbare omgevingen.
Toekomstperspectief: Het werk opent de deur voor verdere integratie van test-tijd aanpassingen, zoals dynamische pruning en decompositie, en suggereert dat hyperparameters in de toekomst nog dynamischer kunnen worden aangepast.

Kortom, TTQ biedt een praktische oplossing om de rekenkosten van LLM's te verlagen zonder in te leveren op flexibiliteit of nauwkeurigheid, zelfs bij extreme quantisatie.

TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly

Titel: TTQ: Actiebewuste Testtijd-Quantisatie om LLM-inferentie Onderweg te Versnellen

1. Het Probleem

2. Methodologie: TTQ (Test-Time Quantization)

Kerncomponenten:

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Speculating Experts Accelerates Inference for Mixture-of-Experts

A Visualization for Comparative Analysis of Regression Models

Maximizing mutual information between user-contexts and responses improve LLM personalization with no additional data

BrainSCL: Subtype-Guided Contrastive Learning for Brain Disorder Diagnosis

CLaRE-ty Amid Chaos: Quantifying Representational Entanglement to Predict Ripple Effects in LLM Editing