FreeAct: Freeing Activations for LLM Quantization

Each language version is independently generated for its own context, not a direct translation.

FreeAct: Het "Slimme Pakket" voor AI's geheugen

Stel je voor dat een Grote Taalmodel (LLM) zoals een gigantische, superintelligente kok in een keuken. Deze kok kan prachtige recepten bedenken, maar hij heeft een enorm probleem: zijn keuken is te vol. De ingrediënten (de data) en de recepten (de gewichten van het model) nemen zoveel ruimte in dat ze niet meer in de kleine koelkast van een gewone telefoon of laptop passen.

Om dit op te lossen, gebruiken wetenschappers kwantisatie. Dat is als het "inpakken" van de ingrediënten in kleinere, lichtere dozen. In plaats van zware glazen potten (hoge precisie), gebruiken we kleine kartonnen doosjes (lage precisie). Dit maakt de AI veel sneller en bespaart ruimte, maar er zit een addertje onder het gras.

Het Probleem: De "Stijve" Doos

Tot nu toe was de manier waarop we deze AI's inpakken erg star. Stel je voor dat je een doos hebt met een deksel dat exact één op één past.

Als je een grote, zware aardappel (een "activering" in de AI) in de doos stopt, moet het deksel precies passen.
Als je een kleine erwt in dezelfde doos stopt, moet het deksel precies hetzelfde blijven, omdat het deksel vastzit aan de bodem van de doos (de "gewichten" van de AI).

In de echte wereld is dit onhandig. Soms krijg je een stroom van grote aardappelen (bijvoorbeeld tekst), en soms een stroom van kleine erwtjes (bijvoorbeeld afbeeldingen of gemaskeerde tekens). Met die stijve "één-op-één" doos (wat eerdere methoden deden) krijg je veel lekkage of beschadigde ingrediënten. De AI wordt dan dom en maakt rare fouten.

De Oplossing: FreeAct (De "Vrije" Activering)

De auteurs van dit papier, FreeAct, zeggen: "Wacht even, waarom moeten we de doos en het deksel altijd aan elkaar vastklemmen?"

Hun idee is heel simpel maar geniaal:

De Bodem (Gewichten) blijft statisch: De basis van de doos (de opgeslagen kennis van de AI) blijft hetzelfde en stabiel.
Het Deksel (Activeringen) wordt flexibel: In plaats van één stijf deksel, maken we verschillende deksels die we dynamisch kunnen wisselen, afhankelijk van wat er in de doos zit.

De Analogie van de Koffer:
Stel je voor dat je op reis gaat.

Eerdere methoden: Je hebt één vaste koffer. Of je nu een pak kostuums (tekst) of een stapel T-shirts (afbeeldingen) in doet, je moet het de deksel op dezelfde manier sluiten. Als je te veel T-shirts stopt, springt de koffer open.
FreeAct: Je hebt een slimme koffer met een verwisselbaar deksel.
- Heb je veel T-shirts? Dan gebruik je een breed, plat deksel.
- Heb je een kostuum? Dan gebruik je een smal, diep deksel.
- De bodem van de koffer (de AI zelf) verandert niet, maar de manier waarop je het inpakt (de transformatie) past zich perfect aan aan de inhoud.

Hoe werkt dit in de praktijk?

De onderzoekers hebben ontdekt dat AI's verschillende soorten "token" (bouwstenen) verwerken die heel verschillend gedragen:

In Multimodale AI's (zoals Qwen of InternVL): Soms krijg je tekst, soms een foto. Tekst en foto's hebben verschillende "smaken" en vormen. FreeAct gebruikt een ander "deksel" voor de foto-delen dan voor de tekst-delen.
In Diffusie-AI's (zoals LLaDA of Dream): Deze AI's werken met maskers (onzichtbare plekken die ze moeten invullen). De plekken die al gevuld zijn, gedragen zich anders dan de lege plekken. FreeAct behandelt ze als twee verschillende groepen en past de verpakking daarop aan.

Waarom is dit zo goed?

Door deze flexibiliteit kunnen ze de AI veel sterker "samendrukken" (naar 4-bit, wat heel weinig ruimte is) zonder dat de kwaliteit daalt.

Resultaat: De AI blijft net zo slim als voorheen, maar past nu in een veel kleinere koffer.
Prestatie: In tests bleek FreeAct tot 5,3% beter te presteren dan de beste bestaande methoden. Het is alsof je dezelfde auto hebt, maar hij rijdt nu op een kwart van de benzine.

Samenvattend

FreeAct is als het vinden van de perfecte pasvorm voor een kledingstuk dat eerder te strak zat. In plaats van de kleding (de AI) te forceren in een standaard maat, maken ze de kledingstukken (de verpakking) flexibel en dynamisch. Hierdoor kunnen we de slimste AI's van de wereld draaien op apparaten die we allemaal in onze broekzak hebben, zonder dat ze hun intelligentie verliezen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "FreeAct: Freeing Activations for LLM Quantization" in het Nederlands.

Titel: FreeAct: Het bevrijden van Activaties voor LLM-Quantisatie

1. Het Probleem

Grote Taalmodellen (LLMs) vereisen aanzienlijke rekenkracht en geheugen, wat quantisatie (het verlagen van de precisie van parameters en activaties, bijvoorbeeld van BF16 naar INT4) noodzakelijk maakt voor efficiënte implementatie. Bestaande geavanceerde quantisatiemethoden, zoals QuaRot en FlatQuant, gebruiken transformatiematrices (orthogonale matrices) om het "ruwe" (steile) feature-ruimte van activaties te projecteren naar een "gladde" ruimte die beter geschikt is voor quantisatie.

Echter, deze methoden hanteren een statisch één-op-één transformatiebeperking:

Er wordt aangenomen dat er één unieke inverse matrix ( $P^{-1}$ ) bestaat die zowel op de activaties ( $X$ ) als op de gewichten ( $W$ ) wordt toegepast om de wiskundige equivalentie ( $XW = XP \cdot P^{-1}W$ ) te garanderen.
Dit veronderstelt dat alle activaties zich uniform gedragen.

De beperking: In geavanceerde modellen zoals Diffusion LLMs (dLLMs) en Multimodale LLMs (MLLMs) vertonen activaties dynamische patronen die sterk variëren afhankelijk van het type token:

dLLMs: Activaties verschillen sterk tussen gemaskerde ([MASK]) en ongemaskerde tokens tijdens het denoising-proces.
MLLMs: Activaties verschillen tussen visuele (beeld) en tekstuele tokens.
De statische één-op-één benadering faalt hier omdat één enkele transformatie niet kan omgaan met deze diverse verdelingen, wat leidt tot grote quantisatiefouten en prestatieverlies bij lage bit-breedtes (zoals W4A4).

2. Methodologie: FreeAct

FreeAct is een post-training quantisatieframework dat de rigide één-op-één beperking doorbreekt door de activaties te "bevrijden" van de gewichten.

Kernconcepten:

Loskoppeling van Transformaties: In plaats van één matrix $P$ en zijn inverse $P^{-1}$ , introduceert FreeAct een set van specifieke transformatiematrices voor de activaties ( $P, P'$ ) en één gezamenlijke, statische transformatie voor de gewichten ( $\tilde{P}$ ).
- Voor activatie $X$ (bijv. tekst): $XW = XP \cdot \tilde{P}W$
- Voor activatie $X'$ (bijv. beeld of gemaskerd): $X'W = X'P' \cdot \tilde{P}W$
- Hierbij is $P \neq P'$ , maar $\tilde{P}$ is gemeenschappelijk voor de gewichten.
Theoretische Basis (Rank-deficientie):
De auteurs tonen theoretisch aan dat activaties in LLMs vaak rank-deficient zijn (ze beslaan niet de volledige dimensieruimte). Hierdoor is de oplossing voor de vergelijking $XP\tilde{P}W = XW$ niet beperkt tot de triviale inverse ( $P\tilde{P} = I$ ). Er bestaat een grotere oplossingsruimte die toelaat dat $P$ en $P'$ verschillend zijn, zolang ze voldoen aan de projectie-eigenschappen.
Implementatie (Token Indexing & Dynamische Allocatie):
1. Token Indexing: Tokens worden geïdentificeerd op basis van hun type (bijv. [MASK] vs. ongemaskerd in dLLMs, of <IMG> vs. tekst in MLLMs).
2. Structuur van de Matrices:
  - De transformatiematrices voor activaties ( $P$ en $P'$ ) worden opgebouwd uit gedeelde componenten ( $U$ ) en unieke componenten ( $U_X, U_{X'}$ ).
  - $P = [U, U_X, 0]$ en $P' = [U, 0, U_{X'}]$ .
  - De nul-vullingen voorkomen dat informatie tussen de verschillende subruimtes verstrikt raakt.
  - De gewichtstransformatie $\tilde{P}$ combineert deze componenten: $\tilde{P} = [U, U_X, U_{X'}]^\top$ .
3. Optimalisatie: De matrices worden getraind door de kwantisatiefout te minimaliseren tussen de originele output en de gekwantiseerde output, gesplitst per token-type.

3. Belangrijkste Bijdragen

Paradigmaverschuiving: FreeAct is de eerste methode die de statische één-op-één transformatiebeperking in LLM-quantisatie loslaat, waardoor dynamische verwerking van verschillende activatiepatronen mogelijk wordt.
Unificatie van Paradigma's: Het framework verenigt twee complexe LLM-architecturen (dLLMs en MLLMs) onder één quantisatieprincipe, gebaseerd op het onderscheid in token-types.
Theoretische Validatie: Het paper levert een wiskundig bewijs dat gebruikmaakt van de rank-deficientie van activaties om een oplossingruimte te creëren die verder gaat dan simpele inverse matrices.
Efficiënte Implementatie: De methode vereist geen extra geheugen voor het opslaan van meerdere matrices, omdat $P$ en $P'$ eenvoudig kunnen worden afgeleid (gesliced) uit de gezamenlijke matrix $\tilde{P}$ .

4. Resultaten

FreeAct werd getest op vier modellen: twee dLLMs (LLaDA, Dream) en twee MLLMs (Qwen2.5-VL, InternVL2.5) met een W4A4 (4-bit gewichten, 4-bit activaties) instelling.

Prestatieverbetering: FreeAct overtreft state-of-the-art baselines (zoals FlatQuant, QuaRot, SmoothQuant) aanzienlijk.
- Er werd een verbetering van tot 5,3% in prestaties waargenomen ten opzichte van de beste bestaande methoden.
- In veel gevallen herstelt FreeAct de prestaties tot een niveau dat vergelijkbaar is met W8A8 (8-bit) methoden en benadert het de 16-bit baseline.
Vergelijking:
- RTN (Round-to-Nearest): Faalt volledig bij W4A4 (0% prestatie).
- SmoothQuant: Kan de uitbijters niet volledig onderdrukken bij complexe activatiepatronen.
- FlatQuant/QuaRot: Beter dan SmoothQuant, maar blijven beperkt door de één-op-één transformatie.
Ablatiestudies:
- Bevestigde dat rank-deficientie essentieel is voor de werking (verwijdering van dimensies tot $d/32$ of $d/64$ werkt goed).
- Toonde aan dat de leerbare clip-thresholds een synergie vormen met de transformatiematrices, maar dat de matrix zelf de primaire drijvende kracht is.

5. Betekenis en Toekomst

FreeAct markeert een belangrijke stap in de efficiëntie van moderne LLMs. Door de dynamische aard van activaties in multimodale en generatieve modellen te erkennen en hierop te reageren met flexibele transformaties, maakt het de inzet van extreem lage bit-breedtes (zoals 4-bit) haalbaar zonder kwaliteitsverlies.

Toekomstperspectieven:

Uitbreiding naar meer dan twee token-types of modaliteiten (bijv. audio).
Hardware-kernel co-design om de berekening van de dynamische transformaties te versnellen.
Automatische identificatie van token-types zonder vooraf gedefinieerde indexering.

Samenvattend biedt FreeAct een robuust theoretisch en praktisch raamwerk om de kwantisatiekwaliteit van de nieuwste generatie AI-modellen te maximaliseren, wat cruciaal is voor de implementatie op apparaten met beperkte resources.

FreeAct: Freeing Activations for LLM Quantization

Het Probleem: De "Stijve" Doos

De Oplossing: FreeAct (De "Vrije" Activering)

Hoe werkt dit in de praktijk?

Waarom is dit zo goed?

Samenvattend

Titel: FreeAct: Het bevrijden van Activaties voor LLM-Quantisatie

1. Het Probleem

2. Methodologie: FreeAct

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomst

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers