WaterSIC: information-theoretically (near) optimal linear layer quantization
Il paper presenta WaterSIC, un nuovo algoritmo di quantizzazione lineare che, ispirandosi alla soluzione "waterfilling" dell'informazione teorica, assegna tassi di quantizzazione differenziati alle colonne della matrice dei pesi per raggiungere prestazioni near-ottimali e superare i limiti degli attuali metodi come GPTQ su modelli LLM come Llama e Qwen.