WaterSIC: information-theoretically (near) optimal linear layer quantization
Ce papier propose WaterSIC, un algorithme d'optimisation de la quantification des couches linéaires inspiré du « waterfilling » qui, en allouant dynamiquement des taux de quantification variables, atteint une performance quasi optimale théoriquement et établit de nouveaux états de l'art pour les modèles Llama et Qwen.