WaterSIC: information-theoretically (near) optimal linear layer quantization
O artigo apresenta o WaterSIC, um novo algoritmo de quantização linear que, ao alocar taxas de quantização variáveis para diferentes colunas da matriz de pesos inspirando-se no princípio de "waterfilling", alcança um desempenho próximo ao limite teórico da informação e supera os métodos atuais em modelos de linguagem como Llama e Qwen.