WaterSIC: information-theoretically (near) optimal linear layer quantization
El artículo presenta WaterSIC, un algoritmo de cuantización lineal basado en principios de teoría de la información que asigna tasas de cuantización variables a las columnas de la matriz de pesos mediante una estrategia de "llenado de agua", logrando un rendimiento cercano al límite teórico y superando a los métodos actuales como GPTQ en modelos LLM.