WaterSIC: information-theoretically (near) optimal linear layer quantization
Das Paper stellt WaterSIC vor, einen informationstheoretisch nahezu optimalen Algorithmus zur linearen Schicht-Quantisierung, der durch eine wasserfüllungsähnliche Zuweisung unterschiedlicher Quantisierungsraten zu den Eingangsfeatures die Leistung von GPTQ übertrifft und neue State-of-the-Art-Ergebnisse für LLMs wie Llama und Qwen bei 1 bis 4 Bit erzielt.