WaterSIC: information-theoretically (near) optimal linear layer quantization
Dit paper introduceert WaterSIC, een nieuw algoritme dat door het toewijzen van verschillende quantisatiesnelheden aan kolommen van de gewichtsmatrix (geïnspireerd door waterfilling) een bijna optimale informatie-theoretische prestatie bereikt en daarmee nieuwe state-of-the-art resultaten oplevert voor de kwantisatie van LLM's zoals Llama en Qwen.