High-Fidelity Pruning for Large Language Models
Dit paper introduceert HFPrune, een efficiënte pruning-methode voor grote taalmodellen die de entropie van de modeluitvoer gebruikt om neuronbelang te evalueren zonder een extra leraarmodel, waardoor de prestaties beter behouden blijven dan bij bestaande methoden.