REAP the Experts: Why Pruning Prevails for One-Shot MoE compression
Die Studie stellt fest, dass das Beschneiden von Experten (Pruning) für generative Aufgaben überlegen ist, und schlägt die Methode REAP vor, die durch die Kombination von Router-Gate-Werten und Experten-Aktivierungsnormen eine nahezu verlustfreie Kompression von Mixture-of-Experts-Modellen ermöglicht.