REAP the Experts: Why Pruning Prevails for One-Shot MoE compression
Het artikel introduceert REAP, een nieuwe methode voor het comprimeren van MoE-modellen door experts te verwijderen in plaats van ze te samenvoegen, wat leidt tot superieure prestaties op generatieve taken zoals codegeneratie door het behoud van de fijne routeringscontrole.