ButterflyViT: 354 Expert Compression for Edge Vision Transformers
ButterflyViT überwindet die lineare Speicherskalierung von Mixture-of-Experts-Vision-Transformern für Edge-Geräte, indem es Experten als geometrische Reorientierungen eines gemeinsamen quantisierten Substrats darstellt und so bei 64 Experten eine 354-fache Speicherreduktion bei vernachlässigbarem Genauigkeitsverlust erreicht.