ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits
ButterflyMoE überwindet die lineare Speicherskalierung von Mixture-of-Experts-Modellen auf Edge-Geräten, indem es Experten als geometrische Rotationen eines gemeinsamen ternären Substrats parametrisiert, was bei 256 Experten eine 150-fache Speicherreduktion bei vernachlässigbarem Genauigkeitsverlust ermöglicht.