A 35B Hybrid-Attention Mixture-of-Experts Model on a 6GB 2011 GPU: Hand-Written 4-bit CUDA Inference for Fermi
Questo articolo dimostra l'inferenza end-to-end di un modello Qwen3.6 MoE da 35 miliardi di parametri su una GPU Fermi da 6GB del 2011, implementando una strategia di esecuzione ibrida che trasmette i pesi per il prefill della GPU e utilizza un kernel intero SSSE3 scritto a mano per il decoding della CPU, documentando sia i guadagni di prestazioni che i limiti pratici dell'esecuzione di IA di classe frontier su silicio legacy.