{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference
Le papier présente {\lambda}Scale, un système d'inférence serverless pour les grands modèles de langage qui accélère la mise à l'échelle en exploitant les réseaux RDMA pour le multicast rapide de modèles et en permettant une exécution distribuée pendant le chargement, réduisant ainsi la latence et les coûts par rapport aux solutions existantes.