{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference
{\lambda}Scale es un sistema de inferencia serverless para grandes modelos de lenguaje que acelera la escalabilidad mediante el uso de redes RDMA para la multicasting rápida de modelos y la ejecución distribuida durante la carga, logrando mejoras significativas en la latencia y reducción de costos.