{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference
Het paper introduceert {\lambda}Scale, een serverloos inferentiesysteem dat snelle schaling voor grote taalmodellen mogelijk maakt door gebruik te maken van RDMA-netwerken voor gelijktijdige modeloverdracht en uitvoering, wat leidt tot aanzienlijke verbeteringen in latentie en kosten.