{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference
Il paper presenta {\lambda}Scale, un sistema serverless per l'inferenza di grandi modelli linguistici che riduce i tempi di avvio e i costi sfruttando le reti RDMA per il multicast rapido dei modelli e l'esecuzione distribuita durante il caricamento ("execute-while-load"), ottenendo significativi miglioramenti nella latenza rispetto alle soluzioni esistenti.