{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference
O artigo apresenta o {\lambda}Scale, um sistema de inferência serverless para grandes modelos de linguagem que utiliza redes RDMA de alta velocidade e a técnica "execute-while-load" para acelerar o dimensionamento de modelos, reduzindo a latência e os custos em comparação com soluções existentes.