{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference
Das Paper stellt {\lambda}Scale vor, ein effizientes serverloses Inferenzsystem für große Sprachmodelle, das durch die Kombination von RDMA-basiertem Multicast und einer „execute-while-load"-Strategie die Skalierungsgeschwindigkeit drastisch erhöht und im Vergleich zu bestehenden Lösungen die Tail-Latenz um bis zu 5-fach sowie die Kosten um 31,3 % senkt.