{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference
この論文は、RDMA ネットワークを活用した高速なモデルマルチキャストと「転送中の実行(execute-while-load)」を可能にする分散推論パイプライン「{\lambda}Pipe」を導入することで、サーバーレス環境における大規模言語モデルの起動オーバーヘッドを解消し、スケーリング速度とコスト効率を大幅に向上させるシステム「{\lambda}Scale」を提案するものです。