Serving Compound Inference Systems on Datacenter GPUs
Il paper presenta JigsawServe, un nuovo framework di servizio che ottimizza congiuntamente latenza, accuratezza e costi delle risorse GPU per sistemi di inferenza composti, aumentando la domanda servibile fino a 11,3 volte rispetto alle soluzioni precedenti attraverso la selezione adattiva dei modelli e la partizione spaziale fine delle GPU.