Serving Compound Inference Systems on Datacenter GPUs
JigsawServe es un marco de servicio pionero que optimiza conjuntamente la latencia, la precisión y el costo de los sistemas de inferencia compuestos en GPUs de centros de datos mediante la selección adaptativa de variantes de modelos y la asignación de recursos espacialmente particionados, logrando un aumento de 11,3 veces en la demanda servible en comparación con trabajos anteriores.