Serving Compound Inference Systems on Datacenter GPUs
Das Paper stellt JigsawServe vor, ein Serving-Framework für zusammengesetzte Inferenzsysteme auf Datacenter-GPUs, das durch die gemeinsame Optimierung von Latenz, Genauigkeit und Kosten mittels adaptiver Modellwahl und fein granularer räumlicher GPU-Partitionierung die maximale Dienstleistungsfähigkeit im Vergleich zu bisherigen Arbeiten um das 11,3-fache steigert.