Serving Compound Inference Systems on Datacenter GPUs

Dit paper introduceert JigsawServe, het eerste serveerframework dat end-to-end latency, nauwkeurigheid en GPU-kosten optimaliseert door adaptief modelvarianten te kiezen en ruimtelijke GPU-partitionering toe te passen voor compound inference-systemen, wat resulteert in een tot 11,3 keer hogere doorvoer en aanzienlijk lager resourcegebruik dan bestaande oplossingen.

Sriram Devata, Rahul Singh, Sarita Adve

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot, modern restaurant runt in een drukke stad (het datacenter). In het verleden kookte dit restaurant slechts één soort gerecht per bestelling: een simpele hamburger (één AI-model). Maar nu willen de klanten complexe maaltijden: eerst een salade, dan een soep, en tot slot een nagerecht, allemaal in één keer besteld. Dit is wat de auteurs een "samengesteld inferentiesysteem" noemen: een keten van verschillende AI-taken die samenwerken om één antwoord te geven.

Het probleem? De keuken (de GPU's) is duur en beperkt. Als je voor elke bestelling een hele nieuwe chef-kok en een hele nieuwe keuken nodig hebt, ben je snel failliet. Je wilt juist zo efficiënt mogelijk koken met zo min mogelijk hulpbronnen, zonder dat de klanten wachten of dat het eten (de nauwkeurigheid) slecht wordt.

Hier komt JIGSAWSERVE om de hoek kijken. Het is een slimme "hoofd-kok" die de hele keuken optimaliseert. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Drie Slimme Trucs van JIGSAWSERVE

JIGSAWSERVE gebruikt drie magische trucs om het restaurant super-efficiënt te maken:

A. De "Maatwerk Keukens" (Ruimtelijke Partitie)
Stel je voor dat je een enorme, dure oven hebt. Normaal gesproken staat er één grote pan in, en de rest van de oven blijft leeg. Dat is zonde!
JIGSAWSERVE gebruikt een techniek (zoals bij NVIDIA's MIG) om die ene grote oven op te delen in veel kleine, afzonderlijke oventjes.

  • Voorbeeld: In plaats van één grote pan soep te koken, kun je nu in dezelfde oven tegelijkertijd een klein bakje soep, een bordje salade en een stukje taart bereiden. Elke "taak" krijgt zijn eigen kleine oventje, maar ze delen dezelfde grote oven. Zo wordt de oven nooit leeg staan.

B. De "Slimme Menu-opties" (Accuracy Scaling)
Niet elke klant wil de duurste, ultieme truffelsoep. Soms is een goede, snelle soep genoeg.
JIGSAWSERVE heeft voor elke taak in de keten verschillende "versies" van het recept.

  • Voorbeeld: Voor de salade (een simpele taak) kiest het systeem een snelle, goedkope versie van het recept. Voor de taart (een moeilijke taak) kiest het de dure, precieze versie. Door hier slim mee te schakelen, bespaar je tijd en energie, terwijl de klant nog steeds tevreden is.

C. De "Keten-Strateeg" (Task-Graph Informed Budgeting)
Dit is de meest belangrijke truc. Het systeem kijkt naar het gehele plaatje, niet alleen naar één gerecht.

  • Voorbeeld: Als de salade (taak 1) snel klaar is, maar de soep (taak 2) lang duurt, dan weet het systeem: "Oké, we kunnen bij de salade iets minder tijd besteden, zodat we meer tijd over hebben voor de soep." Het deelt de tijd en de energie slim uit over de hele keten, zodat het eindresultaat (de maaltijd) op tijd en goed is.

2. Het Grote Resultaat: Meer met Minder

De auteurs hebben dit systeem getest in een enorme testkeuken met veel ovens (GPU's). De resultaten waren verbazingwekkend:

  • 11,3 keer meer klanten: Met dezelfde hoeveelheid ovens kon JIGSAWSERVE 11,3 keer meer bestellingen per seconde afhandelen dan de beste systemen die daarvoor bestonden.
  • Slechts 43% gebruik: Het systeem had gemiddeld maar 43% van de beschikbare ovens nodig om aan alle eisen te voldoen. De andere systemen gebruikten vaak meer dan het dubbele.
  • Bijna geen klachten: De klanten kregen hun eten op tijd (minder dan 0,6% vertraging) en het smaakte precies goed (de nauwkeurigheid bleef hoog).

3. Waarom is dit zo belangrijk?

Vroeger dachten mensen: "Als we meer willen, moeten we meer ovens kopen." JIGSAWSERVE bewijst dat je door slimmer te plannen (de oven op te delen, de recepten aan te passen en de keten te optimaliseren) veel meer kunt doen met wat je al hebt.

Het is alsof je een puzzel oplost:

  • De puzzelstukjes zijn de verschillende AI-modellen.
  • De puzzelplaat is de GPU.
  • JIGSAWSERVE is de persoon die de stukjes precies in de juiste vakjes legt, zodat er geen ruimte overblijft en het plaatje perfect is.

Kortom: JIGSAWSERVE is de eerste "meester-kok" die weet hoe je een complexe, multi-taken AI-systeem draait op datacenter-chips, zodat we straks snellere XR-brillen, slimme auto's en betere chatbots kunnen hebben, zonder dat de energierekening en de hardwarekosten de pan uitrijzen.