Oorspronkelijke auteurs: Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy
Oorspronkelijke auteurs: Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy
Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer
Technische Samenvatting: FMplex – Model Virtualisatie voor het Serven van Extensibele Foundation Models
Probleemstelling
Foundation Models (FMs) zijn de ruggengraat geworden voor diverse downstream-toepassingen binnen taal-, visie-, tijdreeks- en multimodale domeinen. De huidige systemen voor het serveren van modellen (bijv. NVIDIA Triton) zijn echter ontworpen rond een "instance-per-taak" paradigma, waarbij elke aangepaste taak een aparte, onafhankelijke kopie van het model laadt. Deze aanpak is inefficiënt voor FMs omdat:
- Resourceverspilling: FMs bestaan uit een massieve, gedeelde backbone (vaak gigabytes groot) en lichtgewicht taspecifieke extensies (heads, adapters). Het laden van een volledige backbone voor elke taak repliceert de zwaarste component, wat acceleratorgeheugen verspilt.
- Verlies van Efficiëntie: Onafhankelijke instanties voorkomen de amortisatie van batching- en laadkosten over verschillende taken heen.
- Interferentie en Isolatie: Het simpelweg samenlocateren van taken op een gedeelde GPU zonder logische scheiding leidt tot kruis-taakinterferentie, waarbij lastpieken van één taak de prestaties van andere taken verslechteren.
- Rigide Lifecycle: Huidige systemen koppelen de levenscyclus van een taak aan de fysieke modelinstantie, wat het moeilijk maakt om taken toe te voegen, te verwijderen of te wijzigen zonder de gehele backbone opnieuw te implementeren.
Het artikel betoogt dat de FM-backbone behandeld moet worden als een gedeelde systeem-substraat (analoog aan een CPU of geheugen in OS-virtualisatie) in plaats van een per-taak deployment-artefact.
Methodologie: FMplex
De auteurs presenteren FMplex, een servingsysteem dat Foundation Model Virtualisatie introduceert. Het kernconcept is het Virtual Foundation Model (vFM), een logisch privaat FM-instantie die aan elke taak wordt gepresenteerd, welke wordt ondersteund door een gedeelde fysieke FM-instantie.
Belangrijke Architecturale Componenten
Virtual Foundation Model (vFM) Abstractie:
- Ontkoppeling: De vFM ontkoppelt het logische beeld van de taak (aanpassing, staat, levenscyclus) van de fysieke backbone.
- Structuur: Elke vFM bevat een Virtual Queue (voor request-routing), Task Extensions (encoders, decoders en PEFT-adapters zoals LoRA), en State/Accounting (SLO's, prioriteiten, gewichten).
- Mechanisme: Wanneer een taak zijn vFM aanroept, onderschept FMplex de aanroep, routeert deze door de virtuele wachtrij en voert deze uit op de gedeelde fysieke backbone, waarbij taspecifieke adapters indien nodig worden toegepast.
Batch-Aware Fair Queueing (BFQ) Scheduler:
- Uitdaging: Standaard fair-share schedulers (bijv. Start-Time Fair Queueing) opereren op basis van individuele requests en houden geen rekening met de efficiëntievoordelen van request batching, wat cruciaal is voor de doorvoer van FM's.
- Oplossing: BFQ is een work-conserving scheduler die benaderende weighted fair sharing optimaliseert voor batching.
- Werking: Het wijst start/finish tags toe aan requests op basis van taakgewichten. Het vormt iteratief batches tot een maximale grootte (Bmax) of totdat een SLO-deadline dreigt te worden overschreden.
- Adapter Afhandeling: BFQ handelt adapter-incompatibiliteit af door eerst requests over de gemeenschappelijke backbone te batchen en vervolgens incompatibele adapter-verschillen sequentieel te verwerken, waardoor eerlijkheid wordt gewaarborgd zonder de batching-efficiëntie op te offeren.
- Token-gebaseerde Ondersteuning: Voor token-gebaseerde FMs (bijv. LLM's), rekent BFQ token-niveau werk af in service-tijdseenheden om consistentie met request-niveau runtimes te behouden.
Task-API en Serving Stack:
- Task-API: Een programmeerinterface waarmee gebruikers taak-pipelines kunnen construeren door encoders, decoders en adapters aan een vFM te koppelen. Het ondersteunt zowel inferentie als fine-tuning met dezelfde pipeline-object.
- FMplex-Controller: Een cluster-level controller die het deploymentplan beheert. Het gebruikt een "Max-Share" heuristiek om taken aan bestaande fysieke backbones te binden waar mogelijk, om zo de instantiatie van nieuwe backbones te minimaliseren.
- Elastische Adaptatie: Wanneer de belasting verandert, kan het systeem de vFM van een taak herbinden aan een andere bestaande fysieke backbone, waarbij alleen de lichtgewicht taak-state (wachtrijen, adapters) wordt verplaatst in plaats van de zware backbone opnieuw te laden.
Belangrijkste Bijdragen
- FM Virtualisatie voor Deployment Sharing: De introductie van de vFM-abstractie, die meerdere onafhankelijk aangepaste taken toestaat om een enkele fysieke FM-instantie te delen terwijl de logische isolatie en onafhankelijke levenscycli behouden blijven.
- Sharing-Based Serving Stack: Een end-to-end systeem dat de Task-API integreert voor extensibele taakconstructie en de FMplex-Controller voor sharing-bewuste cluster-deployment.
- Prototype Implementatie: Een functioneel prototype dat meerdere modaliteiten ondersteunt (tijdreeksen, visie, LLM's, VLM's) en runtimes (PyTorch, vLLM), wat flexibiliteit over heterogene FMs aantoont.
- Uitgebreide Evaluatie: Een rigoureuze evaluatie over 7 backbone FMs (16 varianten) en 92 downstream taken.
Experimentele Resultaten
De evaluatie werd uitgevoerd op een 16-node AWS-cluster (NVIDIA T4 GPU's) met behulp van synthetische en real-world traces (Azure Functions).
Latentie Reductie:
- Vergeleken met Spatial Partitioning (het isoleren van taken op GPU-partities), verminderde FMplex de latentie met wel 80%.
- Vergeleken met Best-Effort Co-location (meerdere volledige instanties op één GPU zonder isolatie), verminderde FMplex de latentie met wel 33,3%.
- Op clusterschaal verminderde FMplex de gemiddelde latentie met 15% en de P99-latentie met 26% vergeleken met best-effort co-location.
Resource Efficiëntie en Schaalbaarheid:
- Geheugen: FMplex vermindert het GPU-geheugengebruik aanzienlijk. Zo vereiste het co-locateren van 10 tijdreeks-taken op een gedeelde backbone slechts 1,17× het geheugen van een enkele taak, vergeleken met 10× bij onafhankelijke deployment.
- Doorvoer: FMplex kon tot 6× meer taken aan bij lage belasting (waar geheugen de bottleneck is) en 8–12% meer taken bij gemiddelde/hoge belasting (waar rekenkracht de bottleneck is) vergeleken met best-effort co-location.
- Eerlijkheid (Fairness): Onder asymmetrische service-gewichten (bijv. 3:1), behield FMplex fairness scores van 0,97–0,98 terwijl het 84 RPS ondersteunde. In tegenstelling hiertoe bereikte non-batched fair-sharing een vergelijkbare fairness bij slechts 37 RPS, terwijl onbeheerd sharing de fairness liet dalen naar 0,66.
Adaptatie Overhead:
- FMplex demonstreerde snelle adaptatie aan workloads-surges. Het herbinden van een taak aan een bestaande backbone duurde 0,5 seconde, terwijl het laden van een nieuwe backbone-instantie (zoals vereist door non-sharing systemen) ongeveer 58 seconden duurde, wat een latentiepiek van twee ordes van grootte veroorzaakte.
Overhead:
- De scheduling overhead geïntroduceerd door FMplex (queue handling en tag computation) was minimaal, met een gemiddelde van 0,35 ms per request, wat verwaarloosbaar is vergeleken met de backbone executietijden.
Betekenis en Claims
Het artikel claimt dat FMplex de fundamentele mismatch aanpakt tussen de architectuur van Foundation Models (zware gedeelde backbones, lichtgewicht extensies) en huidige serving-systemen (per-instance deployment). Door de FM-backbone als een virtualisatie-substraat te behandelen, maakt FMplex het volgende mogelijk:
- Deployment Sharing: Het amortiseren van de zware geheugen- en rekenkosten van de backbone over meerdere taken.
- Taak Isolatie: Het bieden van prestatiegaranties en isolatie per taak zonder de resource-penalty van volledige modelreplicatie.
- Operationele Flexibiliteit: Het toevoegen, verwijderen of wijzigen van taken zonder de onderliggende infrastructuur opnieuw te deployen.
De auteurs positioneren FMplex niet enkel als een optimalisatie voor specifieke modellen, maar als een generaliseerbare systeemlaag die klassieke virtualisatieprincipes uitbreidt naar het domein van Foundation Model serving, wat efficiëntere en schaalbaardere AI-infrastructuur mogelijk maakt.
Verdrinkt u in papers in uw vakgebied?
Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.
Ontvang wekelijks de beste machine learning papers.
Vertrouwd door onderzoekers van Stanford, Cambridge en de Franse Academie van Wetenschappen.
Check je inbox om je aanmelding te bevestigen.
Er ging iets mis. Opnieuw proberen?
Geen spam, altijd opzegbaar.