WVA: A Global Optimization Control Plane for llmd
Dit paper introduceert WVA, een gespecialiseerd besturingsvlak dat nauw samenwerkt met \texttt{llmd} om schaalingsbeslissingen te koppelen aan de interne verzadigingsstatus van de inferentieserver, wat resulteert in een 37% hogere effectieve doorvoer, een 10-voudige reductie in request-falen en lagere energiekosten door gebruik te maken van heterogene hardware.