Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve is een open-source, gedistribueerd serversysteem dat Any-to-Any multimodale modellen ondersteunt door flexibele taakabstractie en een efficiënte record-and-replay-uitvoeringsmodus te gebruiken, wat resulteert in tot 3,81 keer hogere doorvoer en 5,79 keer lagere tail-latency.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf Chowdhury

Gepubliceerd Fri, 13 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superkrachtige robot hebt die niet alleen tekst kan lezen en schrijven, maar ook foto's kan bekijken, video's kan analyseren, geluid kan horen én zelf muziek of video's kan maken. Dit soort robots noemen we "Any-to-Any" modellen. Ze zijn ongelooflijk slim, maar ze zijn ook heel lastig om te laten werken in de praktijk.

Waarom? Omdat elke vraag die je aan de robot stelt, een heel ander pad door zijn brein neemt.

  • Vraag je alleen een tekst? Dan gebruikt hij alleen zijn taalcentrum.
  • Vraag je een foto te maken? Dan moet hij eerst een tekenaar activeren.
  • Vraag je een video met geluid? Dan moet hij een regisseur, een cameraman én een geluidstechnicus tegelijk aan het werk zetten.

Het probleem met de huidige systemen is dat ze de robot als één groot, stijf blok behandelen. Of je nu een simpele tekst vraagt of een complexe video, het hele blok moet aan het werk, wat veel energie kost en langzaam is.

Cornserve is de oplossing die de onderzoekers van de Universiteit van Michigan hebben bedacht. Ze noemen het een "distribueerd serversysteem", maar laten we het zo zien:

1. De Grote Keuken (Het Concept)

Stel je een restaurant voor.

  • De oude manier (Monolithisch): Er is één enkele chef-kok die alles doet. Hij moet de soep koken, het vlees braden, de salade snijden én het dessert bakken. Als er een bestelling binnenkomt voor alleen een salade, moet de chef toch zijn hele keukenactiviteit starten. Het is inefficiënt en traag.
  • De Cornserve-methode: Ze breken de keuken op in gespecialiseerde stations. Er is een saladebar, een grillstation, een bakkerij en een drankenstation.
    • Als je een salade bestelt, gaat die direct naar de saladebar.
    • Als je een steak met aardappelen wilt, gaat het vlees naar de grill en de aardappels naar de bakkerij, en worden ze pas aan het einde samengevoegd.
    • Als je een complex gerecht wilt, werken alle stations tegelijk, maar elk station doet alleen wat het nodig heeft.

2. Hoe werkt Cornserve precies?

A. De "Fissie" (Het Opbreken van de Robot)
Cornserve neemt het enorme model en splitst het op in losse onderdelen (zoals de chef-koks in de keuken).

  • De Encoder (die beelden of geluid begrijpt) zit op zijn eigen computer.
  • De LLM (het brein dat denkt) zit op een andere.
  • De Generator (die nieuwe beelden of geluid maakt) zit weer ergens anders.
    Elk onderdeel kan onafhankelijk groeien. Als er veel mensen zijn die audio willen maken, kun je gewoon meer "geluidschefs" toevoegen zonder dat je nieuwe "beeldschefs" nodig hebt.

B. De "Opname en Afspeel" Truc (Record-and-Replay)
Dit is het slimste stukje. Omdat de robot soms gekke dingen doet (bijv. "als de foto donker is, maak hem lichter, anders niet"), is het moeilijk om van tevoren te weten welke stations er nodig zijn.
Cornserve doet het zo:

  1. Opname: De robot doet alsof hij de taak uitvoert, maar in "snelheid 1000x". Hij schrijft op: "Oké, eerst station A, dan station B, en als het resultaat X is, dan station C". Hij doet dit zonder echt te rekenen, dus het is supersnel.
  2. Afspeel: Zodra het pad bekend is, stuurt het systeem de echte opdracht naar de juiste stations. De stations werken dan echt, maar ze weten precies wat ze moeten doen en hoe ze met elkaar moeten praten.

C. De Koeriers (Sidecars)
Omdat de onderdelen op verschillende computers staan, moeten ze gegevens uitwisselen (bijvoorbeeld: het resultaat van de beeldherkenning moet naar het brein).
Cornserve gebruikt speciale koeriers (Sidecars) die de data direct van de ene computer naar de andere slepen, zonder dat het de "chef-kok" (de besturing) hoeft te storen. Ze gebruiken snelle wegen (zoals RDMA en gedeeld geheugen) zodat de data in milliseconden over is.

3. Wat levert dit op?

De resultaten zijn indrukwekkend:

  • Snelheid: Het systeem is tot 3,8 keer sneller dan de oude methoden.
  • Reageren: De tijd die wachtende klanten moeten wachten (de "staartlatency") is tot 5,8 keer korter.
  • Flexibiliteit: Het kan elk type "Any-to-Any" model aan, van tekst-naar-beeld tot video-naar-geluid.

Samenvattend

Cornserve is als het bouwen van een modulair, slim restaurant in plaats van een statische fabriek. Het laat de verschillende onderdelen van een AI-robot los van elkaar werken, zodat ze precies doen wat er gevraagd wordt, op het moment dat het nodig is. Hierdoor wordt de robot niet alleen sneller, maar ook veel efficiënter in het gebruik van zijn energie (GPU's).

Het is een open-systeem, wat betekent dat iedereen het kan gebruiken om de volgende generatie slimme, multimodale AI's te bouwen.