SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot restaurant runt met honderden verschillende chefs. Sommige chefs zijn gespecialiseerd in Italiaans, anderen in Sushi, weer anderen in Veganistisch.

In de huidige wereld van AI (grote taalmodellen of LLM's) werkt het zo: elke chef heeft zijn eigen keuken (de GPU's) en zijn eigen serveerders. Als er een bestelling binnenkomt voor Italiaans, gaat die naar de Italiaanse chef. Als er een bestelling komt voor Sushi, gaat die naar de Sushi-chef.

Het probleem:
Stel dat er op een dinsdagavond heel veel mensen Italiaans bestellen, maar bijna niemand Sushi. De Italiaanse chef zit in de stress, de serveerders rennen rond en de serveerders van de Sushi-chef staan alleen maar te wachten. De keuken van de Sushi-chef is half leeg, terwijl de Italiaanse keuken overvol is. Dit is inefficiënt en kost veel geld (want je betaalt voor alle keukens, ook de lege).

In de AI-wereld noemen ze dit "inter-model isolatie". Elke AI-model heeft zijn eigen, afgesloten ruimte voor het genereren van antwoorden (de "decode"-fase), zelfs als die ruimte niet vol zit.

De Oplossing: SUN (Shared Use of Next-token Prediction)

De auteurs van dit paper, van NAVER Cloud, hebben een slimme oplossing bedacht genaamd SUN. Ze vergelijken het met het herverdelen van personeel in dat restaurant.

1. De Slimme Verdeling (Prefill vs. Decode)

Elke AI-opdracht heeft twee stappen:

De Voorbereiding (Prefill): De chef leest de bestelling (de prompt) en maakt een plan. Dit is zwaar werk, maar gebeurt één keer per bestelling.
Het Serveren (Decode): De chef schrijft het antwoord woord voor woord. Dit is een langzaam, repetitief proces dat veel geheugen kost, maar weinig rekenkracht per woord.

SUN's idee:
Ze zeggen: "Waarom heeft elke chef zijn eigen serveerders?"
In plaats daarvan maken ze een gemeenschappelijke pool van serveerders.

De Specifieke Chef (de Prefill-module) wordt nog steeds getraind voor zijn specialiteit (bijv. wiskunde of coderen). Hij leest de bestelling en maakt een speciaal "kookplan" (de KV-cache).
Maar het Schrijven van het antwoord (de Decode-module) wordt gedaan door één grote, vaste groep serveerders die voor iedereen hetzelfde werkt.

2. De Magische Truc: Alleen de Chef Opleiden

Je zou denken: "Als de serveerder niet weet dat hij voor een wiskundige chef werkt, gaat hij dan gekke antwoorden geven?"

Dat is het grote probleem dat SUN oplost. Ze doen iets heel slim:
Ze laten de serveerders (de decode-module) vrij. Ze veranderen ze niet.
In plaats daarvan trainen ze alleen de chefs (de prefill-modules) om een heel specifiek soort "kookplan" te maken dat perfect past bij die vaste serveerders.

Het is alsof je de chefs leert om hun bestellingen in een heel specifiek formaat te schrijven, zodat de vaste serveerders ze zonder problemen kunnen uitvoeren, ongeacht of het om wiskunde, code of een verhaal gaat.

Het resultaat:

De serveerders werken nu 24/7 voluit, omdat ze bestellingen van alle chefs kunnen afhandelen.
Je hebt minder serveerders nodig voor dezelfde hoeveelheid werk.
De kosten dalen enorm, en de snelheid gaat omhoog.

3. De Extra Snelle Versie: QSUN (Quantized SUN)

Om het nog sneller en goedkoper te maken, gebruiken ze ook QSUN.
Stel je voor dat de serveerders niet met zware, dure uniformen werken, maar met lichte, snelle kleding. Dit maakt ze sneller, maar soms vergeten ze details.

Om dit op te lossen, trainen ze de chefs (de prefill-modules) opnieuw om hun bestellingen iets anders te formuleren, zodat de lichte serveerders ze toch perfect begrijpen.

Resultaat: De serveerders zijn 45% sneller, en de kwaliteit van de antwoorden blijft bijna hetzelfde als bij de dure, zware versie.

Samenvatting in een Metaphor

Huidige situatie: Elke AI-model heeft zijn eigen, gesloten fabriek. Als fabriek A stilvalt, kan fabriek B niet helpen, zelfs niet als fabriek B vol zit.
SUN: Alle fabrieken sturen hun halffabrikaten (de voorbereiding) naar één grote, centrale assemblagelijn. Die assemblagelijn is zo flexibel dat hij producten van alle fabrieken kan afhandelen.
Het geheim: De fabrieken leren hun halffabrikaten zo te maken dat ze perfect in de centrale lijn passen, zonder dat de centrale lijn zelf hoeft te veranderen.

Conclusie:
SUN maakt het mogelijk om honderden verschillende AI-modellen te draaien met veel minder hardware, zonder dat de kwaliteit van de antwoorden daalt. Het is een manier om de "leegloop" in de AI-industrie te voorkomen en alles veel efficiënter te maken.

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

De Oplossing: SUN (Shared Use of Next-token Prediction)

1. De Slimme Verdeling (Prefill vs. Decode)

2. De Magische Truc: Alleen de Chef Opleiden

3. De Extra Snelle Versie: QSUN (Quantized SUN)

Samenvatting in een Metaphor

Probleemstelling

Methodologie: SUN (Shared Use of Next-token Prediction)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

De Oplossing: SUN (Shared Use of Next-token Prediction)

1. De Slimme Verdeling (Prefill vs. Decode)

2. De Magische Truc: Alleen de Chef Opleiden

3. De Extra Snelle Versie: QSUN (Quantized SUN)

Samenvatting in een Metaphor

Probleemstelling

Methodologie: SUN (Shared Use of Next-token Prediction)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems