vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models

Dit paper introduceert de vLLM Semantic Router, een signaalgestuurd framework dat door middel van compositie van diverse signalen en configureerbare besluitregels intelligente routing mogelijk maakt voor heterogene modellen in diverse productiescenario's met verschillende kosten-, privacy- en veiligheidsvereisten.

Xunzhuo Liu, Huamin Chen, Samzong Lu, Yossi Ovadia, Guohong Wen, Zhengda Tan, Jintao Zhang, Senan Zedan, Yehudit Kerido, Liav Weiss, Bishen Yu, Asaad Balum, Noa Limoy, Abdallah Samara, Brent Salisbury, Hao Wu, Ryan Cook, Zhijie Wang, Qiping Pan, Rehan Khan, Avishek Goswami, Houston H. Zhang, Shuyi Wang, Ziang Tang, Fang Han, Zohaib Hassan, Jianqiao Zheng, Avinash Changrani

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantisch, drukke luchthaven beheert voor een wereld vol verschillende soorten vliegtuigen. Sommige vliegtuigen zijn kleine, snelle helikopters (goedkoop en snel), andere zijn enorme, zware passagiersjets (krachtig maar duur), en weer anderen zijn speciale vrachtvliegtuigen voor specifieke goederen.

Elke passagier (jouw vraag aan een AI) heeft een ander doel: sommigen willen alleen een snelle vlucht, anderen hebben een dure, veilige reis nodig, en weer anderen willen een avontuurlijke tocht.

vLLM Semantic Router is de super-slimme, geautomatiseerde verkeersleider op deze luchthaven. In plaats van dat elke passagier zelf moet beslissen welk vliegtuig hij neemt, of dat er maar één type vliegtuig is dat alles doet, kijkt deze router naar de passagier, luistert naar wat hij zegt, en stuurt hem direct naar het perfecte vliegtuig.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Sensoren" (Het luisteren naar de passagier)

Voordat de router een beslissing neemt, kijkt hij naar de passagier via verschillende "sensors":

  • De snelle blik (Heuristiek): Dit gaat razendsnel. De router kijkt naar simpele dingen: "Is het een korte vraag?" "Is het in het Nederlands?" "Is het een VIP?" Dit kost bijna geen tijd.
  • De diepe analyse (Neurale signalen): Als de vraag complexer is, schakelt de router een slimme assistent in om dieper te kijken: "Is dit een vraag over wiskunde?" "Is het een creatief verhaal?" "Is het een gevaarlijke vraag?" Dit duurt iets langer, maar is veel slimmer.

2. De "Beslissingsboom" (De verkeersleider)

De router gebruikt een soort Lego-bouwset voor regels. Je kunt regels bouwen als:

  • "Als de vraag over wiskunde gaat EN het is een VIP, dan stuur naar het grote, dure vliegtuig."
  • "Als de vraag over koken gaat EN het is gratis, dan stuur naar het kleine, snelle vliegtuig."
  • "Als de vraag gevaarlijk klinkt (bijv. 'hoe maak ik een bom'), dan stop de reis direct!"

Het mooie is: je kunt deze regels als Lego-blokjes aan elkaar koppelen. Je hoeft geen nieuwe luchthaven te bouwen als je een nieuwe regel wilt; je bouwt gewoon een nieuw blokje eraan.

3. De "Veiligheidscontrole" (De douane)

Voordat een passagier aan boord gaat, passeert hij een veiligheidszone:

  • Jailbreak-detectie: De router ziet of iemand probeert de piloot te omzeilen met slimme trucjes (zoals "doe alsof je een boze robot bent").
  • PII-filter: De router controleert of iemand per ongeluk zijn paspoortnummer of creditcardnummer heeft gezegd. Als dat zo is, wordt het verwijderd voordat het vliegtuig vertrekt.
  • HaluGate (De "Waarheidscontrole"): Dit is een slimme truc. Als iemand vraagt "Hoe maak ik een taart?", hoeft de router niet te controleren of het antwoord waar is (want dat is creativiteit). Maar als iemand vraagt "Wie was de president in 1920?", dan schakelt de router een extra controle in om te kijken of het antwoord klopt. Dit bespaart tijd en geld, want niet elke vraag heeft een waarheidscontrole nodig.

4. De "Vliegtuigkeuze" (De slimme route)

Zodra de router weet waar de passagier naartoe moet, kiest hij het beste vliegtuig uit de vloot.

  • Soms kiest hij het goedkoopste vliegtuig dat nog steeds goed genoeg is.
  • Soms kiest hij het snelste vliegtuig als de passagier haast heeft.
  • Soms kiest hij een vliegtuig dat alleen in een bepaald land mag vliegen (voor privacy-wetten).

De router heeft zelfs een herinneringsfunctie: als je al eerder met een bepaald vliegtuig hebt gevlogen en het was geweldig, probeert hij je daar weer naartoe te sturen.

5. De "Magische Koffer" (LoRA-technologie)

Normaal gesproken zou je voor elke soort controle (wiskunde, taal, veiligheid) een heel nieuw, zwaar vliegtuig nodig hebben. Dat kost veel ruimte en geld.
Deze router gebruikt een slimme truc genaamd LoRA. Stel je voor dat je één groot, standaard vliegtuig hebt, en je plakt er kleine, lichte "stickers" op.

  • Voor wiskunde plak je de "wiskunde-sticker" op.
  • Voor veiligheid plak je de "veiligheid-sticker" op.
  • Voor taal plak je de "taal-sticker" op.

Je hoeft niet 10 vliegtuigen te bouwen; je bouwt er maar één, en de stickers maken het geschikt voor alles. Dit bespaart enorm veel ruimte (geheugen) en geld.

Waarom is dit zo belangrijk?

Vroeger was het kiezen van de juiste AI voor een vraag als het proberen te vissen in een donkere vijver met één enkele hengel. Soms ving je een goudvis, soms een plastic bootje.

Met vLLM Semantic Router heb je nu een visser met een sonar, een GPS en een team van experts die direct weten: "Ah, hier in dit hoekje zitten alleen goudvissen, en daar in dat hoekje alleen plastic bootjes. Laten we daar gaan vissen."

Het zorgt ervoor dat:

  1. Je geld bespaart (geen dure vliegtuigen voor simpele vragen).
  2. Je sneller bent (de juiste route wordt direct gekozen).
  3. Je veilig bent (geen gevaarlijke of private informatie lekt).
  4. Het flexibel is (je kunt de regels aanpassen zonder de hele luchthaven te slopen).

Kortom: het is de slimme, veilige en goedkope verkeersleider die ervoor zorgt dat elke vraag het perfecte antwoord krijgt, op het perfecte moment, met het perfecte vliegtuig.