Adapter-Augmented Bandits for Online Multi-Constrained Multi-Modal Inference Scheduling

Deze paper introduceert M-CMAB, een adaptieve bandit-gebaseerde framework voor online scheduling van multi-modale LLM-inferenties dat door middel van een voorspeller, een constrainer en een planner effectief omgaat met heterogene backends en meervoudige budgetbeperkingen om de responskwaliteit te maximaliseren.

Xianzhi Zhang, Yue Xu, Yinlin Zhu, Di Wu, Yipeng Zhou, Miao Hu, Guocong Quan

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente assistent hebt die niet alleen tekst kan lezen, maar ook foto's, geluiden en diagrammen begrijpt. Dit is een "Multi-Modal Large Language Model" (MLLM). Deze assistent kan geweldig werk leveren, maar hij heeft een groot probleem: hij is duur en traag om te draaien.

Soms moet hij een heel ingewikkelde vraag beantwoorden (zoals een wiskundeprobleem oplossen met een plaatje), en dan heb je de krachtigste, duurste computer in de wolken nodig. Soms is het een simpele vraag (zoals "wat staat er op dit bordje?"), en dan volstaat een klein, snel programmaatje op je eigen telefoon.

Het probleem is dat we niet altijd weten welke vraag we krijgen, en we hebben een strak budget (tijd en geld). Als we elke vraag naar de duurste computer sturen, zijn we snel failliet. Sturen we alles naar de goedkope telefoon, dan krijgen we slechte antwoorden.

De auteurs van dit paper hebben een slimme oplossing bedacht, genaamd M2-CMAB. Laten we dit uitleggen met een paar alledaagse vergelijkingen.

1. De Drie Problemen (De Uitdagingen)

Stel je voor dat je een chef-kok bent in een druk restaurant met twee keukens:

  • Keuken A (De Cloud): Heeft de beste apparatuur, maakt de lekkerste gerechten, maar is traag en kost veel geld.
  • Keuken B (De Telefoon): Werkt supersnel en goedkoop, maar kan alleen simpele salades maken.

Je hebt drie problemen:

  1. Het Voorspellen: Je weet niet van tevoren of een klant een simpele salade bestelt of een complexe soufflé. Hoe weet je welke keuken je moet kiezen zonder het gerecht al te hebben gemaakt?
  2. Het Budget: Je hebt maar €100 en 1 uur tijd voor de hele avond. Als je te veel dure gerechten maakt, heb je voor de rest van de avond niets meer.
  3. De Beslissing: Je moet nu beslissen. Je kunt niet wachten tot de klant vertelt of hij blij is met het eten; je moet de beslissing nemen voordat het eten de keuken in gaat.

2. De Oplossing: M2-CMAB (De Slimme Chef)

De auteurs hebben een systeem gebouwd dat als een super-chef werkt die drie specifieke hulpmiddelen gebruikt:

A. De "Slimme Schattinger" (De Predictor)

In plaats van elke keer de hele dure computer te laten draaien om te zien hoe moeilijk een vraag is, gebruikt dit systeem een koud, vast model (een "vaste basis") dat de vraag snel leest.

  • De Analogie: Stel je voor dat je een ervaren kok hebt die alleen naar de titel van het gerecht kijkt en direct weet: "Ah, dit is een zware soufflé, dat moet naar Keuken A." of "Dit is een salade, dat kan naar Keuken B."
  • De Sluimheid: Het systeem leert niet de hele kok opnieuw (dat zou te lang duren), maar past alleen kleine aanpassingen (de "adapters") aan. Het is alsof je de kok een nieuwe schort geeft met een speciaal recept voor die ene dag, in plaats van hem opnieuw te laten studeren. Dit gaat supersnel.

B. De "Budgetbewaker" (De Constrainer)

Dit onderdeel houdt het geld en de tijd in de gaten.

  • De Analogie: Stel je voor dat je een portemonnee hebt die automatisch een waarschuwing geeft. Als je te veel dure gerechten bestelt, wordt de portemonnee "zwaarder" en zegt hij: "Hé, we hebben nog maar weinig geld, kies de goedkope optie!"
  • Het systeem past dit in real-time aan. Als je budget nog vol is, mag je durven kiezen voor de dure optie. Als het budget leeg begint te lopen, wordt het systeem conservatiever.

C. De "Beslissings-Maker" (De Scheduler)

Dit is de chef die de uiteindelijke keuze maakt.

  • De Analogie: De chef kijkt naar de schatting van de "Slimme Schattinger" (wat wordt het gerecht?) en luistert naar de "Budgetbewaker" (hoeveel geld hebben we nog?).
  • Exploratie vs. Exploitatie: Soms probeert de chef iets nieuws uit (bijvoorbeeld: "Laten we deze keer eens een dure optie proberen, misschien is het wel goedkoop?"). Soms kiest hij voor de bekende, veilige optie. Het systeem balanceert dit perfect: niet te veel gokken (want dan ben je je geld kwijt), maar niet te bang zijn (want dan mis je goede kansen).

3. Waarom is dit zo goed?

In hun proeven hebben ze dit systeem getest met echte data (vragen over foto's, wiskunde, gesprekken) en verschillende computers.

  • Het resultaat: Hun systeem (M2-CMAB) presteerde veel beter dan andere methoden. Het haalde bijna hetzelfde resultaat als een "Orakel" (een magische toekomstvoorspeller die alles perfect weet), maar dan zonder die magie.
  • De winst: Ze kregen tot 14% meer kwaliteit voor hetzelfde geld en dezelfde tijd.

Samenvattend in één zin:

Dit paper beschrijft een slimme manier om AI-vragen te verdelen tussen snelle, goedkope computers en trage, dure computers, zodat je altijd het beste antwoord krijgt zonder je geld of tijd te verkwisten, zelfs als je niet weet wat de vraag van tevoren is.

Het is als een slimme navigatie-app voor AI: hij weet precies welke route (computer) je moet nemen om op tijd en zonder tol te betalen op je bestemming (het goede antwoord) te komen.