Adapter-Augmented Bandits for Online Multi-Constrained Multi-Modal Inference Scheduling

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente assistent hebt die niet alleen tekst kan lezen, maar ook foto's, geluiden en diagrammen begrijpt. Dit is een "Multi-Modal Large Language Model" (MLLM). Deze assistent kan geweldig werk leveren, maar hij heeft een groot probleem: hij is duur en traag om te draaien.

Soms moet hij een heel ingewikkelde vraag beantwoorden (zoals een wiskundeprobleem oplossen met een plaatje), en dan heb je de krachtigste, duurste computer in de wolken nodig. Soms is het een simpele vraag (zoals "wat staat er op dit bordje?"), en dan volstaat een klein, snel programmaatje op je eigen telefoon.

Het probleem is dat we niet altijd weten welke vraag we krijgen, en we hebben een strak budget (tijd en geld). Als we elke vraag naar de duurste computer sturen, zijn we snel failliet. Sturen we alles naar de goedkope telefoon, dan krijgen we slechte antwoorden.

De auteurs van dit paper hebben een slimme oplossing bedacht, genaamd M2-CMAB. Laten we dit uitleggen met een paar alledaagse vergelijkingen.

1. De Drie Problemen (De Uitdagingen)

Stel je voor dat je een chef-kok bent in een druk restaurant met twee keukens:

Keuken A (De Cloud): Heeft de beste apparatuur, maakt de lekkerste gerechten, maar is traag en kost veel geld.
Keuken B (De Telefoon): Werkt supersnel en goedkoop, maar kan alleen simpele salades maken.

Je hebt drie problemen:

Het Voorspellen: Je weet niet van tevoren of een klant een simpele salade bestelt of een complexe soufflé. Hoe weet je welke keuken je moet kiezen zonder het gerecht al te hebben gemaakt?
Het Budget: Je hebt maar €100 en 1 uur tijd voor de hele avond. Als je te veel dure gerechten maakt, heb je voor de rest van de avond niets meer.
De Beslissing: Je moet nu beslissen. Je kunt niet wachten tot de klant vertelt of hij blij is met het eten; je moet de beslissing nemen voordat het eten de keuken in gaat.

2. De Oplossing: M2-CMAB (De Slimme Chef)

De auteurs hebben een systeem gebouwd dat als een super-chef werkt die drie specifieke hulpmiddelen gebruikt:

A. De "Slimme Schattinger" (De Predictor)

In plaats van elke keer de hele dure computer te laten draaien om te zien hoe moeilijk een vraag is, gebruikt dit systeem een koud, vast model (een "vaste basis") dat de vraag snel leest.

De Analogie: Stel je voor dat je een ervaren kok hebt die alleen naar de titel van het gerecht kijkt en direct weet: "Ah, dit is een zware soufflé, dat moet naar Keuken A." of "Dit is een salade, dat kan naar Keuken B."
De Sluimheid: Het systeem leert niet de hele kok opnieuw (dat zou te lang duren), maar past alleen kleine aanpassingen (de "adapters") aan. Het is alsof je de kok een nieuwe schort geeft met een speciaal recept voor die ene dag, in plaats van hem opnieuw te laten studeren. Dit gaat supersnel.

B. De "Budgetbewaker" (De Constrainer)

Dit onderdeel houdt het geld en de tijd in de gaten.

De Analogie: Stel je voor dat je een portemonnee hebt die automatisch een waarschuwing geeft. Als je te veel dure gerechten bestelt, wordt de portemonnee "zwaarder" en zegt hij: "Hé, we hebben nog maar weinig geld, kies de goedkope optie!"
Het systeem past dit in real-time aan. Als je budget nog vol is, mag je durven kiezen voor de dure optie. Als het budget leeg begint te lopen, wordt het systeem conservatiever.

C. De "Beslissings-Maker" (De Scheduler)

Dit is de chef die de uiteindelijke keuze maakt.

De Analogie: De chef kijkt naar de schatting van de "Slimme Schattinger" (wat wordt het gerecht?) en luistert naar de "Budgetbewaker" (hoeveel geld hebben we nog?).
Exploratie vs. Exploitatie: Soms probeert de chef iets nieuws uit (bijvoorbeeld: "Laten we deze keer eens een dure optie proberen, misschien is het wel goedkoop?"). Soms kiest hij voor de bekende, veilige optie. Het systeem balanceert dit perfect: niet te veel gokken (want dan ben je je geld kwijt), maar niet te bang zijn (want dan mis je goede kansen).

3. Waarom is dit zo goed?

In hun proeven hebben ze dit systeem getest met echte data (vragen over foto's, wiskunde, gesprekken) en verschillende computers.

Het resultaat: Hun systeem (M2-CMAB) presteerde veel beter dan andere methoden. Het haalde bijna hetzelfde resultaat als een "Orakel" (een magische toekomstvoorspeller die alles perfect weet), maar dan zonder die magie.
De winst: Ze kregen tot 14% meer kwaliteit voor hetzelfde geld en dezelfde tijd.

Samenvattend in één zin:

Dit paper beschrijft een slimme manier om AI-vragen te verdelen tussen snelle, goedkope computers en trage, dure computers, zodat je altijd het beste antwoord krijgt zonder je geld of tijd te verkwisten, zelfs als je niet weet wat de vraag van tevoren is.

Het is als een slimme navigatie-app voor AI: hij weet precies welke route (computer) je moet nemen om op tijd en zonder tol te betalen op je bestemming (het goede antwoord) te komen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het paper adresseert de uitdaging van het online plannen van inferentie-taken voor Multimodale Grootte Taalmodellen (MLLM's) in een omgeving met beperkte middelen. In de praktijk variëren inkomende verzoeken sterk in hun samenstelling van modaliteiten (tekst, afbeeldingen, audio) en hun onderliggende redeneercomplexiteit. Tegelijkertijd hebben uitvoeringsbackends (zoals lokale apparaten versus cloud-API's) verschillende, tijdsvariabele kostenprofielen vanwege systeemtrillingen, netwerkvariaties en verschillende modelcapaciteiten.

De kernproblemen zijn:

Semantische representatie: Het is moeilijk om compacte, taak-specifieke representaties te extraheren die zowel semantisch trouw zijn als relevant voor het planningsproces, gezien de heterogeniteit van de invoer.
Online besluitvorming onder onomkeerbare budgetten: Beslissingen moeten in real-time worden genomen zonder kennis van toekomstige verzoeken. Er zijn strikte, meervoudige budgetten (bijv. financiële kosten, latentie, energie) die niet kunnen worden overschreden. Traditionele methoden (zoals heuristieken of standaard versterkingsleer) lopen het risico budgetten te vroeg te verspillen door overmatige exploratie of falen om lange-termijnbeperkingen te waarborgen.

Methodologie: M2-CMAB

De auteurs stellen M2-CMAB (Multi-modal Multi-constraint Contextual Multi-Armed Bandit) voor, een raamwerk dat het probleem formuleert als een "Contextual Bandit with Knapsacks" (CBwK) probleem met meerdere modaliteiten en meerdere beperkingen. Het systeem bestaat uit drie gekoppelde componenten:

1. Efficiënte Representatie met Adapter-Versterkte Predictor

Om de onzekerheid in beloningen (kwaliteit) en kosten te modelleren zonder de zware computatiekosten van het volledig fine-tunen van een MLLM:

Vaste Backbone: De parameters van de MLLM-backbone (bijv. Qwen3-VL) worden bevroren om de generatieve capaciteit en representatiestabiliteit te behouden.
CLS-Attentive Pooling: In plaats van de laatste token te gebruiken, wordt een expliciete [CLS]-token aan de invoer toegevoegd als een semantisch anker. De aandachtsgewichten van deze token worden gebruikt om de verborgen staten te poolen, wat resulteert in een compacte taakrepresentatie ( $z_t$ ).
Lichtgewicht Adapters: Specifieke, trainbare adapters (kleine MLP's) worden toegevoegd om de beloning en de kosten voor elke beperking (bijv. geld, latentie) te voorspellen op basis van de taakrepresentatie en de geselecteerde actie. Alleen deze adapters worden bijgewerkt, wat zorgt voor lage overhead.

2. Ontkoppelde Lange-termijn Beperkingen met Primal-Dual Constrainer

Om de strikte budgetbeperkingen over de tijd te respecteren:

Het probleem wordt geformuleerd als een Lagrangiaans probleem waarbij lange-termijn beperkingen worden omgezet in per-rond straffen via Lagrange-multiplicatoren ( $\lambda_t$ ).
Een Online Mirror Descent (OMD) algoritme wordt gebruikt om de duale variabelen ( $\lambda_t$ ) online bij te werken. Dit zorgt ervoor dat het systeem adaptief straft op basis van de huidige verbruikte middelen, waardoor het budget over de hele looptijd wordt beheerd zonder de per-rond beslissingen te vertragen.

3. Twee-fase Scheduler

De scheduler balanceert exploratie (het verzamelen van data) en exploitatie (het kiezen van de beste actie) in twee fasen:

Fase 1 (Initialisatie): Een korte periode waarin elke mogelijke actie even vaak wordt uitgevoerd om een betrouwbare schatting te maken van de optimale waarde en de straal ( $\Lambda$ ) van het toegestane domein voor de Lagrange-multiplicatoren te bepalen.
Fase 2 (Exploratie-Exploitatie): De scheduler berekent een score voor elke actie op basis van de voorspelde beloning minus de gepenaliseerde kosten (gebaseerd op de huidige $\lambda_t$ ). Een probabilistische strategie selecteert de actie, waarbij de kans op een suboptimale actie afneemt naarmate het scoreverschil toeneemt, maar er nog steeds ruimte blijft voor exploratie.

Belangrijkste Bijdragen

Efficiënte MLLM-representatie: Een methode om compacte, semantisch rijke taakrepresentaties te extraheren met een bevroren backbone en alleen lichtgewicht adapters te trainen, wat de overhead minimaliseert.
Ontkoppeld Beperkingenbeheer: Een primal-dual aanpak die lange-termijn budgetbeperkingen effectief beheert door deze te ontkoppelen van de per-rond beslissingen, zelfs onder onomkeerbare budgetten.
Regret-garantie: Het paper levert een theoretische regret-garantie voor het M2-CMAB-raamwerk onder meervoudige knapsack-beperkingen, wat bewijst dat de prestaties convergeren naar het optimaal mogelijke.
Realistische Benchmark: De auteurs hebben een uitgebreide benchmark opgezet met 5 verschillende backends (lokaal en cloud), 6 datasets (inclusief een samengestelde dataset) en 7 methoden om hun aanpak te valideren.

Resultaten

De experimenten tonen aan dat M2-CMAB aanzienlijk beter presteert dan state-of-the-art baselines (zoals willekeurige selectie, "latency-first", "money-first", en bestaande budgetplanners):

Verbeterde Beloning: M2-CMAB bereikt tot 14,18% hogere gemiddelde beloning dan de beste concurrenten over verschillende budgetregimes (beperkt, normaal, royaal).
Oracle-benadering: De prestaties van M2-CMAB komen zeer dicht in de buurt van een "oracle" (een ideale oplossing met perfecte kennis van toekomstige beloningen en kosten), met een verschil van minder dan 1,2% in uitdagende scenario's.
Robuustheid: Het systeem blijft robuust presteren onder verschillende budgetbeperkingen en taakdistributies, en de ablatiestudies bevestigen dat elke component (vooral de beloningsadapter) cruciaal is voor de uiteindelijke prestaties.

Betekenis en Impact

Dit werk biedt een fundamentele oplossing voor het schalen van MLLM-inferentie in de echte wereld, waar middelen beperkt zijn en taken complex en multimodaal zijn. Door het combineren van moderne representatieleren (via adapters) met rigoureuze online optimalisatie (via bandits en Lagrange-multiplicatoren), stelt het paper een praktisch kader voor dat:

Het mogelijk maakt om MLLM's efficiënt te draaien op zowel lokale apparaten als in de cloud.
De kwaliteit van service (QoS) maximaliseert binnen strikte operationele budgetten.
Een theoretisch onderbouwde basis biedt voor toekomstige onderzoek naar dynamische resource-toewijzing in AI-systemen.

De code is openbaar beschikbaar gesteld, wat de reproduceerbaarheid en verdere ontwikkeling van dit domein stimuleert.