Adapter-Augmented Bandits for Online Multi-Constrained Multi-Modal Inference Scheduling

O artigo propõe o M-CMAB, um framework de agendamento de inferência para modelos de linguagem multimodal que utiliza bandits contextuais multi-adapter e um construtor primal-dual para otimizar decisões online sob restrições orçamentárias multidimensionais e heterogêneas, superando os métodos atuais em qualidade de resposta e eficiência.

Xianzhi Zhang, Yue Xu, Yinlin Zhu, Di Wu, Yipeng Zhou, Miao Hu, Guocong Quan

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de uma cafeteria muito especial.

Nesta cafeteria, os clientes (as tarefas) chegam pedindo coisas diferentes: alguns querem apenas um café (texto), outros querem um café com um desenho no copo (imagem), e alguns querem até uma música de fundo (áudio). O problema é que você tem dois tipos de baristas trabalhando para você:

  1. O Barista Local: Trabalha na sua própria cozinha. É rápido e não cobra por copo, mas ele cansa fácil (bateria do seu celular) e às vezes demora se a receita for muito complexa.
  2. O Barista da Nuvem: Trabalha em uma fábrica gigante lá fora. Ele é super inteligente e faz receitas difíceis com perfeição, mas cobra muito caro por cada xícara e o tempo de entrega depende do trânsito (internet).

Você tem um orçamento limitado (dinheiro e tempo) para o dia todo. Se gastar tudo no início, os clientes que chegam no final do dia ficam sem atendimento. Se escolher o barista errado, o cliente fica insatisfeito com o café ruim.

O papel que você leu apresenta uma solução inteligente chamada M2-CMAB. Vamos descomplicar como ela funciona:

O Problema: O Caos na Cozinha

Antes dessa solução, o gerente (o computador) tinha que adivinhar: "Será que devo mandar esse pedido complexo para o barista caro da fábrica ou tentar fazer aqui mesmo?".

  • Se ele errar, gasta o dinheiro rápido demais.
  • Se for muito conservador, o café fica ruim.
  • Além disso, cada pedido é único (alguns têm fotos, outros só texto), e o tempo que o barista da fábrica leva varia dependendo do "trânsito" da internet.

A Solução: O Gerente com "Óculos Mágicos" (M2-CMAB)

Os autores criaram um sistema de três partes para ajudar o gerente a tomar decisões perfeitas:

1. O "Óculos Mágicos" (O Preditor com Adaptadores)

Imagine que o gerente tem óculos especiais que olham para o pedido do cliente e dizem: "Ei, esse pedido é difícil! Se o barista local tentar, vai demorar e ficar ruim. Melhor mandar para a fábrica."

  • Como funciona: O sistema usa uma "inteligência artificial gigante" (o MLLM) que está congelada (não muda, para não gastar energia). Em vez de reensinar todo o cérebro do barista, eles colocam pequenos "óculos" (adaptadores) leves na frente dele.
  • A mágica: Esses óculos aprendem rapidamente a prever: "Quanto vai custar?" e "Qual a qualidade que vamos ter?". Eles são leves e rápidos, como colocar um filtro no Instagram em vez de editar o vídeo inteiro.

2. O "Contador de Dinheiro Inteligente" (O Constrainer)

Este é o guardião do orçamento. Ele não olha apenas para o pedido de agora, mas para o dia todo.

  • Como funciona: Ele usa uma espécie de "puxão de orelha" matemático. Se você gastou muito dinheiro nos primeiros pedidos, ele aumenta o "preço" de mandar pedidos para a fábrica nos próximos. Isso força o sistema a ser mais econômico, sem precisar saber o futuro. É como se o gerente dissesse: "Ok, gastamos muito com café especial hoje, vamos fazer um café simples para o próximo cliente para não quebrar."

3. O "Gerente de Exploração" (O Scheduler)

Este é o cérebro que decide a ação final. Ele equilibra duas coisas:

  • Exploração: "Vamos testar o barista local neste pedido novo só para ver se ele consegue fazer bem?" (Arriscar um pouco para aprender).
  • Exploração (Aproveitamento): "Sabemos que o barista da fábrica é ótimo para isso, vamos mandar!" (Usar o que já sabemos que funciona).
  • Ele faz isso de forma que, mesmo que o orçamento seja apertado, ele não gaste tudo no começo. Ele espalha o dinheiro para garantir que o último cliente do dia também seja atendido.

Por que isso é incrível? (Os Resultados)

Os autores testaram isso em um "simulador" com muitos tipos de pedidos e baristas diferentes. O resultado foi impressionante:

  • O sistema deles conseguiu entregar cafés muito melhores (mais qualidade na resposta) do que os métodos antigos.
  • Eles conseguiram economizar até 14% a mais de qualidade dentro do mesmo orçamento.
  • Funcionou tão bem que ficou muito perto do "Sonho do Gerente" (uma versão teórica onde o gerente sabe exatamente o que vai acontecer antes de acontecer).

Resumo em uma frase

O M2-CMAB é como um gerente de cafeteria superinteligente que usa óculos mágicos para prever o futuro, um contador que vigia o dinheiro em tempo real e uma estratégia equilibrada para garantir que todos os clientes recebam o melhor café possível, sem que o caixa fique vazio antes do fim do dia.

Isso é essencial para o futuro, pois nossos celulares e computadores precisam rodar inteligência artificial complexa sem gastar toda a bateria ou todo o dinheiro do usuário.