Autores originais: Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy
Autores originais: Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy
Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo
Resumo Técnico: FMplex – Virtualização de Modelos para o Atendimento de Modelos de Fundação Extensíveis
Declaração do Problema
Os Modelos de Fundação (FMs) tornaram-se a espinha dorsal para diversas aplicações de jusante em domínios de linguagem, visão, séries temporais e multimodais. No entanto, os sistemas de atendimento de modelos existentes (ex: NVIDIA Triton) são projetados em torno de um paradigma de "instância por tarefa", onde cada tarefa customizada carrega uma cópia separada e independente do modelo. Esta abordagem é ineficiente para FMs porque:
- Desperdício de Recursos: Os FMs consistem em um backbone massivo e compartilhado (frequentemente com gigabytes de tamanho) e extensões leves específicas para tarefas (cabeças, adaptadores). Carregar um backbone completo para cada tarefa replica o componente mais pesado, desperdiçando a memória do acelerador.
- Perda de Eficiência: Instâncias independentes impedem a amortização dos custos de loteamento (batching) e carregamento entre as tarefas.
- Interferência e Isolamento: A simples co-localização de tarefas em uma GPU compartilhada sem separação lógica leva à interferência entre tarefas, onde picos de carga de uma tarefa degradam o desempenho das outras.
- Rigidez de Ciclo de Vida: Os sistemas atuais acoplam o ciclo de vida da tarefa à instância física do modelo, tornando difícil adicionar, remover ou modificar tarefas sem o redesdobramento (redeployment) de todo o backbone.
O artigo argumenta que o backbone do FM deve ser tratado como um substrato de sistema compartilhado (análogo a uma CPU ou memória em virtualização de SO) em vez de um artefato de implantação por tarefa.
Metodologia: FMplex
Os autores apresentam o FMplex, um sistema de atendimento que introduz a Virtualização de Modelos de Fundação. O conceito central é o Modelo de Fundação Virtual (vFM), uma instância de FM logicamente privada apresentada a cada tarefa, que é sustentada por uma instância física de FM compartilhada.
Componentes Arquiteturais Principais
Abstração de Modelo de Fundação Virtual (vFM):
- Desacoplamento: O vFM desacopla a visão lógica da tarefa (customização, estado, ciclo de vida) do backbone físico.
- Estrutura: Cada vFM inclui uma Fila Virtual (para roteamento de requisições), Extensões de Tarefa (codificadores, decodificadores e adaptadores PEFT como LoRA) e Estado/Contabilidade (SLOs, prioridades, pesos).
- Mecanismo: Quando uma tarefa invoca seu vFM, o FMplex intercepta a chamada, roteia-a através da fila virtual e a executa no backbone físico compartilhado, aplicando os adaptadores específicos da tarefa conforme necessário.
Escalonador de Escalonamento Justo Sensível ao Lote (Batch-Aware Fair Queueing - BFQ):
- Desafio: Escalonadores de partilha justa padrão (ex: Start-Time Fair Queueing) operam com base em requisições individuais e não consideram os ganhos de eficiência do loteamento de requisições, o que é crítico para o rendimento (throughput) de FMs.
- Solução: O BFQ é um escalonador work-conserving que aproxima o compartilhamento justo ponderado enquanto otimiza o loteamento.
- Operação: Ele atribui tags de início/término às requisições com base nos pesos das tarefas. Ele forma lotes iterativamente até um tamanho máximo (Bmax) ou até que um prazo de SLO seja violado.
- Tratamento de Adaptadores: O BFQ lida com a incompatibilidade de adaptadores primeiro loteando as requisições sobre o backbone comum e, em seguida, processando sequencialmente as diferenças de adaptadores incompatíveis, garantindo justiça sem sacrificar a eficiência do loteamento.
- Suporte a Tokens: Para FMs baseados em tokens (ex: LLMs), o BFQ cobra o trabalho ao nível de token em unidades de tempo de serviço para manter a consistência com os tempos de execução ao nível de requisição.
Task-API e Stack de Atendimento:
- Task-API: Uma interface de programação que permite aos usuários construir pipelines de tarefas anexando codificadores, decodificadores e adaptadores a um vFM. Suporta tanto inferência quanto ajuste fino (fine-tuning) usando o mesmo objeto de pipeline.
- FMplex-Controller: Um controlador de nível de cluster que gerencia o plano de implantação. Utiliza uma heurística "Max-Share" para vincular tarefas a backbones físicos existentes sempre que possível, minimizando a instanciação de novos backbones.
- Adaptação Elástica: Quando a carga muda, o sistema pode re-vincular o vFM de uma tarefa a um backbone físico diferente existente, movendo apenas o estado leve da tarefa (filas, adaptadores) em vez de recarregar o pesado backbone.
Contribuições Principais
- Virtualização de FM para Compartilhamento de Implantação: A introdução da abstração vFM, que permite que múltiplas tarefas independentemente customizadas compartilhem uma única instância física de FM, mantendo isolamento lógico e ciclos de vida independentes.
- Stack de Atendimento Baseado em Compartilhamento: Um sistema de ponta a ponta integrando a Task-API para construção extensível de tarefas e o FMplex-Controller para implantação de cluster consciente de compartilhamento.
- Implementação de Protótipo: Um protótipo funcional suportando múltiplas modalidades (séries temporais, visão, LLMs, VLMs) e runtimes (PyTorch, vLLM), demonstrando flexibilidade através de FMs heterogêneos.
- Avaliação Abrangente: Uma avaliação rigorosa através de 7 backbones de FM (16 variantes) e 92 tarefas de jusante.
Resultados Experimentais
A avaliação foi conduzida em um cluster de 16 nós da AWS (GPUs NVIDIA T4) usando traços sintéticos e do mundo real (Azure Functions).
Redução de Latência:
- Comparado ao Particionamento Espacial (isolando tarefas em partições de GPU), o FMplex reduziu a latência em até 80%.
- Comparado ao Co-localização de Melhor Esforço (múltiplas instâncias completas em uma única GPU sem isolamento), o FMplex reduziu a latência em até 33,3%.
- Em escala de cluster, o FMplex reduziu a latência média em 15% e a latência P99 em 26% comparado à co-localização de melhor esforço.
Eficiência de Recursos e Escalabilidade:
- Memória: O FMplex reduz significativamente o uso de memória da GPU. Por exemplo, co-localizar 10 tarefas de séries temporais em um backbone compartilhado exigiu apenas 1,17× a memória de uma única tarefa, comparado a 10× para implantação independente.
- Rendimento (Through Throughput): O FMplex sustentou até 6× mais tarefas em baixa carga (onde a memória é o gargalo) e 8–12% mais tarefas em carga moderada/alta (onde o processamento é o gargalo) comparado à co-localização de melhor esforço.
- Justiça (Fairness): Sob pesos de serviço assimétricos (ex: 3:1), o FMplex manteve pontuações de justiça de 0,97–0,98 enquanto sustentava 84 RPS. Em contraste, o compartilhamento justo não loteado alcançou justiça semelhante a apenas 37 RPS, e o compartilhamento não gerenciado reduziu a justiça para 0,66.
Sobrecarga de Adaptação:
- O FMplex demonstrou rápida adaptação a surtos de carga. Re-vincular uma tarefa a um backbone existente levou 0,5 segundos, enquanto carregar uma nova instância de backbone (como exigido por sistemas de não-compartilhamento) levou ~58 segundos, causando um pico de latência de duas ordens de magnitude.
Overhead:
- O overhead de escalonamento introduzido pelo FMplex (manipulação de filas e computação de tags) foi mínimo, com média de 0,35 ms por requisição, o que é insignificante comparado aos tempos de execução do backbone.
Significância e Alegações
O artigo alega que o FMplex aborda o descompasso fundamental entre a arquitetura dos Modelos de Fundação (backbones pesados compartilhados, extensões leves) e os sistemas de atendimento atuais (implantação por instância). Ao tratar o backbone do FM como um substrato de virtualização, o FMplex permite:
- Compartilhamento de Implantação: Amortizar os pesados custos de memória e computação do backbone entre múltiplas tarefas.
- Isolamento de Tarefas: Fornecer garantias de desempenho e isolamento por tarefa sem a penalidade de recursos da replicação total do modelo.
- Flexibilidade Operacional: Permitir que tarefas sejam adicionadas, removidas ou modificadas dinamicamente sem o redesdobramento da infraestrutura subjacente.
Os autores posicionam o FMplex não apenas como uma otimização para modelos específicos, mas como uma camada de sistema generalizável que estende os princípios clássicos de virtualização para o domínio do atendimento de Modelos de Fundação, permitindo uma infraestrutura de IA mais eficiente e escalável.
Afogado em artigos na sua área?
Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.
Receba os melhores artigos de machine learning toda semana.
Confiado por pesquisadores de Stanford, Cambridge e da Academia Francesa de Ciências.
Verifique sua caixa de entrada para confirmar sua inscrição.
Algo deu errado. Tentar novamente?
Sem spam, cancele quando quiser.