CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations

O artigo apresenta o CRAFT, um framework eficiente de replicação de especialistas para modelos de linguagem do tipo MoE que maximiza o equilíbrio de carga sob restrições de memória através de estimativas granulares por camada, aumentando o throughput de serviço em até 1,2 vezes sem exigir alterações no modelo ou treinamento adicional.

Adrian Zhao, Zhenkun Cai, Zhenyu Song, Lingfan Yu, Haozheng Fan, Jun Wu, Yida Wang, Nandita Vijaykumar

Publicado 2026-04-01
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma grande pizzaria (o modelo de Inteligência Artificial) que precisa atender milhares de pedidos ao mesmo tempo.

Para fazer isso rápido, a pizzaria não tem apenas um chef. Ela tem uma equipe gigante de especialistas (os "Mixture-of-Experts" ou MoE). Cada especialista é mestre em um tipo específico de pizza: um é o rei da pepperoni, outro é o mestre da pizza vegana, outro na de frutos do mar, e assim por diante.

O Problema: A Cozinha Caótica

Quando os clientes fazem pedidos, um "gerente de salão" (o roteador) decide qual especialista vai preparar cada pizza. O problema é que a maioria dos clientes pede as mesmas coisas (como pepperoni), enquanto poucos pedem as opções exóticas.

Isso cria um desequilíbrio:

  • O Chef de Pepperoni está sobrecarregado, com uma fila enorme e demorando para atender.
  • O Chef de Pizza Vegana está entediado, olhando para a parede, sem nada para fazer.
  • O Chef de Frutos do Mar também está parado.

Na tecnologia atual, se você tentar distribuir os chefs entre várias cozinhas (GPUs) para equilibrar o trabalho, o Chef de Pepperoni ainda acaba sendo o gargalo. A pizzaria inteira fica parada esperando ele terminar, enquanto os outros chefs ficam ociosos. Isso é o desequilíbrio de carga.

A Solução Antiga: "Copiar e Colar" (Replicação Uniforme)

Para resolver isso, a solução antiga (chamada EPLB) era simples e burra: "Vamos ter uma cópia de TODOS os chefs em TODAS as cozinhas!".

  • Se houver 100 tipos de pizza, você cria 100 cópias de cada chef em cada cozinha.
  • O Resultado: O trabalho fica perfeitamente equilibrado. Ninguém espera.
  • O Problema: A pizzaria precisa de muito mais espaço e equipamentos (memória da GPU). É como se você tivesse que alugar 100 cozinhas extras só para ter cópias de chefs que quase ninguém usa. Isso custa uma fortuna e faz a pizzaria ficar lenta porque o espaço está lotado de equipamentos inúteis.

A Inovação: CRAFT (O Gerente Inteligente)

Os autores deste artigo criaram o CRAFT. Pense no CRAFT como um gerente de salão superinteligente que usa um "orçamento de espaço" limitado.

Em vez de copiar todos os chefs, o CRAFT faz três coisas inteligentes:

  1. Observa os Pedidos (Estimativa): Antes de abrir a pizzaria, ele analisa os pedidos das últimas semanas. Ele descobre exatamente quais chefs são os "queridinhos" (alta demanda) e quais são os "esquecidos" (baixa demanda).
  2. Copia Apenas o Necessário (Alocação Fina):
    • Para o Chef de Pepperoni (que tem 100 pedidos), ele cria 8 cópias dele. Assim, o trabalho é dividido e a fila acaba rápido.
    • Para o Chef de Pizza Vegana (que tem apenas 2 pedidos), ele não cria nenhuma cópia. O único chef original dá conta do recado tranquilamente.
    • Para um chef intermediário, ele cria apenas 2 cópias.
  3. Economiza Espaço: Como ele não copia os chefs que não precisam, sobra muito espaço na cozinha (memória da GPU).

Por que isso é incrível?

Esse espaço extra economizado é usado para algo muito importante: armazenar os ingredientes e as caixas de pizza prontas (o "KV Cache").

  • Com a solução antiga (EPLB): A cozinha está tão cheia de cópias de chefs inúteis que não sobra espaço para as pizzas. O gerente tem que atender menos clientes ao mesmo tempo.
  • Com o CRAFT: A cozinha está organizada. Sobrou espaço para preparar muitas pizzas ao mesmo tempo.

O Resultado na Vida Real

O artigo mostra que, ao usar o CRAFT em modelos gigantes (como o Kimi-K2 ou DeepSeek-R1):

  • A pizzaria atende 14% a 20% mais clientes no mesmo tempo (aumento de throughput).
  • O tempo de espera para o primeiro pedaço de pizza cai drasticamente.
  • Tudo isso sem precisar comprar mais equipamentos ou gastar mais energia.

Resumo em uma frase

O CRAFT é como um gerente de restaurante que, em vez de contratar cópias de todos os funcionários (o que custa caro e ocupa espaço), contrata cópias extras apenas para os funcionários que estão sobrecarregados, deixando o resto da equipe trabalhar normalmente, resultando em um serviço mais rápido e barato.