Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante com milhões de livros (os dados) e uma equipe de especialistas (os "Especialistas" ou Experts do modelo) para responder perguntas.

No mundo das Inteligências Artificiais modernas, como o DeepSeek ou o Qwen, usamos uma arquitetura chamada MoE (Mistura de Especialistas). A ideia é simples: em vez de usar todos os livros e todos os especialistas para cada pergunta, o sistema escolhe apenas os 2 ou 3 especialistas mais adequados para aquele tema específico. Isso torna o sistema mais rápido e eficiente.

O Problema: O Caos no Corredor
O problema surge quando essa biblioteca e esses especialistas estão espalhados por vários computadores (chamados GPUs) conectados entre si.
Imagine que você está no Computador A, mas a resposta que você precisa está no Computador B. O sistema precisa pegar sua pergunta, correr até o Computador B, pegar a resposta e voltar.
No mundo atual, o sistema faz isso de forma desorganizada. Ele joga as perguntas para todos os computadores ao mesmo tempo, e os computadores precisam gritar uns para os outros (comunicação) para saber quem deve responder o quê. Isso cria um "engarrafamento" enorme nas conexões entre os computadores, deixando tudo lento. É como se todos os funcionários de um escritório grande tivessem que correr para o corredor central toda vez que precisassem de um arquivo, mesmo que o arquivo estivesse na mesa do colega ao lado.

A Solução: "Paralelismo Semântico" (Semantic Parallelism)
Os autores deste paper criaram uma nova forma de organizar o trabalho chamada Sem-MoE. A ideia central é: "Coloque o especialista certo na mesa certa, antes mesmo de a pergunta chegar."

Eles usam três truques inteligentes:

O Mapa de Afinidade (O "Previsão"):
Eles perceberam uma coisa curiosa: certas palavras ou frases sempre pedem ajuda dos mesmos especialistas, não importa o contexto.
- Analogia: Se alguém pergunta sobre "futebol", quase sempre o especialista de esportes é chamado. Se perguntam sobre "direito", o advogado é chamado. O sistema aprende isso e cria um mapa: "Palavras de Futebol -> Vão para o Computador X".
Organização Offline (Arrumando a Casa):
Antes de começar a trabalhar, o sistema olha para esse mapa e rearranja os especialistas. Ele coloca os especialistas que costumam trabalhar juntos no mesmo computador.
- Analogia: Em vez de ter o "Especialista em Futebol" no Computador 1 e o "Especialista em Esportes" no Computador 5, o sistema move ambos para o Computador 1. Assim, quando chega uma pergunta sobre esportes, tudo acontece na mesma mesa, sem precisar correr pelo corredor.
Agendamento Inteligente (A "Reunião Perfeita"):
Quando as perguntas chegam, o sistema não as joga aleatoriamente. Ele olha para a pergunta e a envia diretamente para o computador que já tem os especialistas certos.
- Analogia: É como um recepcionista de hotel que, ao ver que você é um fã de futebol, já te leva direto para o quarto onde o especialista em esportes está, em vez de te mandar para a recepção geral.

Os Dois Cenários de Trabalho
O sistema funciona de duas formas, dependendo de como a tarefa é dividida:

Cenário DP (Grupos de Trabalho): Se você tem várias pessoas pedindo coisas diferentes, o sistema agrupa as perguntas semelhantes no mesmo computador.
Cenário TP (Uma Tarefa Gigante): Se você tem uma única pergunta muito longa, o sistema reorganiza as partes da pergunta enquanto elas estão sendo processadas, garantindo que cada pedaço vá para o especialista certo sem criar confusão.

O Resultado: Mais Rápido e Menos Gasto
Ao fazer essa "dança" de colocar as pessoas certas nos lugares certos, o sistema reduz drasticamente a necessidade de os computadores conversarem entre si (que é a parte lenta e cara).

Resultado: O sistema processa muito mais perguntas por segundo (até 2,78 vezes mais rápido em alguns casos) e responde mais rápido, sem precisar de computadores mais caros.

Resumo em uma frase:
O "Paralelismo Semântico" é como um gerente de escritório superinteligente que, em vez de deixar todos correrem pelo corredor pedindo arquivos, organiza os arquivos e as pessoas de forma que cada pedido seja atendido na mesa onde a resposta já está pronta, eliminando o caos e acelerando tudo.

Each language version is independently generated for its own context, not a direct translation.

Título: Semântica Paralela: Redefinindo a Inferência Eficiente de MoE via Agendamento Colaborativo Modelo-Dados

1. O Problema

Os modelos de Linguagem de Grande Escala (LLMs) modernos, especialmente aqueles baseados na arquitetura Mixture-of-Experts (MoE), enfrentam um gargalo crítico durante a inferência: a comunicação inter-dispositivo.

Limitação Atual: Os motores de serviço atuais utilizam Paralelismo de Especialistas (EP), onde os especialistas (sub-redes) são distribuídos entre múltiplos GPUs/NPUs. Para processar um token, o sistema deve roteá-lo para o especialista correto, o que frequentemente exige operações de comunicação all-to-all (todos para todos) caras e volumosas.
Ineficiência: Estudos mostram que, mesmo em hardware de alta velocidade, a comunicação do EP pode consumir até 59,2% da latência de uma camada MoE.
Causa Raiz: As soluções de ponta tratam o posicionamento dos especialistas (onde os modelos residem) e o agendamento dos dados (para qual dispositivo os tokens/requests são enviados) como problemas separados. Isso resulta em uma alta taxa de ativação remota, onde tokens são enviados para dispositivos que não hospedam seus especialistas preferenciais, gerando tráfego de rede desnecessário.

2. Metodologia: Semântica Paralela (Semantic Parallelism)

O artigo propõe um novo paradigma chamado Semântica Paralela, implementado no framework Sem-MoE. A ideia central é o agendamento colaborativo modelo-dados, que alinha proativamente os tokens de entrada com os especialistas que eles ativam, minimizando a comunicação remota.

O sistema opera em três etapas principais:

A. Modelagem de Afinidade Token-Especialista (Offline)

Os autores observaram uma correlação forte e independente do contexto entre tokens específicos e os especialistas que eles ativam.

Descoberta: Tokens com semântica similar tendem a ativar o mesmo subconjunto de especialistas, independentemente da frase completa.
Ação: O sistema coleta perfis de ativação offline para construir tabelas de probabilidade de roteamento ( $T_{2D}$ , $S_{2D}$ , $E_{2D}$ ), mapeando tokens e sequências de especialistas para dispositivos específicos.

B. Agendamento Colaborativo Modelo-Dados

O problema é formulado como um problema de agrupamento co-otimizado (co-clustering) baseado em programação inteira (ILP), resolvido via um algoritmo de otimização alternada:

Agendamento de Modelo (Offline): Reorganiza a colocação dos especialistas nos dispositivos. Especialistas que são frequentemente ativados juntos são agrupados no mesmo dispositivo para maximizar a localidade.
Agendamento de Dados (Online):
- Cenário Attention-DP (Data Parallelism): Realiza um agendamento inter-request. O sistema reordena e agrupa requisições inteiras no dispositivo que hospeda o grupo de especialistas mais provável de ser ativado por aquela requisição.
- Cenário Attention-TP (Tensor Parallelism): Realiza um agendamento intra-request. O sistema embaralha proativamente os tokens durante a fase de comunicação de atenção (substituindo o reduce-scatter padrão por um shuffled-reduce-scatter), enviando os tokens diretamente para os dispositivos onde seus especialistas-alvo residem antes mesmo da computação MoE.

C. Implementação no Sem-MoE

Integrado ao motor de inferência de ponta SGLang.
Utiliza kernels personalizados (Triton) para operações de comunicação fusionadas (shuffled-reduce-scatter e shuffled-allgather).
Introduz uma taxa de ativação local (Local Activation Rate - LAR) significativamente maior, reduzindo o volume de dados trafegados na rede.

3. Principais Contribuições

Análise Empírica: Revelou uma correlação robusta e independente do contexto entre tokens e especialistas em modelos MoE em larga escala, servindo de base para o agendamento proativo.
Algoritmo de Agendamento: Projetou um algoritmo eficiente de agendamento colaborativo que aumenta a taxa de ativação local em 15,4% em comparação com métodos de base, reduzindo drasticamente a comunicação cruzada.
Sistema Sem-MoE: Implementação funcional sobre o SGLang que demonstra ganhos práticos significativos em cenários reais de inferência.

4. Resultados Experimentais

Os experimentos foram realizados em servidores de 8 GPUs com modelos como DeepSeek-V2-Lite e Qwen3-30B-A3B, comparando com o SGLang padrão e o otimizador MoETuner.

Cenário Attention-DP (Throughput):
- O Sem-MoE alcançou melhorias de throughput de até 2,78x (278%) em relação ao MoETuner e 2,21x em relação ao SGLang sob restrições de SLO (Service Level Objectives) de latência.
- Redução significativa na latência de primeira token (TTFT) e latência ponta a ponta (E2E).
Cenário Attention-TP (Latência):
- Redução de latência de até 24,9% em comparação com as melhores bases.
- Aumento da taxa de ativação local (LAR) em 37-43%, o que se traduz diretamente em redução de latência da camada MoE (cerca de 42-46% mais rápido).
Generalização: O modelo de predição de roteamento demonstrou robustez em zero-shot transfer entre diferentes datasets (ShareGPT, LMSYS-Chat-1M, MMLU), mantendo ganhos de performance sem necessidade de retreinamento.

5. Significância e Impacto

O trabalho redefine como a inferência de modelos MoE massivos é realizada:

Eficiência de Hardware: Permite que modelos com trilhões de parâmetros sejam servidos com menos hardware ou com menor latência, reduzindo custos operacionais.
Escalabilidade: Ao eliminar o gargalo de comunicação all-to-all, o Sem-MoE permite que a arquitetura MoE escale de forma mais eficiente em clusters de GPU/NPU.
Paradigma de Otimização: Demonstra que a separação tradicional entre "agendamento de modelo" e "agendamento de dados" é ineficiente para MoE, propondo uma abordagem unificada baseada na semântica dos dados de entrada.

Em resumo, o Sem-MoE oferece uma solução prática e altamente eficaz para o problema de comunicação em inferência MoE, transformando o roteamento de tokens de um processo passivo e reativo em um processo proativo e semântico.

Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

Título: Semântica Paralela: Redefinindo a Inferência Eficiente de MoE via Agendamento Colaborativo Modelo-Dados

1. O Problema

2. Metodologia: Semântica Paralela (Semantic Parallelism)

A. Modelagem de Afinidade Token-Especialista (Offline)

B. Agendamento Colaborativo Modelo-Dados

C. Implementação no Sem-MoE

3. Principais Contribuições

4. Resultados Experimentais

5. Significância e Impacto

Mais como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks