xLLM Technical Report

Tongxuan Liu, Tao Peng, Peijun Yang, Xiaoyang Zhao, Xiusheng Lu, Weizhe Huang, Zirui Liu, Xiaoyu Chen, Zhiwei Liang, Jun Xiong, Donghe Jin, Minchao Zhang, Jinrong Guo, Yingxu Deng, Xu Zhang, Xianzhe Dong, Siqi Wang, Siyu Wu, Yu Wu, Zihan Tang, Yuting Zeng, Yanshu Wang, Jinguang Liu, Meng Kang, Menxin Li, Yunlong Wang, Yiming Liu, Xiaolong Ma, Yifan Wang, Yichen Zhang, Jinrun Yin, Keyang Zheng, Jiawei Yin, Jun Zhang, Ziyue Wang, Xiaobo Lin, Liangyu Liu, Liwei Lan, Yang Liu, Chunhua Peng, Han Liu, Songcheng Ren, Xuezhu Wang, Yunheng Shen, Yi Wang, Guyue Liu, Yitao Hu, Hui Chen, Tong Yang, Hailong Yang, Jing Li, Guiguang Ding, Ke Zhang

Publicado 2026-03-04

📖 5 min de leitura🧠 Leitura aprofundada

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma fábrica de inteligência artificial gigantesca, onde robôs (os modelos de linguagem) estão constantemente criando respostas para milhões de pessoas ao mesmo tempo. O problema é que, às vezes, a fábrica fica cheia de pedidos urgentes (como um chatbot de atendimento ao cliente) e, outras vezes, tem um monte de tempo livre para fazer tarefas lentas (como analisar documentos antigos).

O xLLM é um novo "sistema operacional" ou um gerente de fábrica superinteligente criado pela JD.com (uma gigante do comércio eletrônico) para organizar essa produção de forma perfeita, rápida e barata.

Aqui está como ele funciona, usando analogias do dia a dia:

1. O Grande Problema: A Fábrica Desorganizada

Antes do xLLM, as fábricas de IA tinham dois grandes problemas:

O Caos do Horário de Pico: Quando muita gente pede algo ao mesmo tempo (horário de pico), os robôs ficam sobrecarregados e lentos. Quando a multidão vai embora, os robôs ficam ociosos, desperdiçando energia e dinheiro.
A "Gargalo" da Memória: Para responder rápido, os robôs precisam lembrar de tudo o que foi dito antes (como uma memória de curto prazo). Mas essa memória ocupa muito espaço. Se a memória encher, o robô precisa parar para limpar a mesa, o que deixa tudo lento.

2. A Solução: O xLLM (O Gerente Mágico)

O xLLM divide o trabalho em duas partes principais, como se fosse um Gerente de Loja e uma Equipe de Montagem.

A. O xLLM-Service (O Gerente de Loja Inteligente)

Este é o cérebro que decide quem faz o quê e quando. Ele usa três truques de mágica:

A "Hora do Almoço" e o "Trabalho Extra" (Co-localização Online/Offline):
Imagine que você tem uma equipe de entregadores. Durante o dia, eles fazem entregas urgentes (pedidos online). À noite, quando ninguém pede nada, eles ficam parados.
O xLLM diz: "E se, enquanto eles esperam por um pedido urgente, eles fizerem uma tarefa lenta de organização (trabalho offline)?"
- O Truque: Se um pedido urgente chega, o gerente para a tarefa lenta instantaneamente e manda o entregador atender o cliente. Assim, ninguém fica parado, mas o cliente urgente nunca espera.
A "Divisão de Tarefas" Dinâmica (Disaggregation PD/EPD):
Pense em um restaurante. Antigamente, um único garçom fazia tudo: anotava o pedido, ia à cozinha, trazia a comida e cobrava. Isso era lento.
O xLLM divide o trabalho:
- Um grupo só anota pedidos (Prefill).
- Outro grupo só traz a comida (Decode).
- Se o restaurante fica cheio de pedidos longos, o gerente transforma alguns "trazedores de comida" em "anotadores de pedidos" na hora, sem precisar demitir ou contratar ninguém. Isso ajusta a equipe perfeitamente ao que está acontecendo agora.
A "Estação de Memória Compartilhada" (Global KV Cache):
Imagine que cada garçom tem sua própria pequena mesa de anotações. Se a mesa encher, ele para.
O xLLM cria uma gigantesca biblioteca central onde todos podem guardar suas anotações. Se um garçom precisa de uma informação que outro já escreveu, ele pega da biblioteca em vez de reescrever tudo. Isso economiza muito espaço e tempo.

B. O xLLM-Engine (A Equipe de Montagem Super-Rápida)

Enquanto o gerente organiza, esta é a equipe que realmente executa o trabalho nos computadores (os aceleradores de IA). Eles são especialistas em não perder tempo:

A "Fita Mágica" (Pipeline Overlap):
Em uma fábrica normal, você espera o robô A terminar para o robô B começar.
O xLLM faz o robô A trabalhar enquanto o robô B já está se preparando. É como uma linha de montagem onde, enquanto você está parando o carro para trocar o pneu, o mecânico já está trocando o óleo do próximo carro. Nada fica parado.
O "Mapa Pré-Desenhado" (Adaptive Graph Mode):
Normalmente, o computador precisa perguntar "o que fazer agora?" a cada pequena tarefa, o que gasta tempo.
O xLLM desenha todo o caminho de uma vez só (um mapa) antes de começar. O robô segue o mapa sem precisar parar para perguntar nada, correndo muito mais rápido.
A "Caixa de Ferramentas Flexível" (xTensor Memory):
Em vez de ter caixas de tamanhos fixos que muitas vezes sobram espaços vazios, o xLLM usa caixas que se encaixam perfeitamente no tamanho do objeto, mesmo que o objeto seja de um tamanho estranho. Isso evita desperdício de espaço na memória.

3. Os Resultados: Por que isso importa?

O xLLM não é apenas teórico; ele já está sendo usado na JD.com para coisas reais, como:

O chatbot JingYan (que ajuda você a comprar coisas).
Sistemas de recomendação que sugerem produtos.

Os números são impressionantes:

O xLLM é até 2,2 vezes mais rápido que os sistemas concorrentes atuais.
Ele consegue atender mais pedidos usando a mesma quantidade de computadores.
Ele é tão eficiente que economiza muita energia e dinheiro para as empresas.

Resumo em uma frase

O xLLM é como transformar uma fábrica de IA desorganizada e cheia de tempos mortos em uma orquestra de alta performance, onde cada músico (computador) toca na hora certa, sem pausas, compartilhando partituras (memória) e ajustando o ritmo instantaneamente para que a música (respostas da IA) seja tocada o mais rápido e barato possível.

xLLM Technical Report

1. O Grande Problema: A Fábrica Desorganizada

2. A Solução: O xLLM (O Gerente Mágico)

A. O xLLM-Service (O Gerente de Loja Inteligente)

B. O xLLM-Engine (A Equipe de Montagem Super-Rápida)

3. Os Resultados: Por que isso importa?

Resumo em uma frase

Resumo Técnico: xLLM – Um Framework de Inferência de LLM Inteligente e Eficiente

1. Problema e Contexto

2. Metodologia e Arquitetura

A. xLLM-Service (Camada de Serviço)

B. xLLM-Engine (Camada de Motor de Inferência)

3. Principais Contribuições

4. Resultados e Avaliação

5. Significado e Impacto

xLLM Technical Report

1. O Grande Problema: A Fábrica Desorganizada

2. A Solução: O xLLM (O Gerente Mágico)

A. O xLLM-Service (O Gerente de Loja Inteligente)

B. O xLLM-Engine (A Equipe de Montagem Super-Rápida)

3. Os Resultados: Por que isso importa?

Resumo em uma frase

Resumo Técnico: xLLM – Um Framework de Inferência de LLM Inteligente e Eficiente

1. Problema e Contexto

2. Metodologia e Arquitetura

A. xLLM-Service (Camada de Serviço)

B. xLLM-Engine (Camada de Motor de Inferência)

3. Principais Contribuições

4. Resultados e Avaliação

5. Significado e Impacto

Mais como este

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet