Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator

O artigo apresenta o Helios, um acelerador de hardware-software baseado em 3D-DRAM e emparelhamento híbrido que supera as limitações de designs de processamento próximo à memória existentes ao introduzir um fluxo de execução de atenção distribuído e uma alocação de cache KV espacialmente consciente, resultando em significativos ganhos de desempenho e eficiência energética para o atendimento dinâmico de modelos de linguagem grandes (LLMs).

Cong Li, Yihan Yin, Chenhao Xue, Zhao Wang, Fujun Bai, Yixin Guo, Xiping Jiang, Qiang Wu, Yuan Xie, Guangyu Sun

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando organizar uma festa gigante onde os convidados (os dados da Inteligência Artificial) chegam de forma imprevisível: às vezes vêm em grupos pequenos, às vezes em multidões, e cada um fica por um tempo diferente.

O papel que você leu descreve um novo sistema chamado Helios, criado para ser o "gerente de festas" perfeito para os modelos de linguagem grandes (como o ChatGPT), que estão mudando a forma como usamos computadores.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: A Festa Caótica

Atualmente, os computadores que rodam essas IAs (como as GPUs) são como cozinhas de restaurante muito rápidas, mas com um problema: elas são ótimas para cozinhar pratos complexos (cálculos), mas lentas quando precisam buscar ingredientes que estão longe na despensa (memória).

Além disso, os pedidos chegam de forma bagunçada:

  • Variação de tamanho: Alguns pedidos são curtos (uma pergunta simples), outros são longos (um livro inteiro).
  • Variação de chegada: Às vezes chega 1 pedido, às vezes chegam 100 de uma vez.

Os sistemas antigos tentam resolver isso alocando um "quartinho" fixo para cada pedido na memória. O problema é que, se o pedido for pequeno, o quartinho fica metade vazio (desperdício). Se o pedido for grande, ele não cabe e precisa esperar. Isso cria um gargalo e deixa a festa lenta.

2. A Solução: O Helios (O Gerente Inteligente)

Os pesquisadores criaram o Helios, que é como uma nova cozinha com uma despensa integrada e um gerente superinteligente.

A. A Tecnologia de "Colagem" (Hybrid Bonding)

Imagine que a memória (onde os dados ficam) e o processador (onde os cálculos acontecem) são dois andares de um prédio. Nos computadores antigos, eles estão em prédios separados e você precisa pegar um elevador lento para ir de um ao outro.

O Helios usa uma tecnologia chamada Hybrid Bonding. É como se eles colassem o processador e a memória um em cima do outro, criando "elevadores" super-rápidos e curtos entre os andares. Isso significa que os dados viajam quase instantaneamente, sem perder tempo.

B. O Gerenciamento de Memória Dinâmica (O "Bloco de Notas" Flexível)

Aqui está a mágica principal.

  • Sistemas Antigos: Davam um "quarto inteiro" para cada pedido, não importa o tamanho. Se o pedido fosse pequeno, o resto do quarto ficava vazio. Se fosse grande, o pedido tinha que esperar um quarto inteiro ficar livre.
  • Helios: Usa uma abordagem de blocos. Imagine que a memória é um grande tapete de peças de Lego. O Helios não reserva um quarto inteiro; ele reserva apenas as peças de Lego necessárias para o tamanho do pedido.
    • Se o pedido é pequeno, ele usa poucas peças.
    • Se o pedido cresce, ele pega mais peças de onde estiverem livres.
    • Se o pedido termina, ele devolve as peças imediatamente para serem usadas por outros.

Isso elimina o desperdício e permite que o sistema atenda muito mais pessoas ao mesmo tempo.

C. A Dança dos Dados (Atenção Distribuída)

Quando a IA "lê" um texto, ela precisa conectar todas as palavras entre si. Nos sistemas antigos, essa tarefa era feita de forma rígida, onde cada máquina fazia uma parte fixa. Se uma máquina terminasse rápido, ela ficava parada esperando a mais lenta.

O Helios divide essa tarefa como uma dança coordenada.

  • Ele quebra o texto em pequenos pedaços (blocos).
  • Distribui esses pedaços entre todos os "trabalhadores" (processadores) disponíveis.
  • Se um trabalhador termina rápido, ele pega outro pedaço imediatamente.
  • Eles se comunicam de forma super-rápida (como se estivessem sussurrando entre si) para juntar as peças do quebra-cabeça.

3. Os Resultados: Por que isso importa?

O Helios não é apenas uma melhoria pequena; é uma revolução na eficiência:

  • Velocidade: É 3,25 vezes mais rápido que os melhores sistemas atuais. É como trocar de ir de bicicleta para ir de avião.
  • Economia de Energia: É 3,36 vezes mais eficiente energeticamente. Isso significa que você pode fazer o mesmo trabalho gastando muito menos eletricidade (e gerando menos calor).
  • Estabilidade: Mesmo quando a "festa" fica lotada (muitos usuários ao mesmo tempo), o Helios mantém o ritmo, enquanto os sistemas antigos começam a engasgar e ficar lentos.

Resumo Final

Pense no Helios como a evolução de um sistema de transporte público.

  • Antes: Ônibus grandes que saem apenas quando estão cheios, deixando muita gente parada na parada, e que param em todas as estações, mesmo que ninguém desça.
  • Helios: Um sistema de "uber" dinâmico. O veículo se ajusta ao tamanho do passageiro, pega o caminho mais curto, e se um passageiro desce, o espaço é imediatamente usado por outro.

Essa inovação permite que as IAs do futuro sejam mais rápidas, mais baratas de rodar e capazes de atender milhões de pessoas simultaneamente sem travar.