A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ler um livro muito longo e complexo (um modelo de Inteligência Artificial) para responder a uma pergunta.

O Problema: O "Estante" que Fica Cheia

Nos modelos de IA atuais, para lembrar do que foi dito antes, eles precisam guardar uma "lista de tudo o que já foi lido" (chamada de KV Cache).

Na GPU (o computador comum): É como se você tivesse uma biblioteca gigante, mas a estante onde você guarda o resumo do livro é muito pequena. A cada nova palavra que você lê, você é obrigado a pegar o resumo inteiro, correr até o armazém (memória externa), anotar uma coisa, voltar para a estante e repetir.
O Gargalo: O modelo Gated DeltaNet (GDN) é uma versão mais inteligente que não precisa de uma estante gigante; ele usa um "caderninho" fixo do tamanho de um post-it. Mas, mesmo sendo pequeno, na GPU, você ainda precisa correr até o armazém para pegar esse post-it a cada palavra. Como o post-it é pequeno e a corrida é longa, o computador passa 90% do tempo correndo e só 10% pensando. É como ter um Ferrari (a GPU) preso no trânsito.

A Solução: O "Banco de Memória" Dentro da Cabeça

Os autores criaram um novo acelerador usando FPGA (um tipo de chip que pode ser reconfigurado, como um LEGO eletrônico).

A grande sacada deles foi: "E se a gente não precisasse sair da sala para pegar o post-it?"

O Caderninho Permanente: O chip FPGA tem uma memória interna (BRAM) que é pequena, mas super rápida e fica dentro do chip. Eles conseguiram encaixar todo o "caderninho" (2 MB de dados) lá dentro.
Sem Correr: Agora, o chip não precisa mais correr até o armazém. Ele segura o caderninho na mão o tempo todo. Isso transforma o trabalho de "correr muito" (limitado pela memória) para "pensar rápido" (limitado apenas pela velocidade de cálculo).

A Metáfora da Cozinha

Pense na IA como um chef cozinhando uma sopa:

GPU (Método Antigo): O chef tem uma receita em um papel. A cada colherada que ele dá, ele precisa sair da cozinha, ir até o estoque no subsolo, pegar o papel, voltar, ler uma linha, anotar algo, e repetir. Ele gasta mais tempo no elevador do que cozinhando.
FPGA (Método Novo): O chef colou a receita na parede da cozinha, bem na altura dos olhos. Ele nunca sai da frente do fogão. Ele lê, anota e cozinha em um fluxo contínuo.

Como Eles Fizeram Isso? (Os Truques)

Para fazer isso funcionar, eles usaram três truques de mágica:

O "Passe de Mágica" (Fusão de Passos): No método antigo, o chef precisava ler o papel, escrever algo, e depois ler de novo para ver o resultado. Eles reescreveram a matemática para que o chef pudesse ler o papel, fazer o cálculo e escrever a atualização em uma única passada. É como se o chef pudesse ler e escrever ao mesmo tempo com a mão esquerda e direita.
Dupla Atividade (Paralelismo): Eles descobriram que, às vezes, dois ingredientes podem ser processados juntos usando a mesma receita. Eles organizaram o chip para fazer duas coisas ao mesmo tempo sem atrapalhar o fluxo.
A Esteira Rolante (Pipelining): Enquanto o chef está cozinhando a próxima colherada, ele já está preparando os ingredientes da colherada seguinte e limpando a panela da anterior. Tudo acontece ao mesmo tempo, sem parar.

Os Resultados: O Que Isso Significa?

Velocidade: O chip FPGA é 4,5 vezes mais rápido que a melhor GPU do mundo (NVIDIA H100) para essa tarefa específica.
Energia: A GPU consome muita energia (como um carro com o motor ligado no posto). O chip FPGA consome quase nada (como um carro elétrico eficiente). Eles conseguiram fazer o mesmo trabalho gastando 60 vezes menos energia.
Custo: Isso significa que, no futuro, poderemos ter servidores de IA muito mais baratos e ecológicos, que não precisam de usinas de energia gigantescas para rodar.

Resumo Final

Os pesquisadores pegaram um problema onde a IA gastava mais tempo "buscando dados" do que "pensando" e resolveram isso colocando todos os dados necessários dentro do próprio cérebro do computador (o chip). Eles reorganizaram a matemática para que o chip não precise parar para ler e escrever, criando uma máquina que é ao mesmo tempo mais rápida, mais barata e muito mais ecológica do que o que temos hoje.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA", estruturado conforme solicitado.

1. O Problema: O Gargalo de Memória na Decodificação de LLMs

O artigo identifica um gargalo fundamental na execução de modelos de linguagem grandes (LLMs) modernos, especificamente durante a fase de decodificação (geração token a token) em configurações de batch-1.

Limitação de Arquitetura: Modelos híbridos de última geração, como o Qwen3-Next, utilizam extensivamente a Gated DeltaNet (GDN), um mecanismo de atenção linear que substitui o cache de chave-valor (KV) crescente por um estado recorrente de tamanho fixo. Embora isso reduza a complexidade de memória de $O(n)$ para $O(1)$ , a decodificação torna-se extremamente dependente de largura de banda de memória.
Intensidade Aritmética Baixa: Em GPUs (como a NVIDIA H100), a decodificação de GDN é "limitada por memória" (memory-bound). Para cada token, o acelerador deve ler e escrever o estado completo do modelo (aproximadamente 2 MB para 32 cabeças de valor com dimensão 128) através da memória HBM (High Bandwidth Memory).
Ineficiência: A intensidade aritmética cai para cerca de 0,87 FLOP/Byte, muito abaixo do ponto de "crista" (ridge point) da H100 (25,6 FLOP/Byte). Isso significa que o tempo de execução é dominado pelo tempo de transferência de dados, não pelo cálculo, tornando otimizações de software (kernels) insuficientes para eliminar o gargalo.

2. Metodologia e Arquitetura Proposta

Os autores propõem um acelerador baseado em FPGA (Field-Programmable Gate Array) que transforma o problema de "limitado por memória" para "limitado por computação", explorando a capacidade de manter o estado persistentemente na memória on-chip.

A. Estado Persistente On-Chip

Insight Principal: O estado total de 2 MB do GDN cabe confortavelmente na memória BRAM (Block RAM) de FPGAs modernos (o Alveo U55C possui 17,6 MB).
Solução: Ao contrário das GPUs, que precisam fazer o "round-trip" (ida e volta) do estado através da HBM a cada token, o FPGA mantém o estado de 2 MB persistentemente nas BRAMs internas. Isso elimina completamente a E/S (Input/Output) de estado off-chip.

B. Pipeline de Computação Fundido (Five-Phase)

O artigo propõe uma reestruturação algébrica do passo de recorrencia do GDN para reduzir o número de passagens sobre a matriz de estado:

Abordagem Ingênua: Requer 3 passagens completas sobre a matriz $d \times d$ (1 para recuperação, 1 para atualização do estado, 1 para saída).
Abordagem Fundida: Utiliza a identidade algébrica $S_t^T q = g \cdot S_{t-1}^T q + (q^T k) \Delta v$ . Isso permite calcular a saída parcial e a correção sem reler o estado atualizado.
Resultado: Reduz o acesso ao estado para apenas uma leitura e uma escrita por token, diminuindo o custo de latência de ~3.072 ciclos para ~2.106 ciclos.

C. Paralelismo e Pipelining de Dados

Atenção de Valor Agrupada (GVA): A arquitetura explora a estrutura 2:1 do GVA (cada par de cabeças de Query/Key serve duas cabeças de Valor). As cabeças de Q/K são compartilhadas, enquanto as cabeças de V mantêm seus próprios estados, permitindo paralelismo sem duplicar o armazenamento de Q/K.
Pipelining de Dados (Dataflow): O design utiliza um loop de dados que sobrepõe três estágios:
1. Preparação: Cálculo de portas (gates) e carregamento de inputs.
2. Computação: Execução do pipeline de 5 fases.
3. Armazenamento: Escrita da saída na memória externa.
  Isso garante que a latência seja determinada pelo estágio mais lento (computação), independentemente do número de iterações.

3. Contribuições Principais

Primeiro Acelerador FPGA para GDN: Implementação autônoma de decodificação autoregressiva de Gated DeltaNet, mantendo o estado completo on-chip.
Otimização Algébrica: Redução do custo de acesso ao estado pela metade através da fusão de etapas de recuperação e atualização de saída.
Exploração de Paralelismo: Uso eficiente da estrutura GVA para escalar o paralelismo de cabeças sem aumentar o intervalo do pipeline.
Análise de Design Space: Avaliação de quatro configurações de paralelismo ( $H_{iter}$ = 2, 4, 8, 16) no FPGA AMD Alveo U55C.

4. Resultados Experimentais

Os testes foram realizados comparando o acelerador FPGA (AMD Alveo U55C) com uma GPU de referência (NVIDIA H100 PCIe) rodando a implementação oficial do GDN.

Latência:
- A configuração ótima ( $H_{iter}=8$ ) alcançou 63 µs por token.
- Isso representa um aceleramento de 4,5x em relação à GPU H100 (285 µs).
- Configurações com maior paralelismo ( $H_{iter}=16$ ) sofreram degradação devido à inflação do intervalo do pipeline e congestionamento de roteamento, tornando-se mais lentas que a configuração de 8 cabeças.
Eficiência Energética:
- O consumo de energia on-chip do FPGA foi de apenas 9,96 W.
- Isso resulta em uma eficiência energética de até 60x superior à da GPU (que consome ~350 W no nível da placa), com um custo de energia por token de ~1,6 mJ (vs ~99,8 mJ na GPU).
Utilização de Recursos:
- A configuração ótima utiliza menos de 25% dos recursos (BRAM, DSP, FF, LUT) do FPGA, deixando margem para futuras expansões.
- Tentativas de escalar para $H_{iter}=16$ falharam no roteamento físico devido à saturação de recursos em um único SLR (Super Logic Region).

5. Significado e Impacto

Este trabalho demonstra que a limitação de memória na decodificação de LLMs modernos não é apenas um problema de software, mas uma restrição arquitetural que pode ser superada por hardware especializado.

Mudança de Paradigma: Ao manter o estado persistentemente on-chip, os FPGAs podem superar as GPUs em cenários de baixa latência e batch-1, onde a largura de banda de memória é o fator limitante.
Viabilidade para Produção: A alta eficiência energética (60x) sugere que FPGAs podem ser viáveis para implantação de inferência de LLMs em escala, reduzindo drasticamente o custo operacional (OPEX) e a pegada de carbono.
Futuro: O trabalho abre caminho para aceleradores híbridos que suportam tanto a fase de prefill quanto a de decode, além de técnicas de quantização e roteamento MoE (Mixture of Experts) em um único dispositivo FPGA de datacenter.

Em resumo, o artigo prova que para modelos com estado recorrente fixo (como GDN), a persistência de estado on-chip é a chave para desbloquear a verdadeira velocidade de inferência, superando as limitações físicas das memórias HBM das GPUs atuais.