Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Este estudo apresenta uma avaliação abrangente da inferência de LLMs em GPUs AMD Instinct MI325X, demonstrando que otimizações específicas da arquitetura (como o uso seletivo do runtime AITER e configurações de cache) são essenciais para maximizar o desempenho, alcançando altas taxas de processamento e estabilidade em workloads de texto e visão.

Athos Georgiou

Publicado Thu, 12 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma equipe de cozinheiros extremamente talentosos (os Modelos de IA) e uma cozinha super equipada com fogões de última geração (GPUs da AMD). O objetivo é servir milhões de pratos (respostas de texto) o mais rápido possível para clientes famintos.

Este relatório técnico é como um "manual de sobrevivência" para quem quer montar essa cozinha na AMD, mas descobriu que não existe uma receita única que sirva para todos.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Cenário: Uma Cozinha Gigante

Os pesquisadores testaram 4 "chefes" diferentes (modelos de IA) em uma cozinha com 8 fogões potentes (GPUs AMD Instinct MI325X).

  • Os Chefes: Alguns são gigantes (com 1 trilhão de ingredientes), outros são mais leves. Alguns são "generalistas" (fazem tudo sozinhos), outros são "equipes de especialistas" (cada um faz uma parte específica).
  • O Desafio: A cozinha é enorme (2 Terabytes de geladeira), mas o gargalo não é o espaço, é a velocidade com que os ingredientes chegam aos fogões.

2. A Grande Descoberta: "Um Tamanho Não Serve para Todos"

A maior lição do estudo é que você não pode usar as mesmas regras para todos os modelos. É como tentar usar um mapa de metrô para dirigir um caminhão: não funciona.

  • Os Modelos "GQA" (Como o Llama e o Qwen): Eles são como cozinheiros que gostam de trabalhar em grandes panelas. Eles funcionam muito bem com a configuração padrão da AMD. Conseguem usar a geladeira inteira e até guardar sobras na geladeira externa (memória do computador) se necessário.
  • Os Modelos "MLA" (Como o DeepSeek e o Kimi): Eles são como chefs que usam panelas minúsculas e muito específicas.
    • O Problema: Na cozinha da AMD atual, eles precisam de panelas minúsculas (bloco de tamanho 1) e não podem usar a geladeira externa. Se você tentar forçá-los a usar a configuração padrão, a cozinha trava ou a comida sai errada.
    • A Solução: Eles precisam de um "ajudante especial" chamado AITER. Sem esse ajudante, eles cozinham 2 a 3 vezes mais devagar. Mas cuidado: esse ajudante só funciona se o chefe tiver o número exato de ajudantes (cabeças de atenção). Se não tiver, você tem que demitir o ajudante e deixar o chef trabalhar sozinho (o que deixa tudo mais lento, mas funciona).

3. O Segredo do Sucesso: "Ativos" vs. "Totais"

Muitas pessoas acham que quanto mais ingredientes (parâmetros) o modelo tem, mais lento ele é. O estudo provou que isso é um mito.

  • A Analogia: Imagine dois times de futebol.
    • Time A: Tem 405 jogadores no banco, mas só 405 jogam de cada vez.
    • Time B: Tem 685 jogadores no banco, mas só 37 jogam de cada vez (os outros estão descansando).
  • O Resultado: O Time B (que usa menos jogadores ativos) consegue fazer o mesmo número de gols (velocidade) que o Time A, mesmo tendo um banco de reservas muito maior.
  • A Lição: O que importa para a velocidade é quantos jogadores estão ativos no campo, não quantos estão no banco. Modelos que ativam menos "cérebros" por vez são mais eficientes.

4. O Gargalo: A Estrada de Acesso

O estudo descobriu algo curioso: não importa se você tem 100 ou 1.000 clientes pedindo comida ao mesmo tempo, a velocidade máxima da cozinha para de subir em um certo ponto (cerca de 500 pedidos simultâneos para textos curtos).

  • Por que? Não é porque os fogões (processadores) estão lentos. É porque a estrada de entrega (largura de banda de memória) está cheia de caminhões.
  • A Analogia: Você tem 100 cozinheiros correndo, mas só há uma porta estreita para tirar os pratos da cozinha. Não adianta ter mais cozinheiros; a fila na porta é o limite. A AMD tem uma porta muito larga (6 TB/s), mas mesmo ela tem um limite.

5. O Recorde: O Gigante de 1 Trilhão

O estudo conseguiu colocar o modelo mais pesado de todos (Kimi-K2.5, com 1 trilhão de parâmetros) para rodar nessa cozinha.

  • O Truque: Eles usaram uma técnica de "compactação" (quantização INT4) que é como embrulhar os ingredientes em caixas super compactas.
  • O Resultado: O modelo gigante coube em apenas 4 dos 8 fogões e serviu 7.300 pratos por segundo sem derrubar nenhum pedido. Isso é um marco histórico, provando que a AMD aguenta os modelos mais pesados do mundo.

Resumo Final para o Dia a Dia

Se você for montar uma IA na AMD hoje:

  1. Não use a mesma configuração para tudo. Descubra se seu modelo é do tipo "panela grande" (GQA) ou "panela pequena" (MLA).
  2. Use o "ajudante" (AITER) com cuidado. Ele acelera muito os modelos modernos, mas pode causar confusão se o modelo não for compatível.
  3. Não se preocupe tanto com o tamanho total. O que importa é quantos "cérebros" estão trabalhando de cada vez.
  4. Espere um limite de velocidade. Se você tiver muitos usuários, a velocidade vai estabilizar. Não adianta pedir mais velocidade se a "estrada de entrega" já está cheia.

Em suma: A AMD é uma cozinha poderosa e capaz de cozinhar os maiores pratos do mundo, mas você precisa saber exatamente qual receita usar para cada tipo de chef, ou a comida vai queimar!