Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma equipe de cozinheiros extremamente talentosos (os Modelos de IA) e uma cozinha super equipada com fogões de última geração (GPUs da AMD). O objetivo é servir milhões de pratos (respostas de texto) o mais rápido possível para clientes famintos.

Este relatório técnico é como um "manual de sobrevivência" para quem quer montar essa cozinha na AMD, mas descobriu que não existe uma receita única que sirva para todos.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Cenário: Uma Cozinha Gigante

Os pesquisadores testaram 4 "chefes" diferentes (modelos de IA) em uma cozinha com 8 fogões potentes (GPUs AMD Instinct MI325X).

Os Chefes: Alguns são gigantes (com 1 trilhão de ingredientes), outros são mais leves. Alguns são "generalistas" (fazem tudo sozinhos), outros são "equipes de especialistas" (cada um faz uma parte específica).
O Desafio: A cozinha é enorme (2 Terabytes de geladeira), mas o gargalo não é o espaço, é a velocidade com que os ingredientes chegam aos fogões.

2. A Grande Descoberta: "Um Tamanho Não Serve para Todos"

A maior lição do estudo é que você não pode usar as mesmas regras para todos os modelos. É como tentar usar um mapa de metrô para dirigir um caminhão: não funciona.

Os Modelos "GQA" (Como o Llama e o Qwen): Eles são como cozinheiros que gostam de trabalhar em grandes panelas. Eles funcionam muito bem com a configuração padrão da AMD. Conseguem usar a geladeira inteira e até guardar sobras na geladeira externa (memória do computador) se necessário.
Os Modelos "MLA" (Como o DeepSeek e o Kimi): Eles são como chefs que usam panelas minúsculas e muito específicas.
- O Problema: Na cozinha da AMD atual, eles precisam de panelas minúsculas (bloco de tamanho 1) e não podem usar a geladeira externa. Se você tentar forçá-los a usar a configuração padrão, a cozinha trava ou a comida sai errada.
- A Solução: Eles precisam de um "ajudante especial" chamado AITER. Sem esse ajudante, eles cozinham 2 a 3 vezes mais devagar. Mas cuidado: esse ajudante só funciona se o chefe tiver o número exato de ajudantes (cabeças de atenção). Se não tiver, você tem que demitir o ajudante e deixar o chef trabalhar sozinho (o que deixa tudo mais lento, mas funciona).

3. O Segredo do Sucesso: "Ativos" vs. "Totais"

Muitas pessoas acham que quanto mais ingredientes (parâmetros) o modelo tem, mais lento ele é. O estudo provou que isso é um mito.

A Analogia: Imagine dois times de futebol.
- Time A: Tem 405 jogadores no banco, mas só 405 jogam de cada vez.
- Time B: Tem 685 jogadores no banco, mas só 37 jogam de cada vez (os outros estão descansando).
O Resultado: O Time B (que usa menos jogadores ativos) consegue fazer o mesmo número de gols (velocidade) que o Time A, mesmo tendo um banco de reservas muito maior.
A Lição: O que importa para a velocidade é quantos jogadores estão ativos no campo, não quantos estão no banco. Modelos que ativam menos "cérebros" por vez são mais eficientes.

4. O Gargalo: A Estrada de Acesso

O estudo descobriu algo curioso: não importa se você tem 100 ou 1.000 clientes pedindo comida ao mesmo tempo, a velocidade máxima da cozinha para de subir em um certo ponto (cerca de 500 pedidos simultâneos para textos curtos).

Por que? Não é porque os fogões (processadores) estão lentos. É porque a estrada de entrega (largura de banda de memória) está cheia de caminhões.
A Analogia: Você tem 100 cozinheiros correndo, mas só há uma porta estreita para tirar os pratos da cozinha. Não adianta ter mais cozinheiros; a fila na porta é o limite. A AMD tem uma porta muito larga (6 TB/s), mas mesmo ela tem um limite.

5. O Recorde: O Gigante de 1 Trilhão

O estudo conseguiu colocar o modelo mais pesado de todos (Kimi-K2.5, com 1 trilhão de parâmetros) para rodar nessa cozinha.

O Truque: Eles usaram uma técnica de "compactação" (quantização INT4) que é como embrulhar os ingredientes em caixas super compactas.
O Resultado: O modelo gigante coube em apenas 4 dos 8 fogões e serviu 7.300 pratos por segundo sem derrubar nenhum pedido. Isso é um marco histórico, provando que a AMD aguenta os modelos mais pesados do mundo.

Resumo Final para o Dia a Dia

Se você for montar uma IA na AMD hoje:

Não use a mesma configuração para tudo. Descubra se seu modelo é do tipo "panela grande" (GQA) ou "panela pequena" (MLA).
Use o "ajudante" (AITER) com cuidado. Ele acelera muito os modelos modernos, mas pode causar confusão se o modelo não for compatível.
Não se preocupe tanto com o tamanho total. O que importa é quantos "cérebros" estão trabalhando de cada vez.
Espere um limite de velocidade. Se você tiver muitos usuários, a velocidade vai estabilizar. Não adianta pedir mais velocidade se a "estrada de entrega" já está cheia.

Em suma: A AMD é uma cozinha poderosa e capaz de cozinhar os maiores pratos do mundo, mas você precisa saber exatamente qual receita usar para cada tipo de chef, ou a comida vai queimar!

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

1. O Cenário: Uma Cozinha Gigante

2. A Grande Descoberta: "Um Tamanho Não Serve para Todos"

3. O Segredo do Sucesso: "Ativos" vs. "Totais"

4. O Gargalo: A Estrada de Acesso

5. O Recorde: O Gigante de 1 Trilhão

Resumo Final para o Dia a Dia

Resumo Técnico: Otimização de Inferência de LLMs Arquiteturalmente Consciente em GPUs AMD Instinct

1. Problema e Contexto

2. Metodologia e Configuração Experimental

Plataforma de Hardware

Modelos Avaliados

Técnicas de Otimização

3. Principais Contribuições

4. Resultados Chave

Desempenho de Throughput

Impacto do AITER

Saturação e Confiabilidade

Eficiência de Hardware

5. Significado e Implicações

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

1. O Cenário: Uma Cozinha Gigante

2. A Grande Descoberta: "Um Tamanho Não Serve para Todos"

3. O Segredo do Sucesso: "Ativos" vs. "Totais"

4. O Gargalo: A Estrada de Acesso

5. O Recorde: O Gigante de 1 Trilhão

Resumo Final para o Dia a Dia

Resumo Técnico: Otimização de Inferência de LLMs Arquiteturalmente Consciente em GPUs AMD Instinct

1. Problema e Contexto

2. Metodologia e Configuração Experimental

Plataforma de Hardware

Modelos Avaliados

Técnicas de Otimização

3. Principais Contribuições

4. Resultados Chave

Desempenho de Throughput

Impacto do AITER

Saturação e Confiabilidade

Eficiência de Hardware

5. Significado e Implicações

Mais como este

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem