Each language version is independently generated for its own context, not a direct translation.
Imagine que você tem uma equipe de cozinheiros extremamente talentosos (os Modelos de IA) e uma cozinha super equipada com fogões de última geração (GPUs da AMD). O objetivo é servir milhões de pratos (respostas de texto) o mais rápido possível para clientes famintos.
Este relatório técnico é como um "manual de sobrevivência" para quem quer montar essa cozinha na AMD, mas descobriu que não existe uma receita única que sirva para todos.
Aqui está a explicação simples, usando analogias do dia a dia:
1. O Cenário: Uma Cozinha Gigante
Os pesquisadores testaram 4 "chefes" diferentes (modelos de IA) em uma cozinha com 8 fogões potentes (GPUs AMD Instinct MI325X).
- Os Chefes: Alguns são gigantes (com 1 trilhão de ingredientes), outros são mais leves. Alguns são "generalistas" (fazem tudo sozinhos), outros são "equipes de especialistas" (cada um faz uma parte específica).
- O Desafio: A cozinha é enorme (2 Terabytes de geladeira), mas o gargalo não é o espaço, é a velocidade com que os ingredientes chegam aos fogões.
2. A Grande Descoberta: "Um Tamanho Não Serve para Todos"
A maior lição do estudo é que você não pode usar as mesmas regras para todos os modelos. É como tentar usar um mapa de metrô para dirigir um caminhão: não funciona.
- Os Modelos "GQA" (Como o Llama e o Qwen): Eles são como cozinheiros que gostam de trabalhar em grandes panelas. Eles funcionam muito bem com a configuração padrão da AMD. Conseguem usar a geladeira inteira e até guardar sobras na geladeira externa (memória do computador) se necessário.
- Os Modelos "MLA" (Como o DeepSeek e o Kimi): Eles são como chefs que usam panelas minúsculas e muito específicas.
- O Problema: Na cozinha da AMD atual, eles precisam de panelas minúsculas (bloco de tamanho 1) e não podem usar a geladeira externa. Se você tentar forçá-los a usar a configuração padrão, a cozinha trava ou a comida sai errada.
- A Solução: Eles precisam de um "ajudante especial" chamado AITER. Sem esse ajudante, eles cozinham 2 a 3 vezes mais devagar. Mas cuidado: esse ajudante só funciona se o chefe tiver o número exato de ajudantes (cabeças de atenção). Se não tiver, você tem que demitir o ajudante e deixar o chef trabalhar sozinho (o que deixa tudo mais lento, mas funciona).
3. O Segredo do Sucesso: "Ativos" vs. "Totais"
Muitas pessoas acham que quanto mais ingredientes (parâmetros) o modelo tem, mais lento ele é. O estudo provou que isso é um mito.
- A Analogia: Imagine dois times de futebol.
- Time A: Tem 405 jogadores no banco, mas só 405 jogam de cada vez.
- Time B: Tem 685 jogadores no banco, mas só 37 jogam de cada vez (os outros estão descansando).
- O Resultado: O Time B (que usa menos jogadores ativos) consegue fazer o mesmo número de gols (velocidade) que o Time A, mesmo tendo um banco de reservas muito maior.
- A Lição: O que importa para a velocidade é quantos jogadores estão ativos no campo, não quantos estão no banco. Modelos que ativam menos "cérebros" por vez são mais eficientes.
4. O Gargalo: A Estrada de Acesso
O estudo descobriu algo curioso: não importa se você tem 100 ou 1.000 clientes pedindo comida ao mesmo tempo, a velocidade máxima da cozinha para de subir em um certo ponto (cerca de 500 pedidos simultâneos para textos curtos).
- Por que? Não é porque os fogões (processadores) estão lentos. É porque a estrada de entrega (largura de banda de memória) está cheia de caminhões.
- A Analogia: Você tem 100 cozinheiros correndo, mas só há uma porta estreita para tirar os pratos da cozinha. Não adianta ter mais cozinheiros; a fila na porta é o limite. A AMD tem uma porta muito larga (6 TB/s), mas mesmo ela tem um limite.
5. O Recorde: O Gigante de 1 Trilhão
O estudo conseguiu colocar o modelo mais pesado de todos (Kimi-K2.5, com 1 trilhão de parâmetros) para rodar nessa cozinha.
- O Truque: Eles usaram uma técnica de "compactação" (quantização INT4) que é como embrulhar os ingredientes em caixas super compactas.
- O Resultado: O modelo gigante coube em apenas 4 dos 8 fogões e serviu 7.300 pratos por segundo sem derrubar nenhum pedido. Isso é um marco histórico, provando que a AMD aguenta os modelos mais pesados do mundo.
Resumo Final para o Dia a Dia
Se você for montar uma IA na AMD hoje:
- Não use a mesma configuração para tudo. Descubra se seu modelo é do tipo "panela grande" (GQA) ou "panela pequena" (MLA).
- Use o "ajudante" (AITER) com cuidado. Ele acelera muito os modelos modernos, mas pode causar confusão se o modelo não for compatível.
- Não se preocupe tanto com o tamanho total. O que importa é quantos "cérebros" estão trabalhando de cada vez.
- Espere um limite de velocidade. Se você tiver muitos usuários, a velocidade vai estabilizar. Não adianta pedir mais velocidade se a "estrada de entrega" já está cheia.
Em suma: A AMD é uma cozinha poderosa e capaz de cozinhar os maiores pratos do mundo, mas você precisa saber exatamente qual receita usar para cada tipo de chef, ou a comida vai queimar!