On the Computational Hardness of Transformers

Este artigo estabelece que o cálculo de múltiplos cabeçalhos de atenção em transformadores não pode ser realizado de forma mais eficiente do que a avaliação independente de cada um, provando que os algoritmos atuais são essencialmente ótimos sob a Hipótese de Tempo de Satisfação Forte (SETH) e o teorema de Baur-Strassen.

Barna Saha, Yinzhan Xu, Christopher Ye, Hantao Yu

Publicado 2026-03-13
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma equipe de L (camadas) de gerentes, e cada gerente tem H (cabeças) assistentes trabalhando ao mesmo tempo. O trabalho deles é ler um livro gigante com N páginas e entender como cada palavra se relaciona com todas as outras. Esse é o modelo de Transformer, a tecnologia por trás de IAs como o ChatGPT.

O grande mistério que os cientistas queriam resolver era: "Será que podemos fazer esse trabalho de forma mais inteligente, aproveitando que temos tantos gerentes e assistentes trabalhando juntos, ou somos obrigados a fazer cada tarefa separadamente, como se estivéssemos correndo sozinhos?"

Pense nisso como uma corrida. Se você tem 100 pessoas correndo, será que elas podem chegar ao final mais rápido se ajudarem umas às outras, ou o tempo total será apenas a soma do tempo de cada uma correndo sozinha?

O Grande Descoberta: "Não, não há atalhos!"

Os autores deste artigo (Barna Saha, Yinzhan Xu, Christopher Ye e Hantao Yu) provaram que, na maioria dos casos, não existe atalho.

Eles mostraram que, para fazer o trabalho completo de um Transformer, você é obrigado a calcular cada "cabeça" de atenção separadamente. Tentar fazer tudo de uma vez só, aproveitando a estrutura do modelo, não economiza tempo computacional significativo. É como tentar cortar 100 pizzas: mesmo que você tenha 100 facas, se cada pizza precisa ser cortada individualmente, você não consegue fazer 100 pizzas em menos tempo do que cortar uma só e multiplicar por 100.

Os Dois Cenários (Pequeno e Grande)

Os pesquisadores analisaram dois cenários, como se fossem dois tipos de "tamanho de caixa" para guardar as informações:

1. A Caixa Pequena (Embedding Pequeno)

Imagine que cada palavra do texto é guardada em uma caixa pequena.

  • O Problema: Para entender se três palavras se encaixam perfeitamente (um problema matemático chamado "3-OV"), você precisa comparar tudo com tudo.
  • A Descoberta: Eles provaram que, se a caixa for pequena, o tempo que você gasta é exatamente o que você esperaria se fizesse cada comparação uma por uma. Não há mágica. É como tentar encontrar um trio de amigos que nunca se falaram em uma festa gigante; você tem que perguntar para cada um, um por um.

2. A Caixa Gigante (Embedding Grande)

Agora, imagine que cada palavra ocupa uma sala inteira (o tamanho da caixa é igual ao tamanho do texto).

  • O Problema: Aqui, a matemática fica mais complexa, envolvendo multiplicações de matrizes (como multiplicar tabelas gigantes de números).
  • A Descoberta: Eles usaram uma ferramenta matemática chamada Teorema de Baur-Strassen (que é a mesma lógica usada para treinar redes neurais, chamada "backpropagation"). Eles mostraram que, mesmo com essa caixa gigante, você não consegue "espremer" o cálculo para ficar mais rápido do que fazer as multiplicações separadamente.
  • A Analogia: É como se você tivesse que calcular o resultado de 100 multiplicações de matrizes. Mesmo que você tente somar os resultados no final, a matemática prova que você teve que fazer o trabalho pesado de cada uma delas individualmente. Não há como "amortizar" o custo.

Por que isso é importante?

Durante anos, os cientistas esperavam que, com modelos cada vez maiores e mais complexos, a IA pudesse encontrar uma maneira de "pular etapas" e calcular tudo de uma vez só, tornando-se super-rápida.

Este artigo diz: "Pare de procurar por esse atalho mágico."

  • Para os desenvolvedores: Significa que, se você quer que sua IA seja mais rápida, não adianta apenas mudar a arquitetura para tentar calcular tudo junto. Você precisa melhorar o hardware (chips mais rápidos) ou simplificar o modelo, porque a matemática fundamental não permite um atalho computacional.
  • Para a teoria: Eles fecharam uma porta importante na ciência da computação, provando que a complexidade dos Transformers é, essencialmente, a soma das complexidades de suas partes.

Resumo em uma frase

Este papel prova matematicamente que, ao contrário do que muitos esperavam, não é possível fazer o trabalho de um Transformer gigante de forma significativamente mais rápida do que fazer cada pequena parte dele separadamente; a natureza do problema exige que você pague o preço total de cada cálculo individual.