On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions

Este artigo demonstra teoricamente que as redes Transformer possuem poder expressivo universal, aproximando redes maxout e funções contínuas por partes lineares com complexidade comparável, onde as camadas de auto-atenção implementam operações do tipo máximo e as camadas feedforward realizam transformações afins token a token.

Linyan Gu, Lihua Yang, Feng Zhou

Publicado 2026-03-04
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem dois tipos de cozinheiros tentando preparar o mesmo prato complexo: um Cozinheiro Clássico (as Redes Neurais Tradicionais) e um Cozinheiro Moderno (o Transformer, a tecnologia por trás do ChatGPT e outros modelos de IA).

Este artigo é como um manual de engenharia que tenta provar matematicamente que o Cozinheiro Moderno é tão capaz quanto o Clássico, e até mesmo mais poderoso em certas situações, mas de uma forma que ninguém havia explicado claramente antes.

Aqui está a explicação do que os autores descobriram, usando analogias do dia a dia:

1. O Grande Mistério: "O que o Transformer realmente consegue fazer?"

Durante anos, os Transformers foram famosos por serem ótimos na prática (traduzindo textos, escrevendo poemas), mas os teóricos estavam confusos: "Será que eles conseguem realmente aprender qualquer coisa, ou só funcionam por sorte?"

O papel deste artigo é responder: Sim, eles conseguem aprender qualquer coisa, desde que tenhamos a receita certa.

2. A Analogia do "Chef de Máxima" (Maxout Networks)

Para entender o segredo, os autores olharam para um tipo especial de rede neural chamada Maxout.

  • O que é? Imagine um comitê de 10 chefs. Cada um propõe uma receita (uma linha reta). O "Maxout" é o chefe que olha para todas as 10 propostas e escolhe apenas a melhor (o máximo) para servir ao cliente.
  • Por que importa? Matematicamente, esse "escolher o melhor" é a chave para criar formas complexas e curvas. Se você consegue fazer um Transformer fazer isso, você consegue fazer ele fazer quase qualquer coisa.

3. A Grande Descoberta: O Transformer é um "Mestre do Máximo"

A parte mais brilhante do artigo é mostrar que o mecanismo de atenção (o coração do Transformer) faz exatamente a mesma coisa que o "escolher o melhor" do Maxout.

  • A Analogia: Imagine que você tem uma sala cheia de pessoas (os "tokens" ou palavras) gritando ideias.
    • No Cozinheiro Clássico, você mistura tudo em uma panela e espera que a sopa fique boa.
    • No Transformer, o mecanismo de atenção age como um juiz. Ele olha para todas as ideias gritadas, compara a intensidade de cada uma e seleciona a mais forte (o máximo) para passar adiante.
  • O Resultado: Os autores provaram que, com a configuração certa, o Transformer pode imitar perfeitamente o "Cozinheiro de Máxima". Isso significa que o Transformer tem a mesma capacidade universal de aprendizado das redes neurais antigas, mas com uma estrutura diferente.

4. A Medida de Poder: "Quartos de Sala" (Regiões Lineares)

Como medimos o poder de um cérebro artificial? Os autores usam uma metáfora de arquitetura de interiores.

  • Imagine que a função que a IA está aprendendo é um mapa de um terreno.
  • Uma rede neural simples é como um terreno plano (uma linha reta).
  • Uma rede neural complexa é como um terreno montanhoso com muitas curvas e vales.
  • Para descrever esse terreno, você pode dividi-lo em quartos (regiões). Dentro de cada quarto, o terreno é plano (uma linha reta).
  • A Descoberta: O artigo mostra que, à medida que você adiciona mais camadas (mais andares) ao Transformer, o número de "quartos" que ele pode criar cresce exponencialmente.
    • Analogia: Se uma rede simples tem 10 quartos, adicionar um andar ao Transformer não dá apenas mais 10 quartos; pode dar 100, 1.000 ou 1 milhão de quartos. Isso significa que o Transformer pode desenhar formas incrivelmente complexas e detalhadas com muito menos "espaço" (parâmetros) do que se pensava.

5. O Truque Secreto: "Deslocamento de Token"

Um dos maiores desafios do Transformer é que ele trata todas as palavras da mesma maneira (compartilhamento de parâmetros). É como se todos os alunos de uma sala de aula recebessem a mesma lição de casa, independentemente de onde sentam. Isso limita o aprendizado.

  • A Solução dos Autores: Eles introduziram um truque chamado "deslocamento de token".
  • A Analogia: Imagine que, a cada andar do prédio (camada da rede), você move a cadeira de cada aluno um pouco para a esquerda.
    • No primeiro andar, o aluno "A" está na janela.
    • No segundo andar, ele está no corredor.
    • No terceiro, ele está no banheiro.
    • Isso permite que o "Cozinheiro" (a rede) veja o ingrediente "A" de ângulos diferentes em cada etapa, permitindo criar receitas muito mais complexas sem precisar de mais ingredientes (parâmetros).

Resumo em uma Frase

Este artigo prova que o Transformer não é apenas uma "caixa preta" mágica; ele é, na verdade, uma máquina matemática extremamente eficiente que usa um mecanismo de "escolher o melhor" (atenção) para construir formas complexas, crescendo em poder de forma exponencial conforme fica mais profundo, e consegue fazer tudo o que as redes neurais antigas faziam, mas de uma maneira mais inteligente e estruturada.

Em português simples: O Transformer é um super-herói que aprende a escolher a melhor opção entre muitas, e quanto mais alto ele cresce (mais camadas), mais complexos e detalhados os desenhos que ele consegue fazer.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →