Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Este artigo propõe substituir a projeção de saída densa na atenção multi-cabeça por uma Transformada de Hadamard estruturada e livre de parâmetros seguida de um redimensionamento afim leve, reduzindo significativamente o número de parâmetros e o custo de inferência sem comprometer o desempenho em tarefas padrão.

Shubham Aggarwal, Lokendra Kumar

Publicado 2026-03-10
📖 3 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está organizando uma grande festa de networking onde cada convidado (os "cabeças" da atenção) traz uma informação valiosa. O objetivo é misturar todas essas informações para criar uma conclusão inteligente.

No modelo de Inteligência Artificial tradicional (o Transformer), existe um "organizador de festas" muito pesado e caro chamado Projeção de Saída Densa.

O Problema: O Organizador Excessivamente Detalhado

Imagine que esse organizador é um funcionário que precisa ler o que cada um dos 100 convidados disse e escrever uma carta personalizada para cada um dos 100 convidados, explicando como a fala de todos os outros se conecta com a deles.

  • O custo: Para 100 pessoas, ele precisa escrever 10.000 conexões (100 x 100). Isso consome muita tinta (memória), muita energia (computação) e tempo.
  • O resultado: A festa funciona bem, mas o organizador é tão grande que ocupa metade do orçamento da empresa, deixando pouco dinheiro para outras coisas.

A Solução: O "Transformador de Hadamard" (O Organizador Rápido)

Os autores deste paper propõem substituir esse organizador lento por um Transformador de Hadamard. Pense nele como um truque de mágica matemática ou um sistema de correio expresso.

Em vez de escrever cartas individuais para cada um, o novo sistema usa uma regra fixa e inteligente:

  1. Sem Papel Novo: Ele não precisa de novas instruções (parâmetros) para aprender quem fala com quem. A regra já existe e é gratuita.
  2. O Truque do "Soma e Subtrai": Em vez de escrever 10.000 cartas, ele apenas pede para os convidados se agruparem, somarem suas vozes e, às vezes, inverterem o tom (subtrair). É como se eles fizessem um "butterfly" (borboleta) de conversas rápidas.
  3. O Ajuste Fino: Depois dessa mistura rápida, ele apenas aplica um pequeno "tempero" (um ajuste de volume e tom) que é aprendido pelo modelo.

Por que isso é genial? (As Analogias)

  • Economia de Espaço (Parâmetros):
    Imagine que o modelo antigo tinha um armário gigante cheio de mapas de todas as ruas possíveis. O novo modelo usa um mapa de metrô fixo e eficiente. Isso reduz o tamanho do modelo em cerca de 7% no total, mas economiza 25% apenas na parte da "mistura" das informações. É como trocar um caminhão de mudanças por uma bicicleta elétrica para fazer a mesma entrega.

  • Velocidade (Eficiência):
    O método antigo era como tentar conectar 1.000 cabos de rede manualmente (complexidade quadrática). O novo método é como usar um switch de internet que conecta tudo automaticamente em camadas (complexidade logarítmica). Quanto maior a festa (modelo maior), mais rápido o novo sistema fica em comparação ao antigo.

  • Qualidade da Festa (Desempenho):
    Você pode pensar: "Mas se o organizador é mais simples, a festa será pior?"
    A resposta é não. Os autores mostraram que, ao usar esse truque matemático, a festa continua tão boa (ou até um pouco melhor) quanto antes. O modelo aprende a se comunicar tão bem quanto o antigo, mas gasta menos energia.

O Resultado Final na Vida Real

Ao fazer essa troca simples:

  1. Menos Memória: O modelo cabe em computadores menores ou permite que você processe mais conversas ao mesmo tempo.
  2. Mais Velocidade: A IA responde mais rápido, especialmente quando você tem muitos usuários ao mesmo tempo (como em um chatbot popular).
  3. Custo Reduzido: Empresas podem rodar modelos gigantes gastando menos eletricidade e dinheiro.

Resumo em uma frase:
Os autores descobriram que não precisamos de um "super-organizador" que escreve milhões de cartas para misturar informações; um "truque matemático rápido e gratuito" faz o mesmo trabalho, deixando a IA mais leve, rápida e barata, sem perder inteligência.