Attention Is All You Need

O artigo apresenta o Transformer, uma nova arquitetura de rede neural baseada exclusivamente em mecanismos de atenção que dispensa recorrência e convoluções, alcançando resultados superiores em tarefas de tradução automática e demonstrando alta eficiência no treinamento e generalização para outras tarefas.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

Publicado 2017-06-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a traduzir um livro inteiro de inglês para alemão. Antes deste trabalho, os robôs faziam isso de uma maneira muito lenta e cansativa: eles liam a frase palavra por palavra, da esquerda para a direita, como se estivessem lendo um livro em voz alta, lembrando-se de cada palavra anterior para entender a próxima.

Isso é como tentar montar um quebra-cabeça gigante, mas você só pode colocar uma peça de cada vez, esperando que a anterior esteja perfeita antes de pegar a próxima. Se o livro for longo, o robô fica confuso com o começo da frase quando chega no final, e o processo demora uma eternidade porque não dá para fazer várias peças ao mesmo tempo.

O que é o "Transformer"?

Os autores deste artigo (do Google Brain e Google Research) criaram uma nova arquitetura chamada Transformer. Em vez de ler palavra por palavra em sequência, o Transformer olha para todas as palavras da frase ao mesmo tempo, como se fosse um super-herói com visão de raio-X que vê o texto inteiro de uma só vez.

Aqui estão as analogias principais para entender como ele funciona:

1. O Poder do "Foco" (Atenção)

Imagine que você está em uma sala cheia de pessoas conversando (uma frase).

  • O modelo antigo (RNN): Você ouve as pessoas falando uma de cada vez. Se alguém falar algo importante no início da conversa, você pode esquecer quando chegar ao final.
  • O Transformer: Ele usa um mecanismo chamado "Atenção". É como se ele tivesse um laser que pode apontar para qualquer pessoa na sala, independentemente de onde ela está. Se a frase é "O gato subiu na árvore porque estava com medo", o Transformer sabe instantaneamente que "gato" e "árvore" estão conectados, mesmo que haja muitas palavras entre elas. Ele não precisa "lembrar" da palavra anterior; ele simplesmente "olha" para ela quando necessário.

2. A Equipe de Especialistas (Multi-Head Attention)

O Transformer não usa apenas um "olho" para olhar para as palavras. Ele usa vários olhos ao mesmo tempo (chamados de "cabeças" de atenção).

  • Imagine que você tem uma equipe de tradutores.
    • O Tradutor A foca apenas na gramática (quem fez a ação?).
    • O Tradutor B foca no significado emocional das palavras.
    • O Tradutor C foca em como as palavras se conectam.
  • Todos eles olham para a frase ao mesmo tempo, cada um com seu foco diferente. Depois, eles juntam suas opiniões para criar a tradução perfeita. Isso permite que o modelo entenda nuances complexas que um único "olho" perderia.

3. O Mapa de Posição (Positional Encoding)

Como o Transformer lê tudo de uma vez, ele não sabe naturalmente qual palavra vem primeiro, qual vem no meio e qual vem no fim. Se você embaralhar as palavras, a frase perde o sentido.

  • Para resolver isso, os autores deram a cada palavra um "crachá" ou um "número de ordem" invisível (chamado de Codificação Posicional).
  • É como se cada palavra tivesse um adesivo colorido dizendo: "Eu sou a 1ª palavra", "Eu sou a 2ª palavra". Isso permite que o robô entenda a ordem das coisas sem precisar ler em sequência. Eles usaram uma fórmula matemática baseada em ondas (seno e cosseno) para criar esses crachás, o que é genial porque permite que o modelo entenda frases mais longas do que as que ele viu durante o treino.

4. Por que isso é revolucionário?

  • Velocidade: Como o Transformer não precisa esperar a palavra anterior para processar a próxima, ele pode usar muitos processadores (GPUs) ao mesmo tempo. É como ter 8 pessoas montando o quebra-cabeça juntas, em vez de uma só.
  • Qualidade: O modelo aprendeu a traduzir muito melhor. No teste de inglês para alemão, ele superou todos os modelos anteriores (mesmo os que usavam várias traduções combinadas) com muito menos tempo de treino.
  • Custo: Enquanto outros modelos levavam semanas para treinar, o Transformer fez o mesmo trabalho em 3,5 dias usando apenas 8 placas de vídeo potentes.

Resumo da História

O "Attention Is All You Need" (A Atenção é Tudo o que Você Precisa) diz que, para entender linguagem, não precisamos de máquinas complexas que leem palavra por palavra. Se dermos ao computador a capacidade de prestar atenção em todas as partes de uma frase simultaneamente e entender como elas se relacionam, ele se torna muito mais inteligente, rápido e eficiente.

Esse trabalho mudou o mundo da Inteligência Artificial. Quase todos os modelos modernos de IA que você ouve falar hoje (como o GPT, o Bard, o Llama e outros) são descendentes diretos desse Transformer. Eles são a base da revolução atual de IA generativa.