INCRT: An Incremental Transformer That Determines Its Own Architecture

O artigo apresenta o INCRT, uma arquitetura de Transformer incremental que determina sua própria estrutura durante o treinamento, adicionando e removendo cabeças de atenção com base em critérios geométricos online para alcançar configurações mínimas e suficientes, resultando em modelos significativamente mais eficientes e precisos sem a necessidade de pré-treinamento ou validação separada.

Autores originais: Giansalvo Cirrincione

Publicado 2026-04-14
📖 4 min de leitura☕ Leitura rápida

Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma equipe de detetives para resolver um mistério.

No mundo tradicional de Inteligência Artificial (os modelos chamados "Transformers", como o BERT), a regra é: "Vamos contratar 144 detetives de cara, mesmo que o mistério seja simples."

O problema é que, depois que o trabalho é feito, você percebe que 80% desses detetives estavam apenas assistindo, tomando café ou fazendo coisas que ninguém precisava. Eles eram redundantes. Para descobrir quem era o inútil, você teria que treinar todos, demitir os extras e torcer para que os que sobraram ainda consigam resolver o caso. É caro, demorado e desperdiça recursos.

O artigo que você enviou apresenta o INCRT (Transformador Incremental). É como se esse novo sistema dissesse: "Vamos começar com apenas um detetive. Se ele não conseguir resolver o mistério sozinho, vamos contratar mais um. Se dois não bastarem, contratamos um terceiro. E se um deles começar a ficar inútil, demitimos na hora."

Aqui está a explicação simplificada de como isso funciona, usando analogias do dia a dia:

1. O Problema: O "Exército de Zumbis"

Os modelos atuais são como exércitos de zumbis: você joga um monte deles contra o problema. A maioria morre ou fica parada, mas o exército inteiro custa caro para manter. Os pesquisadores descobriram que, em modelos treinados, entre 50% e 80% das "cabeças de atenção" (os detetives) são inúteis. O modelo foi construído para ser grande o suficiente para o pior cenário possível, e depois "podado".

2. A Solução: O Arquiteto que Aprende na Hora

O INCRT não começa com um prédio gigante. Ele começa com uma única sala (uma única "cabeça" de atenção).

  • O Sensor de Energia: O sistema tem um "medidor de tensão" interno. Ele olha para o problema e pergunta: "Existe alguma parte do mistério que ainda não foi entendida?"
  • O Crescimento: Se a resposta for "sim", o sistema contrata instantaneamente um novo detetive especializado exatamente na parte que falta.
  • A Poda: Se um detetive começa a fazer o mesmo trabalho de outro ou não está ajudando mais, ele é demitido imediatamente.

Não há um plano prévio. O tamanho final da equipe é decidido pelo próprio problema, não por um humano chutando um número.

3. A Magia Matemática (Sem dor de cabeça)

O segredo do INCRT é uma ideia geométrica inteligente. Imagine que o problema (como classificar vírus ou sentimentos em textos) tem uma "forma" ou "direção" específica.

  • O sistema usa um truque chamado PCA+MCA (que soa complicado, mas é como ter dois sensores: um que aponta para a maior falta de informação e outro que aponta para o que é irrelevante).
  • Ele calcula uma única medida (um número) que diz: "Quanta energia do problema ainda está solta?".
  • Se esse número for alto, ele contrata mais gente. Se for baixo, ele para.

4. Os Resultados: Menos é Mais

Os autores testaram isso em duas áreas:

  1. Classificação de Variantes do Coronavírus: O INCRT conseguiu identificar as variantes com 99,47% de precisão, usando apenas 15 milhões de parâmetros (detetives). O modelo BERT (o padrão da indústria) usou 110 milhões e precisou de anos de pré-treinamento. O INCRT foi mais rápido, mais leve e mais preciso, usando apenas uma "camada" de detetives, enquanto o BERT usa 12 camadas.
  2. Análise de Sentimento (SST-2): Mesmo em tarefas complexas de linguagem, o sistema funcionou bem, prevendo exatamente quantos "detetives" seriam necessários com uma margem de erro de apenas 12%.

5. A Grande Lição: "O Tamanho Certo"

A descoberta mais importante não é apenas que o sistema cresce, mas que existe uma fórmula matemática para prever quantos detetives um problema precisa.
É como se o sistema dissesse: "Para este tipo de quebra-cabeça, a matemática diz que precisamos de exatamente 130 peças. Nem uma a mais, nem uma a menos."

Resumo em uma frase:

O INCRT é um sistema de Inteligência Artificial que cresce e se adapta sozinha, contratando apenas o número exato de "cérebros" necessários para resolver um problema específico, economizando tempo, dinheiro e energia, sem precisar de um "super-treinamento" prévio.

É a diferença entre construir um estádio de futebol inteiro para uma brincadeira de pique-pega, e construir um campo de jogo que se expande automaticamente conforme mais crianças chegam para brincar.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →