Autores originais: Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

Publicado 2026-05-07✓ Author reviewed ⓘ

📖 5 min de leitura🧠 Leitura aprofundada

CC BY 4.0

Autores originais: Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que construir uma Rede Neural Profunda (DNN) é como construir uma fábrica massiva e complexa. Nos últimos 40 anos, engenheiros têm construído essas fábricas empilhando blocos de Lego padrão (camadas) de diferentes maneiras. Sabemos que essas fábricas funcionam incrivelmente bem, mas nunca tivemos realmente um projeto que explicasse exatamente como os blocos se encaixam no nível mais fundamental. Temos observado a fábrica de fora, tentando adivinhar como as engrenagens giram no interior.

Este artigo introduz um novo projeto ultra-detalhado chamado Estrutura Combinatória Hierárquica. Ele não apenas observa a fábrica; desmonta-a até o nível molecular de como os dados são movidos e misturados.

Aqui está a análise da descoberta deles usando analogias simples:

1. O Novo Projeto: De "Caixas Pretas" a "Engrenagens Transparentes"

A maioria das teorias anteriores tratava as camadas de redes neurais como "caixas pretas". Diziam: "Esta caixa recebe uma imagem e te dá um rótulo", sem explicar a maquinaria interna.

Os autores propõem uma nova maneira de ver essas redes usando Complexos Combinatórios Hierárquicos (HCCs). Pense nisso como um conjunto de bonecas russas:

Os Elementos (Os Blocos): Os dados brutos (números).
As Fatias (As Pilhas): Agrupar esses números em linhas ou colunas.
Os Modos (As Prateleiras): Organizar essas pilhas em dimensões específicas (como altura, largura, cor).
Os Tensores (As Caixas): Os recipientes reais 3D (ou de ordem superior) que contêm os dados.
As Operações (Os Misturadores): As máquinas que combinam essas caixas (como Multiplicação de Matrizes).
A Arquitetura (O Chão da Fábrica): Como todos os misturadores e caixas estão conectados.

A inovação chave aqui é que eles modelam explicitamente as "Operações Tensoriais" (os misturadores). Teorias anteriores ignoravam a forma e a estrutura específicas desses misturadores. Este artigo diz: "Vamos contar exatamente quantas engrenagens há no misturador e como elas se entrelaçam".

2. A Lição de História: Por Que Novas Arquiteturas Funcionam

Os autores usaram seu novo projeto para olhar para trás, nos 40 anos de história das redes neurais. Eles mediram a "complexidade" de arquiteturas famosas (como o Perceptron original, CNNs, ResNets e Transformers) contando tipos específicos de conexões.

A Analogia: Imagine medir a complexidade de um carro.

1986 (FCNN): Uma bicicleta. Simples, uma única engrenagem.
1998 (CNN): Um carro com uma transmissão. Possui mais engrenagens (operações de ordem superior) para lidar com diferentes terrenos.
2016 (ResNet): Um carro com um turbocompressor e uma válvula de desvio (conexões de salto). Adiciona mais peças ao motor para fazê-lo funcionar mais suavemente.
2017 (Transformer): Um motor a jato. Usa um tipo completamente diferente e mais complexo de combustão (um misturador de 3 vias em vez de um de 2 vias).

A Descoberta: Toda vez que uma arquitetura "inovadora" foi inventada, não foi apenas um ajuste; foi um salto para um nível superior de complexidade. O artigo descobriu que os modelos mais bem-sucedidos foram os primeiros a introduzir uma nova "engrenagem" ou uma nova maneira de misturar dados que nunca havia sido usada antes.

3. A Descoberta: Um Universo de Fábricas Não Construídas

Aqui está a parte mais emocionante. Os autores perceberam que, enquanto temos construído com misturadores de 2 vias (operações binárias) e misturadores de 3 vias, existe um universo inteiro de misturadores de 4 vias, 5 vias e até de ordem superior que ignoramos completamente.

Eles perguntaram: "E se construíssemos uma fábrica usando esses misturadores supercomplexos?"

Usando sua estrutura, eles não apenas adivinharam; geraram sistematicamente 3.028 novos projetos de fábricas usando esses misturadores de maior complexidade. Eles não apenas teorizaram; construíram e testaram.

O Resultado:
Eles descobriram que alguns desses designs "estranhos" de alta complexidade eram chocantemente eficientes.

A Analogia: Imagine um caminhão de entrega padrão (MobileNetV2) famoso por ser pequeno e eficiente. Os autores construíram um novo veículo usando seus misturadores complexos. Este novo veículo era menor (usando apenas 10% das peças), mas podia carregar mais carga (atingiu maior precisão) do que o caminhão famoso.
Especificamente, um de seus novos modelos de 5 camadas superou um famoso modelo de 30 camadas enquanto usava uma fração dos parâmetros.

4. A Arquitetura "Estrela Vermelha"

Eles destacaram um design específico (a "Estrela Vermelha") que foi um campeão.

Usou uma "conexão de salto" (enviando dados ao redor de um misturador), mas combinou isso com um misturador de 4 vias muito complexo.
Reutilizou peças (pesos) de maneiras inteligentes, como um mecânico reutilizando um parafuso de uma parte do motor para consertar outra.
Provou que você não precisa de uma rede massiva e profunda para obter grandes resultados; você apenas precisa do tipo certo de mistura complexa.

Resumo

Este artigo é como dar aos engenheiros um novo conjunto de ferramentas para entender e construir redes neurais.

A Ferramenta: Uma linguagem matemática precisa para descrever exatamente como os dados são misturados, não apenas como fluem.
A Insight: A história mostra que avanços acontecem quando inventamos novos tipos de "misturadores".
O Experimento: Eles construíram milhares de novos designs usando esses misturadores complexos e inexplorados.
A Surpresa: Alguns desses novos designs são incrivelmente eficientes, superando os padrões atuais da indústria com muito menos recursos.

O artigo conclui que o futuro das redes neurais pode não ser torná-las mais profundas ou largas, mas sim torná-las estruturalmente mais complexas de maneiras que ainda não tentamos. Eles disponibilizaram seus mais de 3.000 novos designs para que qualquer pessoa estude e use.

Resumo Técnico: Sobre a Complexidade Arquitetural de Redes Neurais

Declaração do Problema

As redes neurais profundas (DNNs) alcançaram sucesso empírico significativo por meio da proliferação de arquiteturas diversas e complexas. No entanto, os quadros teóricos unificados existentes (por exemplo, Aprendizado Profundo Geométrico, Aprendizado Profundo Categórico) baseiam-se em abstrações de alto nível de operações tensoriais, frequentemente tratando-as como funções parametrizadas de caixa-preta ou transformações lineares abstratas. Essa abstração obscurece a estrutura hierárquica intrincada das operações tensoriais — especificamente as informações de baixo nível sobre como os tensores são acoplados, fatiados e transformados. Consequentemente, há uma lacuna na compreensão teórica de como a complexidade arquitetural evolui ao longo do tempo e uma falta de métodos sistemáticos para construir novas arquiteturas baseadas em novos tipos de operações tensoriais. Além disso, a Busca de Arquitetura Neural (NAS) atualmente limita-se a variar conexões entre conjuntos fixos de operações existentes, falhando em explorar o espaço de arquiteturas construídas a partir de operações tensoriais fundamentalmente novas.

Metodologia

Os autores introduzem um quadro combinatório hierárquico unificado baseado em Complexos Combinatórios Hierárquicos (HCCs). Este quadro modela explicitamente a estrutura das operações tensoriais, em vez de abstraí-las. O quadro constrói um HCC de rank 5 para representar redes neurais, organizado da seguinte forma:

Rank 0 — Elementos: Um conjunto base de variáveis de valor real.
Rank 1 — Fatias: Conjuntos ordenados derivados dos elementos.
Rank 2 — Modos: Partições de fatias, representando as dimensões de um tensor.
Rank 3 — Tensores: Tensores generalizados definidos como 3-células. Diferentemente de arrays multidimensionais padrão, estes podem representar tensores "irregulares" (arrays incompletos) e "hiper-tensores" (mapeamento de multi-índices para múltiplos elementos) ao utilizar partições de conjuntos ordenados e ordens fracas estritas.
Rank 4 — Operações: Este nível é dividido em dois tipos:
- Mapas de Modos: Funções entre tensores que preservam estruturas de espaço de fatias (por exemplo, achatamento, desdobramento, criação de patches).
- Operações Tensoriais: Mecanismos para combinar múltiplos tensores (por exemplo, multiplicação de matrizes, produto de Hadamard, projeção multi-cabeça). Estas são definidas por meio de Matrizes de Operação Tensorial (TOMs), que codificam as relações de incidência entre tensores de entrada e os modos do tensor de saída, incluindo contrações (somatórias).
Rank 5 — Redes Neurais: Compostas por mapas de modos e operações tensoriais, representadas por Matrizes de Equação Tensorial (TEMs) que descrevem a estrutura relacional entre operações e tensores.

O quadro introduz métricas específicas para quantificar a Complexidade Arquitetural:

Complexidade de Operação ( $C_{op}$ ): Número de operações.
Complexidade de Tensor ( $C_T$ ): Número de tensores.
Complexidade de Aridade ( $C_\alpha$ ): Número máximo de operandos em uma única operação.
Complexidade de Ordem ( $C_O$ ): Número máximo de modos em uma operação.
Complexidade de Acoplamento-Aridade ( $C_A$ ): Tamanho máximo de um acoplamento (modos compartilhados entre entradas).

Os autores aproveitam este quadro para realizar duas tarefas principais: uma análise retrospectiva de 40 anos de evolução das DNNs e uma geração sistemática de novas arquiteturas.

Contribuições Principais

Quadro Combinatório Hierárquico: O artigo constrói o primeiro quadro que modela explicitamente a estrutura das operações tensoriais, parametrizando um amplo espaço de arquiteturas e formalizando conceitos como diagramas de arquitetura como relações de incidência.
Análise Retrospectiva de Complexidade: Os autores aplicam o quadro para analisar oito arquiteturas fundamentais (FCNN, CNN, ResNet, Transformer, Poly-Net, MO-Net, ViM, TT-Net). Eles definem uma "assinatura de complexidade" para cada uma e traçam a evolução dessas assinaturas ao longo das últimas quatro décadas.
Geração Sistemática de Novas Arquiteturas: Indo além da fronteira das arquiteturas conhecidas, os autores geram sistematicamente um conjunto de dados de 3.028 novas arquiteturas de maior complexidade. Estas são construídas amostrando novas Matrizes de Operação Tensorial (TOMs) e Matrizes de Equação Tensorial (TEMs) com maior aridade ( $C_\alpha$ ) e aridade de acoplamento ( $C_A$ ) do que explorado anteriormente.
Decomposição Teórica: O artigo fornece provas teóricas (por exemplo, Teorema A.35) demonstrando que, sob condições específicas (associatividade e distributividade das operações base), operações tensoriais de maior aridade podem ser decompostas em sequências de operações binárias e, inversamente, sequências de operações binárias podem ser equivalentes a operações de maior aridade.

Resultados

Evolução da Complexidade Arquitetural

A análise de arquiteturas históricas revela uma tendência clara: mudanças arquitetônicas inovadoras correspondem a aumentos em tipos específicos de complexidade.

FCNNs representam a linha de base com baixa complexidade.
CNNs introduziram maior complexidade de ordem ( $C_O$ ) via convolução.
ResNets aumentaram a complexidade de tensor e operação ( $C_T, C_{op}$ ) via conexões de salto.
Transformers marcaram o primeiro aumento significativo na Complexidade de Aridade ( $C_\alpha$ ), utilizando operações ternárias para atenção automática.
Arquiteturas pós-Transformer (Poly-Net, MO-Net, ViM, TT-Net) aumentaram ainda mais a complexidade, com algumas explorando maior aridade de acoplamento ( $C_A > 2$ ) e maior aridade ( $C_\alpha > 3$ ).
O estudo observa que muitas arquiteturas de alta complexidade foram descobertas acidentalmente ou descritas usando codificações de menor complexidade; o quadro revela suas verdadeiras assinaturas de maior complexidade.

Desempenho de Novas Arquiteturas

O conjunto de dados de 3.028 arquiteturas amostradas foi avaliado em tarefas de classificação de imagens (CIFAR-10, CIFAR-100, Tiny ImageNet).

Eficiência de Parâmetros: Muitas arquiteturas amostradas demonstraram notável eficiência de parâmetros e profundidade.
Conquista Específica: Uma arquitetura específica "estrela vermelha" (amostra $\star$ ) com apenas 5 camadas e aproximadamente 198.000 parâmetros (152.000 do estágio base, 46.342 do bloco novo) alcançou 65,52% de precisão no CIFAR-100.
Comparação: Este desempenho superou o MobileNetV2 (64,29% de precisão), uma arquitetura leve amplamente utilizada com 2,5 milhões de parâmetros, usando menos de 10% dos parâmetros.
Eficiência: Os resultados sugerem que operações tensoriais de maior complexidade podem produzir modelos significativamente mais eficientes do que os modelos leves mais avançados atuais.

Significado e Alegações

O artigo alega fornecer a primeira linguagem unificada para analisar e construir rigorosamente redes neurais com base na estrutura explícita das operações tensoriais. Seu significado reside em:

Revelar Complexidade Oculta: Revela que a evolução do aprendizado profundo é impulsionada por aumentos em métricas de complexidade específicas (particularmente aridade e aridade de acoplamento) que anteriormente estavam obscurecidas por abstrações de alto nível.
Definir Limites: Identifica o limite das classes de complexidade arquitetural conhecidas, destacando que grandes classes de arquiteturas de maior complexidade (por exemplo, $C_A > 2$ ) permaneceram em grande parte inexploradas.
Construção Sistemática: Vai além da busca por tentativa e erro ou baseada em conexões (NAS) para uma construção sistemática de arquiteturas a partir de novas operações tensoriais.
Eficiência de Recursos: Os resultados empíricos demonstram que explorar esses espaços de maior complexidade pode levar a arquiteturas que não são apenas novas, mas também significativamente mais eficientes em parâmetros do que modelos existentes, desafiando a suposição de que o desempenho requer contagens massivas de parâmetros.

Os autores concluem que seu quadro permite a exploração de novos espaços de arquiteturas construídas a partir de operações tensoriais de maior complexidade, oferecendo um caminho para projetos de redes neurais de próxima geração, altamente eficientes. O conjunto de dados e o código são lançados publicamente para facilitar pesquisas adicionais neste domínio.

On the Architectural Complexity of Neural Networks