原作者： Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

发布于 2026-05-07✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

原作者： Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，构建一个深度神经网络（DNN）就像建造一座庞大而复杂的工厂。在过去的 40 年里，工程师们通过以不同方式堆叠标准乐高积木（层）来建造这些工厂。我们知道这些工厂运作得极其出色，但我们从未真正拥有一份蓝图，能够确切地解释这些积木在最根本的层面上是如何拼接在一起的。我们一直从外部观察这座工厂，猜测内部齿轮是如何转动的。

本文介绍了一种名为**分层组合框架（Hierarchical Combinatorial Framework）**的全新超详细蓝图。它不仅仅观察这座工厂，而是将其拆解至数据移动与混合的分子层面。

以下是他们发现的分解说明，使用了简单的类比：

1. 新蓝图：从“黑盒”到“透明齿轮”

大多数先前的理论将神经网络层视为“黑盒”。它们只是说：“这个盒子接收一张图像并给你一个标签”，而没有解释内部的机械结构。

作者提出了一种利用**分层组合复形（HCCs）**来观察这些网络的新方法。将其想象为一套俄罗斯套娃：

元素（积木）： 原始数据（数字）。
切片（堆）： 将这些数字分组为行或列。
模式（架子）： 将这些堆组织成特定的维度（如高度、宽度、颜色）。
张量（盒子）： 容纳数据的实际 3D（或更高维）容器。
运算（混合器）： 组合这些盒子的机器（如矩阵乘法）。
架构（工厂车间）： 所有混合器和盒子是如何连接的。

这里的关键创新在于，他们明确地对**“张量运算”**（即混合器）进行了建模。先前的理论忽略了这些混合器的具体形状和结构。本文指出：“让我们精确计算混合器中有多少个齿轮，以及它们是如何相互咬合的。”

2. 历史课：新架构为何有效

作者利用他们的新蓝图回顾了 40 年的神经网络历史。他们通过计算特定类型的连接数量，测量了著名架构（如原始感知机、CNN、ResNet 和 Transformer）的“复杂性”。

类比： 想象一下测量一辆汽车的复杂性。

1986 年（FCNN）： 一辆自行车。简单，只有一个齿轮。
1998 年（CNN）： 一辆带有变速箱的汽车。它拥有更多的齿轮（高阶运算）来处理不同的地形。
2016 年（ResNet）： 一辆带有涡轮增压器和旁通阀（跳跃连接）的汽车。它在发动机中增加了更多部件，使其运行更平稳。
2017 年（Transformer）： 喷气式发动机。它使用了一种完全不同且更复杂的燃烧类型（一个三向混合器，而不是双向混合器）。

发现： 每当一种“开创性”的架构被发明时，它不仅仅是一个微调，而是一次向更高复杂性层级的飞跃。该论文发现，最成功的模型是那些首次引入新“齿轮”或以前未使用过的数据混合方式的模型。

3. 发现：未被建造的工厂宇宙

这是最令人兴奋的部分。作者意识到，虽然我们要一直使用双向混合器（二元运算）和三向混合器，但完全存在一个由四向、五向甚至更高阶混合器组成的宇宙，而我们完全忽略了它们。

他们问道：“如果我们用这些超复杂的混合器建造一座工厂会怎样？”

利用他们的框架，他们不仅仅是猜测，而是系统地生成了 3,028 种使用这些更高复杂度混合器的新工厂设计。他们不仅仅是理论推演，而是实际构建并测试了它们。

结果：
他们发现，其中一些“怪异”的高复杂度设计具有令人震惊的效率。

类比： 想象一辆标准的送货卡车（MobileNetV2），它以小巧高效而闻名。作者利用他们复杂的混合器建造了一辆新车。这辆车更小（仅使用了 10% 的部件），但能运送更多货物（实现了更高的准确率），超过了那辆著名的卡车。
具体来说，他们的新 5 层模型之一击败了一个著名的 30 层模型，同时使用的参数却只是其一小部分。

4. “红星”架构

他们突出展示了一种特定的设计（“红星”），它是其中的冠军。

它使用了一种“跳跃连接”（将数据绕过混合器发送），但将其与非常复杂的四向混合器相结合。
它以巧妙的方式重用部件（权重），就像机械师从一个发动机部件上拆下螺栓来修理另一个部件一样。
它证明了你不需要庞大而深层的网络就能获得出色的结果；你只需要正确类型的复杂混合。

总结

这篇论文就像为工程师提供了一套新工具，用于理解和构建神经网络。

工具： 一种精确的数学语言，用于确切描述数据是如何被混合的，而不仅仅是如何流动的。
洞察： 历史表明，当我们发明新类型的“混合器”时，突破就会发生。
实验： 他们利用这些未探索的复杂混合器构建了数千种新设计。
惊喜： 其中一些新设计效率极高，以更少的资源超越了当前的行业标准。

该论文得出结论：神经网络的未来可能不在于使其更深或更宽，而在于以我们尚未尝试过的方式使其结构更加复杂。他们已经发布了 3000 多种新设计，供任何人研究和使用。

技术摘要：神经网络的架构复杂性

问题陈述

深度神经网络（DNN）通过多样化且复杂的架构的普及，取得了显著的实证成功。然而，现有的统一理论框架（例如几何深度学习、范畴深度学习）依赖于张量操作的高层抽象，通常将其视为黑盒参数化函数或抽象线性变换。这种抽象掩盖了张量操作错综复杂的层次结构——特别是关于张量如何耦合、切片和变换的低层信息。因此，在理解架构复杂性如何随时间演变方面存在理论空白，并且缺乏基于新型张量操作系统性地构建新架构的方法。此外，神经架构搜索（NAS）目前仅限于在固定的一组现有操作之间调整连接，未能探索由根本性新型张量操作构建的架构空间。

方法论

作者引入了一种基于分层组合复形（HCCs）的统一分层组合框架。该框架显式地对张量操作的结构进行建模，而不是将其抽象化。该框架构建了一个 5 阶 HCC 来表示神经网络，其组织方式如下：

Rank 0 — 元素：一组实值变量的基础集合。
Rank 1 — 切片：从元素导出的有序集合。
Rank 2 — 模式：切片的划分，代表张量的维度。
Rank 3 — 张量：定义为 3-细胞的广义张量。与标准多维数组不同，这些张量可以通过利用有序集合的划分和严格弱序，表示“锯齿状”张量（不完整的数组）和“超张量”（将多索引映射到多个元素）。
Rank 4 — 操作：该层级分为两种类型：
- 模式映射： 保持切片空间结构的张量之间的函数（例如，展平、展开、分块）。
- 张量操作： 组合多个张量的机制（例如，矩阵乘法、哈达玛积、多头投影）。这些操作通过**张量操作矩阵（TOMs）**定义，该矩阵编码了输入张量与输出张量模式之间的关联关系，包括收缩（求和）。
Rank 5 — 神经网络：由模式映射和张量操作组成，由**张量方程矩阵（TEMs）**表示，描述了操作与张量之间的关联结构。

该框架引入了特定的指标来量化架构复杂性：

操作复杂度（ $C_{op}$ ）： 操作的数量。
张量复杂度（ $C_T$ ）： 张量的数量。
元数复杂度（ $C_\alpha$ ）： 单个操作中操作数的最大数量。
阶数复杂度（ $C_O$ ）： 操作中模式的最大数量。
耦合 - 元数复杂度（ $C_A$ ）： 耦合（输入之间的共享模式）的最大规模。

作者利用该框架执行两项主要任务：对 40 年 DNN 演变的回顾性分析，以及系统性地生成新架构。

主要贡献

分层组合框架： 本文构建了首个显式建模张量操作结构的框架，对广泛的架构空间进行参数化，并将架构图等概念形式化为关联关系。
回顾性复杂性分析： 作者应用该框架分析了八种基础架构（FCNN、CNN、ResNet、Transformer、Poly-Net、MO-Net、ViM、TT-Net）。他们为每种架构定义了“复杂性特征”，并追溯了这些特征在过去四十年中的演变。
新架构的系统性生成： 超越已知架构的边界，作者系统性地生成了一个包含3,028 种新型高复杂度架构的数据集。这些架构是通过采样具有比先前探索更高的元数（ $C_\alpha$ ）和耦合元数（ $C_A$ ）的新型张量操作矩阵（TOMs）和张量方程矩阵（TEMs）构建的。
理论分解： 本文提供了理论证明（例如定理 A.35），表明在特定条件下（基础操作的结合律和分配律），高阶张量操作可以分解为二元操作的序列，反之，二元操作的序列也可以等价于高阶操作。

结果

架构复杂性的演变

对历史架构的分析揭示了一个清晰的趋势：突破性的架构转变对应于特定类型复杂性的增加。

FCNN 代表了低复杂性的基线。
CNN 通过卷积引入了更高的阶数复杂度（ $C_O$ ）。
ResNet 通过跳跃连接增加了张量和操作复杂度（ $C_T, C_{op}$ ）。
Transformer 标志着**元数复杂度（ $C_\alpha$ ）**的首次显著增加，利用三元操作进行自注意力计算。
Transformer 后架构（Poly-Net、MO-Net、ViM、TT-Net）进一步增加了复杂性，其中一些探索了更高的耦合元数（ $C_A > 2$ ）和更高的元数（ $C_\alpha > 3$ ）。
研究指出，许多高复杂度架构是偶然发现的，或者使用较低复杂度的编码进行描述；该框架揭示了它们真实的、更高复杂度的特征。

新架构性能

对 3,028 个采样架构的数据集在图像分类任务（CIFAR-10、CIFAR-100、Tiny ImageNet）上进行了评估。

参数效率： 许多采样架构表现出惊人的参数和深度效率。
具体成就： 一个特定的“红星”架构（样本 $\star$ ）仅包含 5 层，参数量约为 198,000（基础阶段 152,000，新模块 46,342），在 CIFAR-100 上达到了65.52% 的准确率。
对比： 这一性能超过了广泛使用的轻量级架构MobileNetV2（准确率 64.29%，参数量 250 万），使用的参数量不到其 10%。
效率： 结果表明，更高复杂度的张量操作可以产生比当前最先进的轻量级模型显著更高效的模型。

意义与主张

本文声称提供了首个统一语言，用于基于张量操作的显式结构来严格分析和构建神经网络。其意义在于：

揭示隐藏复杂性： 它揭示了深度学习的演变是由特定复杂性指标（特别是元数和耦合元数）的增加所驱动的，而这些指标此前被高层抽象所掩盖。
定义边界： 它确定了已知架构复杂性类别的边界，强调了大量更高复杂度的架构类别（例如 $C_A > 2$ ）在很大程度上尚未被探索。
系统性构建： 它超越了试错法或基于连接的搜索（NAS），转向从新型张量操作系统性地构建架构。
资源效率： 实证结果表明，探索这些更高复杂度的空间可以产生不仅新颖，而且比现有模型显著更具参数效率的架构，挑战了性能需要海量参数量的假设。

作者总结道，他们的框架使得探索由更高复杂度张量操作构建的新架构空间成为可能，为下一代高效神经网络设计提供了一条路径。数据集和代码已公开发布，以促进该领域的进一步研究。

On the Architectural Complexity of Neural Networks