原著者： Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

公開日 2026-05-07✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

ディープニューラルネットワーク（DNN）の構築を、巨大で複雑な工場の建設に例えてみましょう。過去 40 年間、エンジニアたちは標準的なレゴブロック（層）をさまざまな方法で積み重ねることで、これらの工場を建設してきました。これらの工場が驚くほどよく機能することはわかっていますが、最も根本的なレベルでブロックがどのように組み合わさっているかを正確に説明する設計図は、これまで一度も存在しませんでした。私たちは工場を外側から眺め、内部の歯車がどのように回転しているかを推測し続けてきたのです。

本論文は、「階層的組合せフレームワーク」と呼ばれる、極めて詳細な新しい設計図を導入します。これは工場を眺めるだけでなく、データが移動し混合される仕組みを分子レベルまで分解して分析します。

以下に、彼らの発見を単純なアナロジーを用いて解説します。

1. 新しい設計図：「ブラックボックス」から「透明な歯車」へ

これまでのほとんどの理論は、ニューラルネットワークの層を「ブラックボックス」として扱ってきました。「この箱は画像を入力として受け取り、ラベルを出力する」と述べるだけで、内部の機械機構については説明しませんでした。

著者たちは、**階層的組合せ複体（HCCs）**を用いてこれらのネットワークを見る新しい方法を提案します。これはロシアのマトリョーシカ人形のようなものです。

要素（ブロック）： 生データ（数値）。
スライス（山）： これらの数値を行または列にグループ化すること。
モード（棚）： これらの山を特定の次元（高さ、幅、色など）に整理すること。
テンソル（箱）： データを保持する実際の 3 次元（またはそれ以上）の容器。
演算（ミキサー）： これらの箱を組み合わせる機械（行列乗算など）。
アーキテクチャ（工場床）： すべてのミキサーと箱がどのように接続されているか。

ここでの重要な革新は、彼らが明示的に**「テンソル演算」**（ミキサー）をモデル化している点です。従来の理論は、これらのミキサーの具体的な形状や構造を無視していました。本論文は、「ミキサーの中にいくつの歯車があり、それらがどのように噛み合っているかを正確に数えよう」と述べています。

2. 歴史の教訓：なぜ新しいアーキテクチャが機能するのか

著者たちは、この新しい設計図を用いて、過去 40 年間のニューラルネットワークの歴史を振り返りました。彼らは、特定の種類の接続を数えることで、有名なアーキテクチャ（元のパーセプトロン、CNN、ResNet、トランスフォーマーなど）の「複雑さ」を測定しました。

アナロジー： 車の複雑さを測定すると想像してください。

1986 年（FCNN）： 自転車。シンプルで、ギアは一つ。
1998 年（CNN）： 変速機付きの自動車。異なる地形に対応するための、より多くのギア（高次演算）を持っています。
2016 年（ResNet）： ターボチャージャーとバイパス弁（スキップ接続）付きの自動車。エンジンにさらに部品を追加して、より滑らかに動作するようにしています。
2017 年（トランスフォーマー）： ジェットエンジン。全く異なり、より複雑な燃焼タイプ（2 方向ミキサーではなく 3 方向ミキサー）を使用しています。

発見： 画期的なアーキテクチャが考案されるたびに、それは単なる微調整ではなく、より高い複雑性のレベルへの飛躍でした。本論文は、最も成功したモデルは、これまで使われたことのない新しい「ギア」や新しいデータ混合方法を最初に導入したものだったことを発見しました。

3. 発見：未建設の工場の宇宙

ここが最もエキサイティングな部分です。著者たちは、私たちがこれまで 2 方向ミキサー（二項演算）と 3 方向ミキサーで建設してきた一方で、4 方向、5 方向、さらにはそれ以上のミキサーという、完全に無視されてきた宇宙全体が存在することに気づきました。

彼らは問いかけました。「もしこれらの超複雑なミキサーを使って工場を建設したらどうなるだろうか？」

フレームワークを用いて、彼らは推測するだけでなく、これらの高複雑性ミキサーを使用して3,028 の新しい工場設計を体系的に生成しました。彼らは理論化しただけでなく、実際にそれらを構築し、テストしました。

結果：
彼らは、これらの「奇妙で」高複雑性の設計の一部が、驚くほど効率的であることを発見しました。

アナロジー： 小型で効率的で有名な標準的な配送トラック（MobileNetV2）を想像してください。著者たちは、これらの複雑なミキサーを用いて新しい車両を構築しました。この新しい車両は小型（部品を 10% しか使用せず）でしたが、有名なトラックよりも多くの貨物（より高い精度）を運ぶことができました。
具体的には、彼らの新しい 5 層モデルの一つが、パラメータの断片しか使用しないにもかかわらず、有名な 30 層モデルを凌駕しました。

4. 「レッドスター」アーキテクチャ

彼らは、チャンピオンであった特定の設計（「レッドスター」）を強調しました。

「スキップ接続」（データをミキサーの周りに送る）を使用しつつ、非常に複雑な 4 方向ミキサーと組み合わせています。
部品（重み）を巧妙に再利用しています。これは、メカニックがエンジン部品の一つからボルトを再利用して別の部品を修理するようなものです。
優れた結果を得るために巨大で深いネットワークは不要であり、必要なのは適切な種類の複雑な混合であることを証明しました。

まとめ

この論文は、エンジニアにニューラルネットワークを理解し構築するための新しいツールセットを提供するものです。

ツール： データの流れだけでなく、データがどのように混合されるかを正確に記述するための精密な数学的言語。
洞察： 歴史が示すように、ブレークスルーは新しい種類の「ミキサー」を発明したときに起こります。
実験： 彼らは、未探索の複雑なミキサーを使用して、数千の新しい設計を構築しました。
驚き： これらの新しい設計の一部は驚くほど効率的であり、はるかに少ないリソースで現在の業界標準を上回ります。

本論文は、ニューラルネットワークの未来は、それらをより深くしたり広くしたりすることではなく、私たちがまだ試していない方法で構造的により複雑にすることにあると結論付けています。彼らは、3,000 以上の新しい設計を公開し、誰でも研究・利用できるようにしました。

技術的概要：ニューラルネットワークの構造的複雑性に関する考察

問題提起

深層ニューラルネットワーク（DNN）は、多様で複雑なアーキテクチャの普及を通じて、顕著な経験的成功を収めてきた。しかし、既存の統合された理論的枠組み（幾何学的深層学習、圏論的深層学習など）は、テンソル演算の高度な抽象化に依存しており、それらをブラックボックス化されたパラメータ付き関数や抽象的な線形変換として扱う傾向がある。この抽象化は、テンソル演算の複雑な階層構造、特にテンソルがどのように結合され、スライスされ、変換されるかという低レベルの情報を曖昧にしてしまう。その結果、時間の経過とともにアーキテクチャの複雑性がどのように進化するかについての理論的理解に欠陥があり、新しい種類のテンソル演算に基づいて新規アーキテクチャを構築するための体系的な方法が不足している。さらに、ニューラルアーキテクチャ検索（NAS）は現在、既存の演算の固定された集合間の接続を変化させることに限定されており、根本的に新しいテンソル演算から構築されたアーキテクチャの空間を探求できていない。

手法

著者らは、階層的組合せ複体（HCCs）に基づいた統合された階層的組合せ枠組みを導入する。この枠組みは、テンソル演算を抽象化するのではなく、その構造を明示的にモデル化する。この枠組みは、ニューラルネットワークを表すランク 5 の HCC を構築するもので、以下のように構成されている：

Rank 0 — 要素（Elements）： 実数値変数の基本集合。
Rank 1 — スライス（Slices）： 要素から導出された順序集合。
Rank 2 — モード（Modes）： スライスの分割であり、テンソルの次元を表す。
Rank 3 — テンソル（Tensors）： 3-セルとして定義された一般化されたテンソル。標準的な多次元配列とは異なり、順序集合の分割と厳密な弱順序を利用することで、「ジャグド（不規則）テンソル」（不完全な配列）や「ハイパーテンソル」（多重インデックスを複数の要素にマッピングするもの）を表すことができる。
Rank 4 — 演算（Operations）： このレベルは 2 種類に分類される：
- モードマップ： スライス空間の構造を保存するテンソル間の関数（例：平坦化、展開、パッチ化）。
- テンソル演算： 複数のテンソルを結合するメカニズム（例：行列乗算、アダマール積、マルチヘッド射影）。これらは**テンソル演算行列（TOMs）**を通じて定義され、入力テンソルと出力テンソルのモード間の結合関係（縮約（総和）を含む）を符号化する。
Rank 5 — ニューラルネットワーク（Neural Networks）： モードマップとテンソル演算から構成され、演算とテンソル間の関係構造を記述する**テンソル方程式行列（TEMs）**によって表現される。

この枠組みは、アーキテクチャ的複雑性を定量化するための特定の指標を導入する：

演算複雑性（ $C_{op}$ ）： 演算の数。
テンソル複雑性（ $C_T$ ）： テンソルの数。
次数複雑性（ $C_\alpha$ ）： 単一の演算における最大オペランド数。
順序複雑性（ $C_O$ ）： 演算における最大モード数。
結合次数複雑性（ $C_A$ ）： 結合（入力間の共有モード）の最大サイズ。

著者らは、この枠組みを活用して、40 年にわたる DNN の進化の回顧的分析と、新規アーキテクチャの体系的な生成という 2 つの主要なタスクを実行する。

主要な貢献

階層的組合せ枠組み： 本論文は、テンソル演算の構造を明示的にモデル化する最初の枠組みを構築し、広範なアーキテクチャ空間をパラメータ化し、アーキテクチャ図を結合関係として形式化する概念を定式化した。
回顧的複雑性分析： 著者らは、この枠組みを 8 つの基礎的なアーキテクチャ（FCNN、CNN、ResNet、Transformer、Poly-Net、MO-Net、ViM、TT-Net）の分析に応用した。各アーキテクチャに対して「複雑性シグネチャ」を定義し、過去 4 十年にわたるこれらのシグネチャの進化を追跡した。
新規アーキテクチャの体系的生成： 既知のアーキテクチャの境界を超えて、著者らは3,028 の新規の高複雑性アーキテクチャのデータセットを体系的に生成した。これらは、以前に探求されたものよりも高い次数（ $C_\alpha$ ）と結合次数（ $C_A$ ）を持つ新しいテンソル演算行列（TOMs）とテンソル方程式行列（TEMs）をサンプリングすることで構築された。
理論的分解： 本論文は、特定の条件（基本演算の結合律と分配律）の下では、高次数のテンソル演算を二項演算の系列に分解でき、逆に二項演算の系列が高次数の演算と同等になり得ることを示す理論的証明（定理 A.35 など）を提供する。

結果

アーキテクチャ的複雑性の進化

歴史的なアーキテクチャの分析は、画期的なアーキテクチャ的転換が特定の種類の複雑性の増加に対応しているという明確な傾向を明らかにした。

FCNNは、低複雑性を示す基準となる。
CNNは、畳み込みを通じてより高い順序複雑性（ $C_O$ ）を導入した。
ResNetは、スキップ接続を通じてテンソルおよび演算複雑性（ $C_T, C_{op}$ ）を増加させた。
Transformerは、自己注意に三項演算を利用することで、**次数複雑性（ $C_\alpha$ ）**の最初の顕著な増加をもたらした。
Transformer 後のアーキテクチャ（Poly-Net、MO-Net、ViM、TT-Net）はさらに複雑性を増加させ、一部はより高い結合次数（ $C_A > 2$ ）およびより高い次数（ $C_\alpha > 3$ ）を探求した。
本研究は、多くの高複雑性アーキテクチャが偶然発見されたか、低複雑性の符号化を用いて記述されていたことを指摘しており、この枠組みはそれらの真の、より高複雑なシグネチャを明らかにする。

新規アーキテクチャのパフォーマンス

サンプリングされた 3,028 のアーキテクチャのデータセットは、画像分類タスク（CIFAR-10、CIFAR-100、Tiny ImageNet）で評価された。

パラメータ効率： サンプリングされた多くのアーキテクチャは、驚くべきパラメータ効率と深さ効率を示した。
具体的な成果： 5 層のみで約 198,000 パラメータ（ベース段階から 152,000、新規ブロックから 46,342）を持つ特定の「赤い星」アーキテクチャ（サンプル $\star$ ）が、CIFAR-100 で 65.52% の精度を達成した。
比較： この性能は、250 万パラメータを持つ広く使用されている軽量アーキテクチャであるMobileNetV2（64.29% の精度）を上回り、10% 未満のパラメータ量で達成された。
効率性： 結果は、より高複雑なテンソル演算を探索することで、現在の最先端の軽量モデルよりも著しく効率的なモデルが得られる可能性を示唆している。

意義と主張

本論文は、テンソル演算の明示的な構造に基づいてニューラルネットワークを厳密に分析・構築するための最初の統一的な言語を提供すると主張している。その意義は以下の点にある：

隠れた複雑性の解明： 深層学習の進化は、高度な抽象化によって以前は曖昧にされていた特定の複雑性指標（特に次数と結合次数）の増加によって駆動されていることを明らかにする。
境界の定義： 既知のアーキテクチャ的複雑性クラスの境界を特定し、より高複雑なアーキテクチャの大きなクラス（例： $C_A > 2$ ）がほとんど探求されていないことを強調する。
体系的構築： 試行錯誤や接続ベースの検索（NAS）を超え、新規テンソル演算からのアーキテクチャの体系的な構築へと移行する。
リソース効率： 経験的結果は、これらの高複雑性空間を探索することが、既存モデルよりも新規性だけでなく、著しくパラメータ効率の高いアーキテクチャをもたらす可能性を示しており、性能には巨大なパラメータ数が必要であるという仮定に挑戦する。

著者らは、この枠組みがより高複雑なテンソル演算から構築された新しいアーキテクチャ空間の探求を可能にし、次世代の極めて効率的なニューラルネットワーク設計への道を開くと結論づけている。データセットとコードは、この分野におけるさらなる研究を促進するために公開されている。

On the Architectural Complexity of Neural Networks