원저자: Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

게시일 2026-05-07✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

딥 뉴럴 네트워크 (DNN) 를 구축하는 것이 거대하고 복잡한 공장을 건설하는 것과 같다고 상상해 보십시오. 지난 40 년간 엔지니어들은 표준 레고 블록 (레이어) 을 다양한 방식으로 쌓아 이 공장들을 건설해 왔습니다. 이러한 공장들이 놀라울 정도로 잘 작동한다는 것은 알고 있지만, 가장 근본적인 수준에서 블록들이 어떻게 맞물리는지를 정확히 설명하는 청사진은 결코 가져본 적이 없습니다. 우리는 공장을 외부에서 바라보며 내부의 기어들이 어떻게 돌아가는지 추측해 왔을 뿐입니다.

이 논문은 계층적 조합 프레임워크 (Hierarchical Combinatorial Framework) 라는 새롭고 초정밀한 청사진을 소개합니다. 이는 단순히 공장을 바라보는 것을 넘어, 데이터가 이동하고 혼합되는 방식을 분자 수준까지 해체하여 분석합니다.

다음은 간단한 비유를 통해 그들의 발견을 정리한 내용입니다:

1. 새로운 청사진: "블랙박스"에서 "투명한 기어"로

대부분의 이전 이론들은 뉴럴 네트워크 레이어를 "블랙박스"처럼 취급했습니다. "이 상자는 이미지를 입력받아 레이블을 출력한다"고만 말했을 뿐, 내부 작동 기작을 설명하지는 않았습니다.

저자들은 계층적 조합 복합체 (Hierarchical Combinatorial Complexes, HCCs) 를 사용하여 이러한 네트워크를 바라보는 새로운 방식을 제안합니다. 이를 러시아 인형처럼 생각하십시오:

요소 (The Bricks): 원시 데이터 (숫자).
슬라이스 (The Piles): 이러한 숫자들을 행이나 열로 그룹화한 것.
모드 (The Shelves): 이러한 더미들을 특정 차원 (높이, 너비, 색상 등) 으로 조직화한 것.
텐서 (The Boxes): 데이터를 담고 있는 실제 3 차원 (또는 그 이상) 의 컨테이너.
연산 (The Mixers): 이러한 컨테이너들을 결합하는 기계들 (행렬 곱셈 등).
아키텍처 (The Factory Floor): 모든 믹서와 컨테이너가 어떻게 연결되어 있는가.

여기서 핵심 혁신은 "텐서 연산 (Tensor Operations)"(믹서들) 을 명시적으로 모델링했다는 점입니다. 이전 이론들은 이러한 믹서의 구체적인 형태와 구조를 무시했습니다. 이 논문은 "믹서에 정확히 몇 개의 기어가 있고, 그들이 어떻게 맞물리는지 세어 보자"고 말합니다.

2. 역사 수업: 왜 새로운 아키텍처가 작동하는가

저자들은 새로운 청사진을 사용하여 40 년간의 뉴럴 네트워크 역사를 되돌아보았습니다. 그들은 유명한 아키텍처들 (원래 퍼셉트론, CNN, ResNet, Transformer 등) 의 "복잡성"을 특정 유형의 연결을 세어 측정했습니다.

비유: 자동차의 복잡성을 측정한다고 상상해 보십시오.

1986 년 (FCNN): 자전거. 단순하며 기어가 하나뿐입니다.
1998 년 (CNN): 변속기가 있는 자동차. 서로 다른 지형을 처리하기 위해 더 많은 기어 (고차 연산) 를 갖추고 있습니다.
2016 년 (ResNet): 터보차저와 우회 밸브 (스킵 연결) 가 있는 자동차. 엔진을 더 부드럽게 작동시키기 위해 엔진에 더 많은 부품을 추가합니다.
2017 년 (Transformer): 제트 엔진. 완전히 다른, 더 복잡한 연소 방식 (2-way 믹서 대신 3-way 믹서) 을 사용합니다.

발견: "혁신적인" 아키텍처가 발명될 때마다 그것은 단순한 조정이 아니라 더 높은 수준의 복잡성으로의 도약이었습니다. 논문은 가장 성공적인 모델들이 이전에 사용되지 않았던 새로운 "기어"나 새로운 데이터 혼합 방식을 처음 도입한 것임을 발견했습니다.

3. 발견: 건설되지 않은 공장들의 우주

가장 흥미로운 부분입니다. 저자들은 우리가 2-way 믹서 (이진 연산) 와 3-way 믹서로만 구축해 왔음을 깨달았지만, 우리가 완전히 무시해 온 4-way, 5-way, 그리고 그 이상의 믹서로 이루어진 전체 우주가 존재한다는 사실을 알아차렸습니다.

그들은 질문했습니다: "만약 이러한 초복잡 믹서를 사용하여 공장을 지으면 어떨까?"

그들은 그들의 프레임워크를 사용하여 단순히 추측하는 것을 넘어, 이러한 고복잡도 믹서를 사용하여 3,028 개의 새로운 공장 설계도를 체계적으로 생성했습니다. 그들은 단순히 이론화하는 것을 넘어, 실제로 이를 구축하고 테스트했습니다.

결과:
이들 중 일부 "기묘한" 고복잡도 설계들이 놀라울 정도로 효율적임을 발견했습니다.

비유: 작고 효율하기로 유명한 표준 배송 트럭 (MobileNetV2) 을 상상해 보십시오. 저자들은 그들의 복잡한 믹서를 사용하여 새로운 차량을 만들었습니다. 이 새로운 차량은 더 작았습니다 (부품의 10% 만 사용) 하지만 유명한 트럭보다 더 많은 화물을 실을 수 있었습니다 (더 높은 정확도 달성).
구체적으로, 그들의 새로운 5 층 모델 중 하나는 파라미터의 일부만 사용하면서 유명한 30 층 모델을 능가했습니다.

4. "레드 스타" 아키텍처

그들은 챔피언인 하나의 특정 설계 ("레드 스타") 를 강조했습니다.

이는 "스킵 연결" (데이터를 믹서 주변으로 전송) 을 사용했지만, 매우 복잡한 4-way 믹서와 결합했습니다.
이는 한 엔진 부품의 볼트를 다른 것을 수리하는 데 재사용하는 정비공처럼, 부품 (가중치) 을 교묘하게 재사용했습니다.
이는 훌륭한 결과를 얻기 위해 거대하고 깊은 네트워크가 필요하지 않으며, 단지 올바른 종류의 복잡한 혼합이 필요하다는 것을 증명했습니다.

요약

이 논문은 엔지니어들에게 뉴럴 네트워크를 이해하고 구축하기 위한 새로운 도구 세트를 제공하는 것과 같습니다.

도구: 데이터가 흐르는 방식이 아니라, 데이터가 어떻게 혼합되는지를 정확히 설명하는 정밀한 수학 언어.
통찰: 역사는 새로운 유형의 "믹서"를 발명할 때 획기적인 진전이 일어난다는 것을 보여줍니다.
실험: 그들은 탐구되지 않은 복잡한 믹서를 사용하여 수천 개의 새로운 설계도를 구축했습니다.
놀라움: 이들 중 일부 새로운 설계는 훨씬 적은 자원으로 현재 산업 표준을 능가하는 놀라운 효율성을 보였습니다.

이 논문은 뉴럴 네트워크의 미래가 더 깊거나 더 넓게 만드는 것이 아니라, 우리가 아직 시도해 보지 않은 방식으로 구조적으로 더 복잡하게 만드는 것일 수 있다고 결론 내립니다. 그들은 3,000 개 이상의 새로운 설계도를 누구나 연구하고 사용할 수 있도록 공개했습니다.

기술적 요약: 신경망의 아키텍처 복잡성

문제 제기

심층 신경망 (DNN) 은 다양하고 복잡한 아키텍처의 급증으로 인해 상당한 경험적 성공을 거두었습니다. 그러나 기존의 통합 이론적 프레임워크 (예: 기하학적 딥러닝, 범주적 딥러닝) 는 텐서 연산의 고수준 추상에 의존하며, 이를 종종 블랙박스 매개변수 함수나 추상 선형 변환으로 취급합니다. 이러한 추상은 텐서 연산의 정교한 계층적 구조, 특히 텐서가 어떻게 결합되고, 슬라이싱되며, 변환되는지에 대한 하위 수준의 정보를 흐리게 만듭니다. 결과적으로 아키텍처 복잡성이 시간에 따라 어떻게 진화하는지에 대한 이론적 이해의 공백이 존재하며, 새로운 유형의 텐서 연산을 기반으로 한 새로운 아키텍처를 체계적으로 구축하는 방법의 부재가 있습니다. 또한, 신경망 아키텍처 탐색 (NAS) 은 현재 고정된 기존 연산 집합 간의 연결을 변형하는 데 국한되어, 근본적으로 새로운 텐서 연산으로 구성된 아키텍처의 공간을 탐색하지 못합니다.

방법론

저자들은 **계층적 결합 복합체 (HCCs)**에 기반한 통합 계층적 결합 프레임워크를 제시합니다. 이 프레임워크는 텐서 연산을 추상화하는 대신 그 구조를 명시적으로 모델링합니다. 이 프레임워크는 신경망을 나타내는 랭크 5 의 HCC 를 구축하며, 다음과 같이 구성됩니다:

Rank 0 — 요소: 실수 값 변수의 기본 집합.
Rank 1 — 슬라이스: 요소에서 유도된 순서 집합.
Rank 2 — 모드: 슬라이스의 분할로, 텐서의 차원을 나타냄.
Rank 3 — 텐서: 3-셀로 정의된 일반화된 텐서. 표준 다차원 배열과 달리, 순서 집합의 분할과 엄격한 약한 순서를 활용하여 "불규칙한 (jagged)" 텐서 (불완전한 배열) 와 "초 (hyper)-텐서" (다중 인덱스를 여러 요소에 매핑) 를 표현할 수 있습니다.
Rank 4 — 연산: 이 수준은 두 가지 유형으로 나뉩니다:
- 모드 맵: 슬라이스 공간 구조를 보존하는 텐서 간의 함수 (예: 평탄화, 언플래팅, 패치화).
- 텐서 연산: 여러 텐서를 결합하는 메커니즘 (예: 행렬 곱셈, 하다마르 곱, 멀티헤드 프로젝션). 이러한 연산은 입력 텐서와 출력 텐서의 모드 간의 결합 관계를 인코딩하는 **텐서 연산 행렬 (TOMs)**을 통해 정의되며, 여기에는 축약 (합계) 이 포함됩니다.
Rank 5 — 신경망: 모드 맵과 텐서 연산으로 구성되며, 연산과 텐서 간의 관계적 구조를 설명하는 **텐서 방정식 행렬 (TEMs)**로 표현됩니다.

이 프레임워크는 아키텍처 복잡성을 정량화하기 위한 특정 지표를 도입합니다:

연산 복잡성 ( $C_{op}$ ): 연산의 수.
텐서 복잡성 ( $C_T$ ): 텐서의 수.
아리티 복잡성 ( $C_\alpha$ ): 단일 연산에서 최대 피연산자 수.
오더 복잡성 ( $C_O$ ): 연산에서 최대 모드 수.
결합 - 아리티 복잡성 ( $C_A$ ): 결합 (입력 간 공유 모드) 의 최대 크기.

저자들은 이 프레임워크를 활용하여 두 가지 주요 작업을 수행합니다: 40 년간의 DNN 진화에 대한 후향적 분석과 새로운 아키텍처의 체계적 생성.

주요 기여

계층적 결합 프레임워크: 이 논문은 텐서 연산의 구조를 명시적으로 모델링하는 최초의 프레임워크를 구축하여 광범위한 아키텍처 공간을 매개변수화하고, 아키텍처 다이어그램과 같은 개념을 결합 관계로 형식화합니다.
후향적 복잡성 분석: 저자들은 이 프레임워크를 8 가지 기초 아키텍처 (FCNN, CNN, ResNet, Transformer, Poly-Net, MO-Net, ViM, TT-Net) 분석에 적용합니다. 각 아키텍처에 대해 "복잡성 서명"을 정의하고 지난 40 년간 이러한 서명의 진화를 추적합니다.
새로운 아키텍처의 체계적 생성: 알려진 아키텍처의 경계를 넘어, 저자들은 이전에 탐색된 것보다 더 높은 아리티 ( $C_\alpha$ ) 와 결합 아리티 ( $C_A$ ) 를 가진 새로운 텐서 연산 행렬 (TOMs) 과 텐서 방정식 행렬 (TEMs) 을 샘플링하여 3,028 개의 새로운 고복잡성 아키텍처데이터셋을 체계적으로 생성합니다.
이론적 분해: 이 논문은 특정 조건 (기본 연산의 결합법칙과 분배법칙) 하에서 고아리티 텐서 연산이 이항 연산의 시퀀스로 분해될 수 있으며, 반대로 이항 연산의 시퀀스가 고아리티 연산과 동등할 수 있음을 보여주는 이론적 증명 (예: 정리 A.35) 을 제공합니다.

결과

아키텍처 복잡성의 진화

역사적 아키텍처에 대한 분석은 명확한 경향을 보여줍니다: 획기적인 아키텍처적 변화는 특정 유형의 복잡성 증가에 해당합니다.

FCNN은 낮은 복잡성을 가진 기준선입니다.
CNN은 합성곱을 통해 더 높은 오더 복잡성 ( $C_O$ ) 을 도입했습니다.
ResNet은 스킵 연결을 통해 텐서 및 연산 복잡성 ( $C_T, C_{op}$ ) 을 증가시켰습니다.
Transformer는 자기 어텐션을 위한 3 항 연산을 사용하여 **아리티 복잡성 ( $C_\alpha$ )**에서 첫 번째 중요한 증가를 기록했습니다.
Transformer 이후 아키텍처 (Poly-Net, MO-Net, ViM, TT-Net) 는 복잡성을 더욱 증가시켰으며, 일부는 더 높은 결합 아리티 ( $C_A > 2$ ) 와 더 높은 아리티 ( $C_\alpha > 3$ ) 를 탐색했습니다.
이 연구는 많은 고복잡성 아키텍처가 우연히 발견되거나 낮은 복잡성 인코딩으로 설명되었음을 지적합니다. 이 프레임워크는 그들의 진정한 고복잡성 서명을 드러냅니다.

새로운 아키텍처 성능

3,028 개의 샘플링된 아키텍처 데이터셋은 이미지 분류 작업 (CIFAR-10, CIFAR-100, Tiny ImageNet) 에서 평가되었습니다.

매개변수 효율성: 많은 샘플링된 아키텍처는 놀라운 매개변수 및 깊이 효율성을 보여주었습니다.
구체적 성과: 5 개의 레이어와 약 198,000 개의 매개변수 (기본 단계에서 152,000 개, 새로운 블록에서 46,342 개) 를 가진 특정 "빨간 별" 아키텍처 (샘플 $\star$ ) 가 CIFAR-100 에서 65.52% 정확도를 달성했습니다.
비교: 이 성능은 250 만 개의 매개변수를 가진 널리 사용되는 경량 아키텍처인 MobileNetV2(64.29% 정확도) 를 능가했으며, 10% 미만의 매개변수를 사용했습니다.
효율성: 이 결과는 더 높은 복잡성의 텐서 연산이 기존 최첨단 경량 모델보다 훨씬 효율적인 모델을 산출할 수 있음을 시사합니다.

중요성과 주장

이 논문은 텐서 연산의 명시적 구조에 기반하여 신경망을 엄밀하게 분석하고 구축하기 위한 최초의 통합 언어를 제공한다고 주장합니다. 그 중요성은 다음과 같습니다:

숨겨진 복잡성 드러내기: 딥러닝의 진화는 고수준 추상에 의해 이전에 가려졌던 특정 복잡성 지표 (특히 아리티와 결합 아리티) 의 증가에 의해 주도됨을 밝힙니다.
경계 정의: 알려진 아키텍처 복잡성 클래스의 경계를 식별하여, 더 높은 복잡성을 가진 아키텍처의 대규모 클래스 (예: $C_A > 2$ ) 가 대부분 탐구되지 않았음을 강조합니다.
체계적 구축: 시행착오나 연결 기반 탐색 (NAS) 을 넘어 새로운 텐서 연산으로부터 아키텍처를 체계적으로 구축하는 것으로 나아갑니다.
자원 효율성: 경험적 결과는 이러한 고복잡성 공간을 탐색하는 것이 기존 모델보다 단순히 새로운 것뿐만 아니라 매개변수 효율성이 훨씬 높은 아키텍처로 이어질 수 있음을 보여주며, 성능이 방대한 매개변수 수를 필요로 한다는 가정에 도전합니다.

저자들은 이 프레임워크가 더 높은 복잡성의 텐서 연산으로 구축된 새로운 아키텍처 공간의 탐색을 가능하게 하여 차세대 고효율 신경망 설계로 가는 길을 제공한다고 결론지었습니다. 데이터셋과 코드는 해당 분야의 추가 연구를 촉진하기 위해 공개되었습니다.

On the Architectural Complexity of Neural Networks