Ursprüngliche Autoren: Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

Veröffentlicht 2026-05-07✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

CC BY 4.0

Ursprüngliche Autoren: Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, das Bauen eines Deep Neural Network (DNN) gleicht dem Errichten einer riesigen, komplexen Fabrik. Seit 40 Jahren bauen Ingenieure diese Fabriken, indem sie Standard-Lego-Steine (Schichten) auf unterschiedliche Weise stapeln. Wir wissen, dass diese Fabriken unglaublich gut funktionieren, doch wir hatten nie wirklich einen Bauplan, der exakt erklärt, wie die Steine auf fundamentalster Ebene zusammenpassen. Wir haben die Fabrik von außen betrachtet und geraten, wie sich die Zahnräder im Inneren drehen.

Dieser Artikel stellt einen neuen, ultra-detaillierten Bauplan vor, der als Hierarchisches Kombinatorisches Framework bezeichnet wird. Er betrachtet die Fabrik nicht nur; er zerlegt sie bis auf molekularer Ebene, wie Daten bewegt und gemischt werden.

Hier ist die Aufschlüsselung ihrer Entdeckung unter Verwendung einfacher Analogien:

1. Der neue Bauplan: Von „Black Boxes" zu „transparenten Zahnrädern"

Die meisten früheren Theorien behandelten Schichten neuronaler Netze wie „Black Boxes". Sie sagten: „Diese Box nimmt ein Bild und gibt Ihnen ein Label", ohne die interne Mechanik zu erklären.

Die Autoren schlagen eine neue Art vor, diese Netze zu betrachten, indem sie Hierarchische Kombinatorische Komplexe (HCCs) verwenden. Stellen Sie sich dies als eine Reihe von russischen Matroschka-Puppen vor:

Die Elemente (Die Steine): Die Rohdaten (Zahlen).
Die Scheiben (Die Stapel): Das Gruppieren dieser Zahlen in Zeilen oder Spalten.
Die Modi (Die Regale): Das Organisieren dieser Stapel in spezifische Dimensionen (wie Höhe, Breite, Farbe).
Die Tensoren (Die Boxen): Die eigentlichen 3D- (oder höherdimensionalen) Behälter, die die Daten enthalten.
Die Operationen (Die Mischer): Die Maschinen, die diese Boxen kombinieren (wie Matrixmultiplikation).
Die Architektur (Der Fabrikboden): Wie alle Mischer und Boxen miteinander verbunden sind.

Die Schlüsselinnovation besteht darin, dass sie die „Tensor-Operationen" (die Mischer) explizit modellieren. Frühere Theorien ignorierten die spezifische Form und Struktur dieser Mischer. Dieser Artikel sagt: „Lassen Sie uns genau zählen, wie viele Zahnräder im Mischer sind und wie sie ineinandergreifen."

2. Die Geschichtsstunde: Warum neue Architekturen funktionieren

Die Autoren nutzten ihren neuen Bauplan, um auf 40 Jahre Geschichte neuronaler Netze zurückzublicken. Sie maßen die „Komplexität" berühmter Architekturen (wie des ursprünglichen Perzeptrons, CNNs, ResNets und Transformer) durch das Zählen spezifischer Verbindungstypen.

Die Analogie: Stellen Sie sich vor, Sie messen die Komplexität eines Autos.

1986 (FCNN): Ein Fahrrad. Einfach, ein Gang.
1998 (CNN): Ein Auto mit Getriebe. Es hat mehr Gänge (Operationen höherer Ordnung), um unterschiedliches Gelände zu bewältigen.
2016 (ResNet): Ein Auto mit Turbolader und Umgehungsventil (Skip-Connections). Es fügt dem Motor mehr Teile hinzu, damit er reibungsloser läuft.
2017 (Transformer): ein Strahltriebwerk. Es verwendet eine völlig andere, komplexere Art der Verbrennung (ein 3-Wege-Mischer statt eines 2-Wege-Mischers).

Die Erkenntnis: Jedes Mal, wenn eine „bahnbrechende" Architektur erfunden wurde, war es nicht nur eine Anpassung; es war ein Sprung auf ein höheres Komplexitätsniveau. Der Artikel fand heraus, dass die erfolgreichsten Modelle die ersten waren, die einen neuen „Gang" oder eine neue Art des Mischens von Daten einführten, die zuvor noch nicht verwendet worden war.

3. Die Entdeckung: Ein Universum ungebauter Fabriken

Hier kommt der aufregendste Teil. Die Autoren erkannten, dass wir, obwohl wir mit 2-Wege-Mischern (binäre Operationen) und 3-Wege-Mischern gebaut haben, ein ganzes Universum von 4-Wege-, 5-Wege- und sogar noch komplexeren Mischern haben, die wir völlig ignoriert haben.

Sie fragten: „Was wäre, wenn wir eine Fabrik mit diesen superkomplexen Mischern bauen würden?"

Mit ihrem Framework haben sie nicht nur geraten; sie haben systematisch 3.028 neue Fabrikdesigns mit diesen komplexeren Mischern generiert. Sie haben nicht nur theoretisiert; sie haben sie gebaut und getestet.

Das Ergebnis:
Sie fanden heraus, dass einige dieser „seltsamen", hochkomplexen Designs schockierend effizient waren.

Die Analogie: Stellen Sie sich einen Standard-Lieferwagen (MobileNetV2) vor, der für seine Kleinheit und Effizienz berühmt ist. Die Autoren bauten ein neues Fahrzeug mit ihren komplexen Mischern. Dieses neue Fahrzeug war kleiner (verwendete nur 10 % der Teile), konnte aber mehr Fracht tragen (erreichte eine höhere Genauigkeit) als der berühmte Lieferwagen.
Insbesondere schlug eines ihrer neuen 5-Schichten-Modelle ein berühmtes 30-Schichten-Modell, während es nur einen Bruchteil der Parameter verwendete.

4. Die „Rote-Stern"-Architektur

Sie hoben ein spezifisches Design (den „Roten Stern") hervor, das ein Champion war.

Es verwendete eine „Skip-Connection" (das Senden von Daten um einen Mischer herum), kombinierte dies jedoch mit einem sehr komplexen 4-Wege-Mischer.
Es verwendete Teile (Gewichte) auf clevere Weise wieder, wie ein Mechaniker, der eine Schraube von einem Motorteil nimmt, um ein anderes zu reparieren.
Es bewies, dass man kein riesiges, tiefes Netzwerk benötigt, um großartige Ergebnisse zu erzielen; man braucht nur die richtige Art des komplexen Mischens.

Zusammenfassung

Dieser Artikel gleicht dem Geben eines neuen Werkzeugkastens an Ingenieure, um neuronale Netze zu verstehen und zu bauen.

Das Werkzeug: Eine präzise mathematische Sprache, um genau zu beschreiben, wie Daten gemischt werden, nicht nur wie sie fließen.
Die Erkenntnis: Die Geschichte zeigt, dass Durchbrüche passieren, wenn wir neue Arten von „Mischern" erfinden.
Das Experiment: Sie bauten Tausende neuer Designs mit diesen unerforschten, komplexen Mischern.
Die Überraschung: Einige dieser neuen Designs sind unglaublich effizient und übertreffen aktuelle Industriestandards mit weit weniger Ressourcen.

Der Artikel kommt zu dem Schluss, dass die Zukunft neuronaler Netze vielleicht nicht darin liegt, sie tiefer oder breiter zu machen, sondern sie strukturell komplexer zu gestalten, auf Arten, die wir noch nicht versucht haben. Sie haben ihre über 3.000 neuen Designs für jedermann zur Untersuchung und Nutzung freigegeben.

Technische Zusammenfassung: Zur architektonischen Komplexität neuronaler Netze

Problemstellung

Tiefe neuronale Netze (DNNs) haben durch die Verbreitung diverser und komplexer Architekturen bedeutende empirische Erfolge erzielt. Bestehende vereinheitlichte theoretische Rahmenwerke (z. B. Geometric Deep Learning, Categorical Deep Learning) stützen sich jedoch auf hochabstrahierte Darstellungen von Tensoroperationen, die diese häufig als black-box-parametrisierte Funktionen oder abstrakte lineare Transformationen behandeln. Diese Abstraktion verschleiert die intricate hierarchische Struktur von Tensoroperationen – insbesondere die niedrigere Informationsebene darüber, wie Tensoren gekoppelt, geschnitten und transformiert werden. Folglich besteht eine Lücke im theoretischen Verständnis, wie sich die architektonische Komplexität im Zeitverlauf entwickelt, sowie ein Mangel an systematischen Methoden zur Konstruktion neuer Architekturen auf Basis neuer Arten von Tensoroperationen. Darüber hinaus ist die Neural Architecture Search (NAS) derzeit darauf beschränkt, Verbindungen zwischen festen Sätzen bestehender Operationen zu variieren, und erschließt nicht den Raum von Architekturen, die aus grundlegend neuen Tensoroperationen aufgebaut sind.

Methodik

Die Autoren stellen ein vereinheitlichtes hierarchisch-kombinatorisches Rahmenwerk vor, das auf Hierarchischen Kombinatorischen Komplexen (HCCs) basiert. Dieses Rahmenwerk modelliert die Struktur von Tensoroperationen explizit, anstatt sie zu abstrahieren. Das Rahmenwerk konstruiert einen HCC vom Rang 5 zur Darstellung neuronaler Netze, organisiert wie folgt:

Rank 0 — Elemente: Eine Basismenge reellwertiger Variablen.
Rank 1 — Schnitte: Geordnete Mengen, die aus den Elementen abgeleitet sind.
Rank 2 — Modi: Partitionen von Schnitten, die die Dimensionen eines Tensors repräsentieren.
Rank 3 — Tensoren: Generalisierte Tensoren, definiert als 3-Zellen. Im Gegensatz zu Standard-mehrdimensionalen Arrays können diese „zackige" Tensoren (unvollständige Arrays) und „Hyper-Tensoren" (die Multi-Indizes auf mehrere Elemente abbilden) darstellen, indem sie Partitionen geordneter Mengen und strikte schwache Ordnungen nutzen.
Rank 4 — Operationen: Diese Ebene ist in zwei Typen unterteilt:
- Modus-Abbildungen: Funktionen zwischen Tensoren, die die Struktur des Schnittraums erhalten (z. B. Flattening, Unfolding, Patch-ifying).
- Tensoroperationen: Mechanismen zur Kombination mehrerer Tensoren (z. B. Matrixmultiplikation, Hadamard-Produkt, Multi-Head-Projektion). Diese werden über Tensor-Operations-Matrizen (TOMs) definiert, die die Inzidenzbeziehungen zwischen Eingabetensoren und den Modi des Ausgabetensors kodieren, einschließlich Kontraktionen (Summationen).
Rank 5 — Neuronale Netze: Zusammengesetzt aus Modus-Abbildungen und Tensoroperationen, repräsentiert durch Tensor-Gleichungs-Matrizen (TEMs), die die relationale Struktur zwischen Operationen und Tensoren beschreiben.

Das Rahmenwerk führt spezifische Metriken zur Quantifizierung der architektonischen Komplexität ein:

Operationskomplexität ( $C_{op}$ ): Anzahl der Operationen.
Tensor-Komplexität ( $C_T$ ): Anzahl der Tensoren.
Aritätskomplexität ( $C_\alpha$ ): Maximale Anzahl von Operanden in einer einzelnen Operation.
Ordnungskomplexität ( $C_O$ ): Maximale Anzahl von Modi in einer Operation.
Kopplungs-Aritäts-Komplexität ( $C_A$ ): Maximale Größe einer Kopplung (gemeinsame Modi zwischen Eingaben).

Die Autoren nutzen dieses Rahmenwerk für zwei Hauptaufgaben: eine retrospektive Analyse der 40-jährigen Entwicklung von DNNs und eine systematische Generierung neuer Architekturen.

Hauptbeiträge

Hierarchisch-kombinatorisches Rahmenwerk: Die Arbeit konstruiert das erste Rahmenwerk, das die Struktur von Tensoroperationen explizit modelliert, einen breiten Raum von Architekturen parametrisiert und Konzepte wie Architektardiagramme als Inzidenzbeziehungen formalisiert.
Retrospektive Komplexitätsanalyse: Die Autoren wenden das Rahmenwerk an, um acht grundlegende Architekturen (FCNN, CNN, ResNet, Transformer, Poly-Net, MO-Net, ViM, TT-Net) zu analysieren. Sie definieren eine „Komplexitäts-Signatur" für jede und verfolgen die Entwicklung dieser Signaturen über die letzten vier Jahrzehnte.
Systematische Generierung neuer Architekturen: Über die Grenzen bekannter Architekturen hinaus generieren die Autoren systematisch einen Datensatz von 3.028 neuen Architekturen höherer Komplexität. Diese werden durch Sampling neuer Tensor-Operations-Matrizen (TOMs) und Tensor-Gleichungs-Matrizen (TEMs) mit höherer Arität ( $C_\alpha$ ) und Kopplungs-Arität ( $C_A$ ) als bisher untersucht konstruiert.
Theoretische Zerlegung: Die Arbeit liefert theoretische Beweise (z. B. Theorem A.35), die zeigen, dass unter spezifischen Bedingungen (Assoziativität und Distributivität der Basisoperationen) Tensoroperationen höherer Arität in Sequenzen binärer Operationen zerlegt werden können und umgekehrt Sequenzen binärer Operationen äquivalent zu Operationen höherer Arität sein können.

Ergebnisse

Evolution der architektonischen Komplexität

Die Analyse historischer Architekturen zeigt einen klaren Trend: bahnbrechende architektonische Verschiebungen entsprechen Zunahmen spezifischer Komplexitätsarten.

FCNNs stellen die Basislinie mit niedriger Komplexität dar.
CNNs führten über Faltung eine höhere Ordnungskomplexität ( $C_O$ ) ein.
ResNets erhöhten die Tensor- und Operationskomplexität ( $C_T, C_{op}$ ) durch Skip-Connections.
Transformer markierten den ersten signifikanten Anstieg der Aritätskomplexität ( $C_\alpha$ ) durch die Nutzung ternärer Operationen für Self-Attention.
Post-Transformer-Architekturen (Poly-Net, MO-Net, ViM, TT-Net) erhöhten die Komplexität weiter, wobei einige eine höhere Kopplungs-Arität ( $C_A > 2$ ) und höhere Arität ( $C_\alpha > 3$ ) erforschten.
Die Studie stellt fest, dass viele Architekturen hoher Komplexität zufällig entdeckt oder mit Kodierungen niedrigerer Komplexität beschrieben wurden; das Rahmenwerk enthüllt ihre wahren, komplexitätsreicheren Signaturen.

Leistung neuer Architekturen

Der Datensatz mit 3.028 gesampelten Architekturen wurde für Bildklassifizierungsaufgaben (CIFAR-10, CIFAR-100, Tiny ImageNet) evaluiert.

Parameter-Effizienz: Viele gesampelte Architekturen zeigten eine bemerkenswerte Parameter- und Tiefeneffizienz.
Spezifische Leistung: Eine spezifische „roter Stern"-Architektur (Stichprobe $\star$ ) mit nur 5 Schichten und etwa 198.000 Parametern (152.000 aus der Basisstufe, 46.342 aus dem neuen Block) erreichte 65,52 % Genauigkeit auf CIFAR-100.
Vergleich: Diese Leistung übertraf MobileNetV2 (64,29 % Genauigkeit), eine weit verbreitete leichte Architektur mit 2,5 Millionen Parametern, unter Verwendung von weniger als 10 % der Parameter.
Effizienz: Die Ergebnisse deuten darauf hin, dass Tensoroperationen höherer Komplexität Modelle hervorbringen können, die erheblich effizienter sind als aktuelle state-of-the-art leichte Modelle.

Bedeutung und Behauptungen

Die Arbeit behauptet, die erste vereinheitlichte Sprache zur rigorosen Analyse und Konstruktion neuronaler Netze auf Basis der expliziten Struktur von Tensoroperationen bereitzustellen. Ihre Bedeutung liegt in:

Aufdecken versteckter Komplexität: Sie zeigt, dass die Evolution des Deep Learning durch Zunahmen spezifischer Komplexitätsmetriken (insbesondere Arität und Kopplungs-Arität) getrieben wird, die zuvor durch hochabstrahierte Darstellungen verschleiert waren.
Definition von Grenzen: Sie identifiziert die Grenze bekannter Klassen architektonischer Komplexität und hebt hervor, dass große Klassen von Architekturen höherer Komplexität (z. B. $C_A > 2$ ) weitgehend unerforscht geblieben sind.
Systematische Konstruktion: Sie geht über Trial-and-Error oder verbundsbasierte Suche (NAS) hinaus hin zu einer systematischen Konstruktion von Architekturen aus neuen Tensoroperationen.
Ressourceneffizienz: Die empirischen Ergebnisse zeigen, dass die Erforschung dieser Räume höherer Komplexität zu Architekturen führen kann, die nicht nur neuartig, sondern auch erheblich parameter-effizienter sind als bestehende Modelle, was die Annahme herausfordert, dass Leistung massive Parameterzahlen erfordert.

Die Autoren schließen, dass ihr Rahmenwerk die Erforschung neuer Räume von Architekturen ermöglicht, die aus Tensoroperationen höherer Komplexität aufgebaut sind, und einen Weg zu next-generation, hocheffizienten neuronalen Netz-Designs bietet. Der Datensatz und der Code sind öffentlich veröffentlicht, um weitere Forschung in diesem Bereich zu erleichtern.

On the Architectural Complexity of Neural Networks