NNiT: Width-Agnostic Neural Network Generation with Structurally Aligned Weight Spaces

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Architekt, der Gebäude entwirft. Normalerweise musst du für jedes neue Gebäude (z. B. ein Haus, ein Büro oder ein Hochhaus) einen völlig neuen Bauplan zeichnen und jeden einzelnen Ziegelstein von Hand setzen. Das ist extrem zeitaufwendig.

Die Forscher in diesem Papier haben sich eine geniale Methode ausgedacht, um diese Aufgabe zu automatisieren. Sie nennen ihre Erfindung NNiT (Neural Network Diffusion Transformers).

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "Verwirrte Koffer"

Stell dir vor, du hast einen Koffer voller Lego-Steine, aus denen du ein Schloss bauen kannst. Das Problem bei herkömmlichen KI-Modellen ist, dass sie die Steine in einer völlig willkürlichen Reihenfolge in den Koffer werfen.

Das Symmetrie-Problem: Ob du den roten Stein links oder rechts einbaust, das Schloss funktioniert gleich gut. Aber für die KI sieht es aus, als wären es zwei völlig verschiedene Bauanleitungen.
Das Größen-Problem: Wenn du ein kleines Haus bauen willst, passt der Koffer. Wenn du aber ein riesiges Hochhaus bauen willst, passt der Koffer nicht mehr, weil er fest auf eine bestimmte Größe ausgelegt ist. Herkömmliche KIs können nicht einfach "mehr Steine" hinzufügen; sie müssen komplett neu lernen.

2. Die Lösung: Der "Ordnungs-Magier" (GHN)

Bevor die KI überhaupt anfängt zu bauen, nutzen die Forscher einen cleveren Trick namens Graph HyperNetwork (GHN).

Die Analogie: Stell dir vor, du hast einen strengen Bibliothekar (den GHN), der alle Lego-Steine nicht wild herumwirft, sondern sie nach einer strengen Logik sortiert. Er legt alle roten Steine in eine Reihe, alle blauen in die nächste.
Der Effekt: Durch diese Sortierung entsteht eine klare Struktur. Die Steine haben nun eine "Nachbarschaft". Ein roter Stein weiß immer, wo er im Vergleich zu einem blauen Stein liegt. Das macht die Bauanleitung für die KI viel verständlicher.

3. Der Haupttrick: "Patchen" statt "Ganze Bilder"

Früher haben KIs versucht, das ganze Gebäude als einen riesigen, unhandlichen Block zu betrachten. NNiT macht es anders:

Die Analogie: Stell dir vor, du malst ein riesiges Wandgemälde. Früher hat man versucht, das ganze Bild auf einmal zu kopieren. Wenn das Bild größer wurde, musste man die ganze Technik ändern.
NNiT macht es so: Es schneidet das Bild in kleine, quadratische Flickenteppiche (Patches) auf.
- Wenn du ein kleines Haus malen willst, malst du 4 Flickenteppiche.
- Wenn du ein riesiges Hochhaus malen willst, malst du einfach 100 Flickenteppiche.
- Der Clou: Die KI muss nicht neu lernen, wie man einen Flickenteppich malt. Sie weiß einfach: "Ah, ich füge einfach noch ein paar mehr Flickenteppiche hinzu." Das nennt man breitenunabhängig (width-agnostic).

4. Der "Alles-in-einem"-Generator

NNiT ist wie ein genialer Chef-Architekt, der zwei Dinge gleichzeitig tut:

Er entscheidet: "Heute bauen wir ein Haus mit 3 Stockwerken und 10 Fenstern pro Stock." (Das ist die Architektur).
Er malt sofort die passenden Wände und Steine dazu (das sind die Gewichte).

Er kann beides aus einem einzigen Modell machen. Er kann dir sogar sagen: "Bauen wir mal etwas, das wir noch nie gesehen haben!" – und er schafft es trotzdem, ein funktionierendes Gebäude zu entwerfen, ohne vorher trainiert worden zu sein.

5. Der Test: Roboter im Labor

Die Forscher haben das in einer Robotersimulation getestet (ManiSkill3).

Die Aufgabe: Roboterarme mussten Würfel greifen, schieben und stapeln.
Das Ergebnis: Wenn die KI einen Roboterarm bekam, der breiter oder anders aufgebaut war als alles, was sie je gesehen hatten, schafften die alten Methoden (die Baselines) es fast nie. Der Roboter fiel hin oder griff daneben.
NNiT hingegen: Der Roboter funktionierte sofort, auch bei völlig neuen Designs. Er erreichte über 85 % Erfolg, selbst bei Designs, die während des Trainings gar nicht existierten.

Zusammenfassung

NNiT ist wie ein universeller 3D-Drucker für KI-Gehirne.

Früher musste man für jede neue Größe des Gehirns einen neuen Drucker bauen.
Mit NNiT kann man einfach den "Druckknopf" drücken, die Größe einstellen (z. B. "mach es breiter") und der Drucker fügt einfach mehr "Druckköpfe" (Patches) hinzu, um ein perfekt funktionierendes Gehirn zu erzeugen.

Das ist ein riesiger Schritt, um KI-Systeme flexibler zu machen und sie schneller an neue Aufgaben anzupassen, ohne stundenlanges Neulernen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die generative Modellierung von Parametern neuronaler Netze (Neural Network Parameter Synthesis) steht vor zwei fundamentalen Herausforderungen:

Abhängigkeit von festen Dimensionen: Herkömmliche Ansätze flattenen Gewichtsmatrizen oft in Vektare fester Dimension. Dies koppelt den generativen Prior an die spezifische Architektur (insbesondere die Breite der Schichten), die während des Trainings gesehen wurde. Änderungen der Netzbreite (Width) führen zu einem Zusammenbruch der Generalisierungsfähigkeit.
Permutationssymmetrie: In neuronalen Netzen (insbesondere MLPs) gibt es viele verschiedene Parametrisierungen, die dieselbe Eingabe-Ausgabe-Funktion erzeugen. Durch das willkürliche Sortieren der Neuronen sind benachbarte Gewichte im Parameterraum oft räumlich unkorreliert. Dies verhindert die Anwendung von patch-basierten Generierungsmodellen (wie sie bei Bildern erfolgreich sind), da keine lokalen räumlichen Strukturen existieren.

Bisherige Methoden (z. B. SANE, D2NWG) versuchen, diese Probleme durch latente Embeddings oder explizite Kanonisierung zu lösen, bleiben aber oft fragil gegenüber Änderungen der Netzbreite und können nicht auf völlig neue Topologien verallgemeinern (Zero-Shot).

2. Methodik: NNiT (Neural Network Diffusion Transformers)

Die Autoren stellen NNiT vor, ein multimodales Diffusions-Transformer-Modell, das die Synthese von Architekturen und Gewichten in einer einzigen Sequenzmodellierungsaufgabe vereint. Der Ansatz besteht aus drei Kernkomponenten:

A. Strukturelle Ausrichtung durch Graph-HyperNetworks (GHNs)

Um das Problem der Permutationssymmetrie und des Fehlens räumlicher Struktur zu lösen, nutzen die Autoren Graph-HyperNetworks (GHNs) nicht nur als Datenquelle, sondern als Mechanismus zur Ausrichtung des Gewichtsrums.

Ein GHN generiert Gewichte für eine gegebene Architektur, indem es Informationen über den Architekturgraphen propagiert.
Schlüsselinnovation: Der Decoder des GHN ist ein CNN (Convolutional Neural Network). Dieser erzwingt eine explizite Lokalitäts-Bias (Locality Bias) im Gewichtsräum.
Ergebnis: Im Gegensatz zu SGD-Training, das unstrukturierte Permutationen erzeugt, produzieren GHNs mit CNN-Decoder konsistente, lokal korrelierte Gewichtsmuster (z. B. vertikale Bandstrukturen). Dies schafft die notwendige lokale Korrelation, um Gewichte als räumliche Felder zu behandeln.

B. Patch-Tokenisierung (Width-Agnostic Representation)

Anstatt Gewichte als globale Vektoren zu behandeln, werden die strukturierten Gewichtstensor in nicht-überlappende $p \times p$ -Patches zerlegt.

Breitenunabhängigkeit: Eine Vergrößerung einer Schicht entspricht einfach dem Generieren zusätzlicher Patches, ohne das Tokenisierungsschema zu ändern.
Dies ermöglicht es dem Modell, Gewichte als kontinuierliche räumliche Felder zu modellieren, ähnlich wie Bild-Patches in Vision-Transformern.

C. Unified Sequence Modeling mit Diffusion Transformer (DiT)

NNiT formuliert die neuronale Synthese als multimodale Sequenzaufgabe:

Diskrete Tokens: Die Architektur (Layer-Breiten) wird als Sequenz diskreter Tokens codiert.
Kontinuierliche Patches: Die Gewichte werden als Sequenz von Patches codiert.
Gemeinsame Sequenz: Beide Modalitäten werden in eine einzige Sequenz $z = [z_a; z_w]$ fusioniert.
Training: Ein Diffusion Transformer (DiT) mit AdaLN-Zero und Mixture of Noise Levels (MoNL) lernt die gemeinsame Verteilung $p(a, w)$ $p (a, w)$ .
- Joint Generation: Beide Modi (Architektur und Gewichte) werden diffundiert, um neue Paare zu erzeugen.
- Conditional Synthesis: Die Architektur ist fest ( $t_a=0$ ), während nur die Gewichte diffundiert werden, um Gewichte für eine spezifische Topologie zu synthetisieren.

3. Wichtige Beiträge

Nachweis der strukturellen Ausrichtung: Die Autoren zeigen, dass GHNs mit CNN-Decodern den Gewichtsräum so ausrichten, dass Permutationsvarianz reduziert wird und ein koordinatenbasiertes Parameterfeld entsteht.
Patch-Tokenisierung für Gewichte: Einführung einer Tokenisierungsmethode, die die Generierung breitenunabhängig macht und Zero-Shot-Synthese für ungesehene Topologien ermöglicht.
NNiT Framework: Ein multimodaler Diffusion Transformer, der Architekturen und Gewichte gemeinsam modelliert und sowohl die Ko-Design-Fähigkeit ( $p(a, w)$ ) als auch die bedingte Synthese ( $p(w|a)$ ) unterstützt.

4. Ergebnisse und Evaluation

Die Evaluation erfolgte auf der ManiSkill3-Roboter-Umgebung (PickCube, PushCube, StackCube) mit MLP-Policies.

Strukturelle Validierung: Experimente zeigen, dass GHN-generierte Gewichte über 35 verschiedene Seeds hinweg konsistente lokale Korrelationen aufweisen, während SGD-generierte Gewichte unstrukturiertes Rauschen zeigen. Die GHN-Gewichte sind dabei ebenso leistungsfähig wie SGD-Gewichte (>99% Erfolg), aber strukturell besser für Tokenisierung geeignet.
Zero-Shot Generalisierung (Breite):
- Auf gesehenen Architekturen erreichen NNiT und Baselines (D2NWG) ähnliche hohe Leistungen.
- Auf ungesehenen Architekturen (neue Breiten/Topologien) versagen die Baselines (D2NWG und SANE) drastisch (Erfolgsraten fallen auf <60% oder 0%).
- NNiT behält eine hohe Robustheit bei und erreicht >85% Erfolg auf völlig neuen Topologien, die während des Trainings nicht gesehen wurden.
Multimodale Joint Synthesis: NNiT kann erfolgreich komplette Netzwerke (Architektur + Gewichte) ohne vorgegebene Architektur synthetisieren und erzielt dabei nahezu perfekte Erfolgsraten (99–100% bei PickCube/PushCube).

5. Bedeutung und Ausblick

Paradigmenwechsel: NNiT entkoppelt die funktionale Logik neuronaler Netze von festen Matrixdimensionen. Dies ermöglicht die Generierung optimaler Gewichte für Architekturen, die im Training nie existierten.
Effizienz und Skalierbarkeit: Durch die Behandlung von Schichttiefe als zeitliche Dimension und Gewichten als räumliche Merkmale ähnelt der Ansatz der Videosynthese. Dies erlaubt die Nutzung von Optimierungen aus Video-Diffusion-Modellen (z. B. lineare Aufmerksamkeit) für die Skalierung auf große Modelle.
Anwendung in Embodied AI: Das System ermöglicht die schnelle Anpassung von Policies an verschiedene Hardware-Einschränkungen oder Aufgaben, ohne separate Modelle trainieren zu müssen. Es öffnet neue Wege für Meta-Lernen und die Simulation-zu-Realität-Übertragung (Sim2Real).

Zusammenfassend löst NNiT das Problem der Permutationssymmetrie und der Dimensionsabhängigkeit durch eine Kombination aus strukturell ausgerichteten GHNs und patch-basierter Tokenisierung, was zu einer robusten, breitenunabhängigen Generierung neuronaler Netze führt.