Weight Space Representation Learning on Diverse NeRF Architectures

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Zu viele verschiedene Sprachen für 3D-Objekte

Stell dir vor, du möchtest eine riesige Bibliothek mit 3D-Modellen von Autos, Stühlen und Flugzeugen bauen. In der Welt der Künstlichen Intelligenz (KI) gibt es dafür eine spezielle Technologie namens NeRF (Neural Radiance Fields). Ein NeRF ist im Grunde ein kleines neuronales Netz, das gelernt hat, wie ein Objekt aussieht, wenn man es von jeder Seite betrachtet.

Das Problem bisher war: Jeder Baumeister hat eine andere Sprache gesprochen.

Der eine Baumeister (Architektur A) baut seine Modelle mit einer bestimmten Art von Bausteinen (MLPs).
Der andere (Architektur B) nutzt eine völlig andere Bauweise (Tri-Planes).
Der dritte (Architektur C) verwendet sogar eine ganz neue Methode (Hash-Tabellen).

Bisherige KI-Systeme waren wie Dolmetscher, die nur eine einzige Sprache verstanden. Wenn du ihnen ein Modell in Sprache B zeigten, sagten sie: „Ich verstehe das nicht, ich spreche nur Sprache A." Das machte es unmöglich, eine große, gemischte Bibliothek zu durchsuchen oder zu vergleichen.

Die Lösung: Ein universeller Dolmetscher

Die Autoren dieses Papiers haben einen neuen „Super-Dolmetscher" entwickelt. Dieser Dolmetscher kann alle diese verschiedenen Baustile (Architekturen) verstehen, ohne dass er vorher für jeden einzelnen Stil trainiert werden muss.

Hier ist, wie sie das gemacht haben, mit ein paar kreativen Vergleichen:

1. Die Baupläne in ein Netzwerk verwandeln (Graph Meta-Network)

Stell dir vor, jedes NeRF-Modell ist ein riesiger, komplexer Bauplan. Um diesen Plan von der KI lesen zu lassen, haben die Forscher ihn nicht als Text oder Bild, sondern als soziales Netzwerk dargestellt.

Jeder Baustein im Plan wird zu einem „Knoten" im Netzwerk.
Die Verbindungen zwischen den Steinen werden zu „Kanten".

Der neue KI-Dolmetscher (ein sogenanntes Graph Meta-Network) ist wie ein Experte, der nicht auf die Form der Bausteine achtet, sondern darauf, wie sie miteinander verbunden sind. Egal, ob die Steine aus Holz, Stein oder Plastik sind (also egal welche Architektur das NeRF nutzt), der Experte sieht das gleiche Muster der Verbindungen.

2. Der große Raum mit den richtigen Nachbarn (Latenzraum)

Das Ziel ist es, alle diese 3D-Modelle in einen großen, leeren Raum zu stellen, den wir den „Latenzraum" nennen.

Die alte Methode: Wenn du ein rotes Auto (gebaut mit Methode A) und ein rotes Auto (gebaut mit Methode B) in diesen Raum stelltest, landeten sie weit auseinander. Die KI dachte: „Das sind zwei verschiedene Dinge, weil sie anders gebaut sind."
Die neue Methode: Die Autoren haben dem Dolmetscher beigebracht, dass Inhalt wichtiger ist als Bauart.
- Sie nutzen eine spezielle Lernaufgabe (kontrastives Lernen), die wie ein strenger Lehrer wirkt: „Hey, du! Das rote Auto aus Methode A und das rote Auto aus Methode B gehören zusammen! Geht näher aneinander heran!"
- Gleichzeitig sagt er: „Und du, das rote Auto und das blaue Flugzeug, ihr gehört nicht zusammen! Bleibt weit voneinander entfernt!"

Das Ergebnis ist ein Raum, in dem alle Objekte nach ihrer Form und Farbe gruppiert sind, völlig egal, wie sie im Inneren „gebaut" wurden.

Was kann dieser neue Dolmetscher nun tun?

Da die KI jetzt alle Baustile versteht, kann sie Aufgaben lösen, die vorher unmöglich waren:

Suchen (Recherche): Du suchst nach einem „gelben Pickup-Truck". Die KI findet ihn sofort, auch wenn die Datenbank aus 50 % Modellen besteht, die mit Methode A gebaut wurden, und 50 % mit Methode C. Sie ignoriert den Baustil und sucht nur nach dem gelben Truck.
Klassifizieren: Die KI kann sagen: „Das ist ein Stuhl", auch wenn sie noch nie einen Stuhl gesehen hat, der mit dieser speziellen neuen Bauweise (Hash-Tabellen) erstellt wurde. Sie verallgemeinert das Wissen.
Sprache verstehen: Die KI kann sogar Fragen beantworten. Wenn du fragst: „Ist das Objekt ein Sofa?", kann sie das auch bei Modellen beantworten, für die sie nicht explizit trainiert wurde.

Das Fazit in einem Satz

Die Forscher haben den ersten universellen Übersetzer gebaut, der die „Sprache" der 3D-Modelle (ihre neuronalen Gewichte) versteht, unabhängig davon, welche Bausteine (Architekturen) die Entwickler verwendet haben. Dadurch wird es möglich, riesige, gemischte Sammlungen von 3D-Objekten zu durchsuchen und zu verstehen, als wären sie alle aus demselben Guss.

Kurz gesagt: Sie haben die Mauern zwischen den verschiedenen 3D-Bauweisen eingrissen und einen gemeinsamen Platz geschaffen, auf dem alle Objekte sich nach dem erkennen, was sie sind, nicht danach, wie sie gebaut wurden.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Neural Radiance Fields (NeRFs) haben sich als bahnbrechendes Paradigma zur Darstellung von 3D-Objekten etabliert, indem sie Form- und Erscheinungsinformationen in den Gewichten eines neuronalen Netzwerks kodieren. Bisherige Ansätze zur Anwendung von Deep-Learning-Aufgaben (wie Klassifizierung, Suche oder Sprachverarbeitung) direkt auf NeRF-Gewichte stießen jedoch auf eine wesentliche Einschränkung:

Architektur-Abhängigkeit: Bestehende Frameworks (z. B. nf2vec oder Ansätze von Cardace et al.) sind strikt auf eine spezifische NeRF-Architektur ausgelegt (z. B. reine MLPs oder Tri-Planes).
Fehlende Generalisierung: Sie können keine NeRFs verarbeiten, die auf unterschiedlichen Architekturen basieren, noch können sie mit Architekturen umgehen, die während des Trainings nicht gesehen wurden.
Ineffizienz: Die naive Alternative, NeRFs erst zu rendern und dann Bilddaten zu verarbeiten, ist rechenintensiv und verliert die direkte Information aus dem Gewichtsraum.

Das Ziel der Arbeit ist es, ein Framework zu entwickeln, das architekturunabhängig (architecture-agnostic) NeRF-Gewichte verarbeitet und eine gemeinsame latente Repräsentation lernt, die auf dem semantischen Inhalt (dem 3D-Objekt) basiert und nicht auf der spezifischen neuronalen Parametrisierung.

Methodik

Das vorgestellte Framework nutzt einen Graph Meta-Network (GMN)-Encoder, um NeRF-Gewichte in einen latenten Raum zu überführen.

Von NeRFs zu Graphen (Parameter Graphs):
- Um NeRFs in einen GMN einzuspeisen, müssen sie in Graphen umgewandelt werden. Anstelle von Berechnungsgraphen (Computation Graphs), die bei Gewichts-Sharing ineffizient skalieren, verwendet das Paper Parameter Graphs.
- Dabei repräsentiert jeder Knoten eine Neuronen- oder Bias-Einheit und jede Kante ein Gewicht.
- Innovation bei Hash-Tabellen: Während MLPs und Tri-Planes bereits bekannte Graphenrepräsentationen haben, stellen die Autoren erstmals eine effiziente Graphenkonversion für Multi-Resolution Hash Tables vor. Statt explizit ein volumetrisches Gitter zu modellieren (was kubisch mit der Auflösung skaliert), erstellen sie Knoten für jeden Tabelleneintrag und jede Merkmalsdimension. Dies erhält die Speichereffizienz der Hash-Tabellen.
Encoder-Decoder-Architektur:
- Encoder: Ein Graph Neural Network (GNN) nach dem Entwurf von Lim et al. (2024), das Nachrichten zwischen Knoten und Kanten austauscht und eine durchschnittliche Pooling-Operation der Kantenmerkmale zur Erzeugung eines 1024-dimensionalen Embeddings durchführt.
- Decoder: Ein adaptierter Decoder von nf2vec, der das Embedding zusammen mit einer Frequenzkodierung eines 3D-Punkts nimmt und den Radiance-Field-Wert (Farbe und Dichte) rekonstruiert.
Trainingsziel (Loss Functions):
Das Framework wird end-to-end mit einer Kombination aus zwei Verlustfunktionen trainiert:
- Rendering Loss ( $L_R$ ): Erzwingt die Rekonstruktion des 3D-Inhalts (ähnlich wie bei nf2vec). Dies sorgt dafür, dass NeRFs ähnlicher Form und Farbe im latenten Raum nah beieinander liegen.
- Contrastive Loss ( $L_C$ ): Basierend auf SigLIP (Sigmoid Loss for Language Image Pre-training). Dieser Verlust zieht Paare von NeRFs, die dasselbe Objekt darstellen, aber unterschiedliche Architekturen haben (z. B. ein MLP-NeRF und ein Hash-Tabellen-NeRF desselben Objekts), im latenten Raum zusammen und drückt andere Paare auseinander.
- Kombinierte Loss ( $L_{R+C}$ ): Die Kombination beider Verluste ist entscheidend, um einen Raum zu schaffen, der sowohl semantisch trennscharf (nach Klassen) als auch invariant gegenüber der Architektur ist.

Wichtige Beiträge

Erstes architekturunabhängiges Framework: Es ist das erste System, das NeRF-Gewichte unterschiedlicher Architekturen (MLPs, Tri-Planes und erstmals Hash Tables) direkt verarbeitet.
Kontrastives Lernen für NeRFs: Die Einführung eines kontrastiven Lernziels (SigLIP), um eine latente Repräsentation zu erzwingen, die unabhängig von der zugrunde liegenden neuronalen Struktur ist.
Hash-Tabellen-Verarbeitung: Die erstmalige Behandlung von NeRFs, die auf Multi-Resolution Hash Tables parametrisiert sind, durch Umwandlung in Parameter-Graphen.
Generalisierung: Das Framework kann NeRF-Architekturen verarbeiten, die während des Trainings nicht gesehen wurden (Zero-Shot auf Architektur-Variationen).

Ergebnisse

Die Evaluation umfasste 13 verschiedene NeRF-Architekturen aus drei Familien (MLP, Tri-Plane, Hash Table) auf dem ShapenetRender-Datensatz sowie Generalisierungstests auf Objaverse.

Klassifizierung:
- Im Multi-Architektur-Setting (Training auf allen Architekturen) erreicht das Framework hohe Genauigkeiten (z. B. >90% auf MLP, Tri-Plane und Hash).
- Besonders hervorzuheben ist die Fähigkeit, unbekannte Architekturen (z. B. MLP mit anderer Tiefe oder Hash-Tabellen mit anderer Größe) korrekt zu klassifizieren, wobei die Kombination aus Rendering- und Contrastive-Loss ( $L_{R+C}$ ) oft besser abschneidet als reine Rendering-Loss-Ansätze, wenn sich Trainings- und Testarchitekturen unterscheiden.
Retrieval (Suche):
- Bei der Suche nach ähnlichen Objekten über verschiedene Architekturen hinweg (Cross-Architecture Retrieval) übertrifft $L_{R+C}$ die Baseline ( $L_R$ ) und zufällige Suche massiv.
- $L_R$ allein scheitert oft daran, dass NeRFs desselben Objekts mit unterschiedlichen Architekturen in verschiedenen Clustern landen. $L_{R+C}$ löst dieses Problem effektiv.
Sprachaufgaben (Captioning & Q&A):
- Durch den Ersatz des nf2vec-Encoders im LLaNA-Framework durch den neuen GMN-Encoder konnte das System auch bei komplexen Sprachaufgaben (Beschreibung von NeRFs, Beantwortung von Fragen) robuste Ergebnisse liefern.
- Die Leistung ist vergleichbar mit oder besser als die von LLaNA auf reinen MLPs, selbst wenn das Framework auf Hash-Tabellen oder Tri-Planes getestet wird.

Bedeutung und Ausblick

Diese Arbeit stellt einen bedeutenden Schritt hin zu fundamentalen Modellen für den Weight Space von NeRFs dar.

Sie löst das Problem der Fragmentierung, bei der jedes NeRF-Design ein eigenes Verarbeitungstool erfordert.
Sie ermöglicht die Skalierung von NeRF-Datenbanken, da diverse Architekturen in einem gemeinsamen Raum abgefragt und analysiert werden können.
Die Methode zeigt, dass kontrastives Lernen notwendig ist, um die inhärente Symmetrie und Variabilität neuronaler Netzwerke zu überbrücken, ohne die semantische Information zu verlieren.

Die Autoren planen zukünftige Arbeiten, um das Training auf noch größeren Datensätzen (wie Objaverse) durchzuführen, um die Robustheit weiter zu validieren und das Framework als universelle Schnittstelle für 3D-neurale Felder zu etablieren.

Weight Space Representation Learning on Diverse NeRF Architectures

Das große Problem: Zu viele verschiedene Sprachen für 3D-Objekte

Die Lösung: Ein universeller Dolmetscher

1. Die Baupläne in ein Netzwerk verwandeln (Graph Meta-Network)

2. Der große Raum mit den richtigen Nachbarn (Latenzraum)

Was kann dieser neue Dolmetscher nun tun?

Das Fazit in einem Satz

Problemstellung

Methodik

Wichtige Beiträge

Ergebnisse

Bedeutung und Ausblick

Mehr davon

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization