Weight Space Representation Learning on Diverse NeRF Architectures

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un archivio di oggetti 3D (come una sedia, un'auto o un aeroplano). Fino a poco tempo fa, per studiare questi oggetti con l'Intelligenza Artificiale, dovevamo prima "fotografarli" da tutte le angolazioni (rendering) e poi analizzare le foto. Era come se volessimo capire il sapore di una torta guardando solo le sue foto: possibile, ma lento e impreciso.

Oggi, però, questi oggetti 3D sono salvati come ricette neurali (chiamate NeRF): sono reti di neuroni artificiali che, se "cucinate" (eseguite), ricostruiscono l'oggetto. Il problema è che ogni cuoco (ogni ricercatore) scrive la ricetta in modo diverso: alcuni usano ingredienti semplici (MLP), altri usano piani tridimensionali (Tri-plane), altri ancora usano tabelle magiche (Hash tables).

Fino a oggi, i computer potevano leggere solo una di queste ricette alla volta. Se volevi analizzare una ricetta diversa, dovevi cambiare il tuo "cucina" (il modello di IA). Era come avere un lettore CD che legge solo i dischi di un certo marchio e non riesce a suonare quelli di un altro, anche se contengono la stessa musica.

La soluzione: Il "Traduttore Universale"

Gli autori di questo paper hanno creato il primo traduttore universale capace di leggere qualsiasi ricetta NeRF, indipendentemente da come è scritta, e di capire cosa rappresenta quell'oggetto.

Ecco come funziona, passo dopo passo, con delle metafore:

1. Trasformare la ricetta in una mappa (Da NeRF a Grafo)

Immagina che ogni ricetta NeRF sia un edificio complesso. Per farla capire al computer, gli autori non guardano i mattoni uno per uno, ma disegnano una mappa dei collegamenti (un grafo).

Se la ricetta è semplice, la mappa è piccola.
Se usa le "tabelle magiche" (Hash tables), la mappa è fatta in modo intelligente per non occupare troppo spazio, proprio come un archivio che usa un codice per saltare direttamente al libro giusto senza cercare in ogni scaffale.
Il loro sistema è il primo a saper disegnare questa mappa anche per le ricette più complesse (quelle con le tabelle hash).

2. Il "Detective" (La Graph Meta-Network)

Una volta trasformata la ricetta in una mappa, entra in gioco il Detective (una rete neurale chiamata Graph Meta-Network).
Il suo compito è guardare la mappa e dire: "Ah, questa è una sedia, anche se la ricetta è scritta in modo strano!".
Il detective non si fida delle parole (la struttura della ricetta), ma guarda il significato (la forma e il colore dell'oggetto).

3. L'allenamento: Due tipi di lezioni

Per addestrare questo detective, gli autori usano due metodi di insegnamento, come due diversi tipi di scuola:

La scuola del "Disegno" (Rendering Loss): Il detective deve disegnare l'oggetto basandosi sulla ricetta. Se il disegno è bello, prende un voto alto. Questo lo aiuta a capire la forma e i colori.
La scuola del "Gemello" (Contrastive Learning): Qui gli insegnanti mostrano al detective due ricette diverse per lo stesso oggetto (es. una ricetta "MLP" e una "Hash table" per la stessa auto) e gli dicono: "Queste due sono gemelle! Devono stare vicine nella tua mente". Poi gli mostrano ricette per oggetti diversi e dice: "Questi sono nemici! Stanno lontani!".
- Senza questa seconda scuola, il detective penserebbe che le ricette diverse per la stessa auto siano oggetti diversi, semplicemente perché le ricette sono scritte in modo diverso.
- Con questa scuola, il detective impara a ignorare lo "stile di scrittura" della ricetta e a concentrarsi solo sull'oggetto reale.

Perché è una rivoluzione?

Indipendenza: Prima, se volevi analizzare un oggetto salvato con una tecnologia nuova, dovevi ricreare tutto da zero. Ora, il tuo sistema è "agnostico": non gli importa come è scritta la ricetta, lo capisce lo stesso.
Velocità: Non serve più "fotografare" l'oggetto 3D per analizzarlo. Si legge direttamente la ricetta (i pesi della rete), risparmiando tempo e potenza di calcolo.
Futuro: Hanno dimostrato che questo sistema funziona anche con oggetti che non ha mai visto prima (ad esempio, se addestrato su sedie, riesce a riconoscere un nuovo tipo di sedia con una ricetta mai usata prima).

In sintesi

Immagina di avere un bibliotecario magico. Prima, se un libro era scritto in un codice segreto (una architettura NeRF specifica), il bibliotecario non poteva leggerlo. Se arrivava un libro con un codice diverso, il bibliotecario andava in tilt.
Ora, grazie a questo lavoro, il bibliotecario ha imparato a tradurre istantaneamente qualsiasi codice in un linguaggio comune. Può dirti: "Questo libro parla di un'auto gialla", anche se il libro è scritto in un codice che nessuno aveva mai usato prima.

Questo apre la porta a un futuro in cui possiamo analizzare, cercare e capire milioni di oggetti 3D salvati in formati diversi, tutti insieme, come se fossero un unico grande universo comprensibile.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I Neural Radiance Fields (NeRF) hanno rivoluzionato la rappresentazione di oggetti e scene 3D codificando forma e aspetto nei pesi di una rete neurale. Tuttavia, l'elaborazione di questi pesi per compiti di deep learning (come classificazione, recupero o comprensione linguistica) ha finora affrontato un limite fondamentale: la dipendenza dall'architettura.

I framework esistenti (es. nf2vec per MLP o il metodo di Cardace et al. per Tri-Plane) sono progettati per ingestire un tipo specifico di architettura NeRF con iperparametri fissi. Questo rende impossibile applicare questi metodi a NeRF con architetture diverse (es. tabelle hash multi-risoluzione) o a varianti non viste durante l'addestramento. La comunità ha bisogno di un approccio agnostico rispetto all'architettura che possa generalizzare su diverse famiglie di NeRF (MLP, Tri-Plane, Hash Tables) senza richiedere un rendering intermedio delle immagini.

2. Metodologia

Gli autori propongono un framework di apprendimento di rappresentazioni basato su un Graph Meta-Network (GMN) che mappa i pesi di NeRF con architetture diverse in uno spazio latente comune.

A. Da NeRF a Grafi (Parameter Graphs)

Per permettere al GMN di elaborare i pesi, ogni NeRF deve essere convertito in un grafo.

MLP e Tri-Plane: Utilizzano la rappresentazione a grafo dei parametri proposta da Lim et al. (2024), dove i nodi rappresentano neuroni e le archi i pesi.
Hash Tables (Novità): Gli autori introducono per la prima volta una conversione specifica per le tabelle hash multi-risoluzione (usate in Instant-NGP). Invece di modellare esplicitamente la griglia voxel (che richiederebbe un numero di nodi cubico rispetto alla risoluzione), costruiscono un sottografo con un nodo per ogni voce della tabella e un nodo per ogni dimensione del vettore di feature. Le connessioni tra queste voci e le dimensioni memorizzano i valori delle feature. Questo approccio preserva l'efficienza memoria delle tabelle hash.

B. Architettura del Framework

Il sistema è composto da:

Encoder (GMN): Una Graph Neural Network (GNN) che processa il grafo dei parametri del NeRF e produce un embedding latente. Essendo una GNN, è per design invariante alle permutazioni dei nodi, permettendo di gestire qualsiasi architettura convertibile in grafo.
Decoder: Basato su nf2vec, prende l'embedding latente e le coordinate 3D (con frequency encoding) per ricostruire il campo radiante (colore e densità), permettendo il calcolo della perdita di rendering.

C. Obiettivi di Addestramento (Loss Functions)

Il framework è addestrato end-to-end combinando due obiettivi:

Rendering Loss ( $L_R$ ): Minimizza l'errore tra l'immagine renderizzata dal NeRF originale e quella ricostruita dal decoder basato sull'embedding. Questo garantisce che l'embedding contenga informazioni geometriche e visive fedeli.
Contrastive Loss ( $L_C$ , SigLIP): Utilizza una perdita di contrasto (basata su SigLIP) per allineare gli embedding di NeRF che rappresentano lo stesso oggetto ma hanno architetture diverse (coppie positive), spingendo invece a distanza quelli di oggetti diversi.
- La combinazione $L_{R+C} = L_R + \lambda L_C$ è cruciale: $L_R$ da sola tende a raggruppare gli embedding per architettura (anche se l'oggetto è lo stesso), mentre $L_C$ forza l'invarianza architetturale.

3. Contributi Chiave

Primo Framework Agnostico: È il primo sistema in grado di elaborare i pesi di NeRF con architetture eterogenee (MLP, Tri-Plane, Hash Tables) in un unico spazio latente.
Generalizzazione a Architetture Non Viste: Il modello è in grado di inferire su varianti di architetture non presenti nel set di addestramento (es. diverse dimensioni nascoste o risoluzioni).
Introduzione delle Hash Tables: Per la prima volta, i NeRF basati su tabelle hash multi-risoluzione vengono processati direttamente dai pesi per compiti downstream.
Analisi dello Spazio Latente: Dimostrano che l'uso combinato di rendering loss e contrastive loss crea uno spazio latente che separa le classi (oggetti) mantenendo l'invarianza rispetto all'architettura di codifica.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su 13 diverse architetture NeRF appartenenti a tre famiglie, utilizzando il dataset ShapenetRender e generalizzando su Objaverse.

Classificazione:
- Nel setting multi-architettura, il modello addestrato con $L_{R+C}$ ottiene prestazioni robuste su architetture non viste, superando i metodi basati su singola architettura quando si passa tra famiglie diverse (es. da MLP a Hash).
- Nel setting single-architettura, il metodo supera o eguaglia le prestazioni di nf2vec e Cardace et al., dimostrando di essere un'alternativa valida anche in contesti ristretti.
Recupero (Retrieval):
- Il recupero di istanze simili (stesso oggetto, architettura diversa) mostra che $L_{R+C}$ è nettamente superiore a $L_R$ sola. Mentre $L_R$ fallisce nel riconoscere lo stesso oggetto se l'architettura cambia, il contrasto permette di trovare l'oggetto corretto indipendentemente dal metodo di codifica.
- Il modello generalizza bene anche su dati non visti (Objaverse), recuperando oggetti della stessa classe anche se addestrato su ShapenetRender.
Compiti Linguistici (Captioning e Q&A):
- Sostituendo l'encoder nf2vec con il loro GMN nel framework LLaNA, gli autori ottengono risultati comparabili o superiori nei task di descrizione (captioning) e domande e risposte (Q&A).
- Il sistema dimostra robustezza: le prestazioni rimangono elevate indipendentemente dal fatto che il NeRF di test sia basato su MLP, Tri-Plane o Hash Table.

5. Significato e Impatto

Questo lavoro rappresenta un passo fondamentale verso la creazione di un modello fondazionale per lo spazio dei pesi dei NeRF.

Superamento dei Silos: Elimina la necessità di addestrare modelli specifici per ogni tipo di NeRF, permettendo di trattare i NeRF come un formato di dati unificato.
Efficienza: Evita il rendering computazionalmente costoso per estrarre caratteristiche, operando direttamente sui pesi.
Futuro: Apre la strada all'analisi, al clustering e alla manipolazione semantica di grandi collezioni di NeRF generati con architetture eterogenee, un prerequisito essenziale per l'adozione su larga scala dei NeRF nei sistemi di intelligenza artificiale.

In sintesi, il paper dimostra che è possibile apprendere rappresentazioni significative dei contenuti 3D direttamente dalla struttura dei parametri neurali, rendendo il sistema resiliente alle scelte architetturali sottostanti.