CuriGS: Curriculum-Guided Gaussian Splatting for Sparse View Synthesis

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover ricostruire un intero castello di sabbia, ma hai a disposizione solo tre foto scattate da tre angoli diversi. È un compito quasi impossibile: se provi a immaginare il resto del castello basandoti su così pochi dati, la tua mente tende a "inventare" cose che non esistono (allucinazioni) o a dimenticare i dettagli importanti.

Nel mondo della computer grafica, questo è il problema della sintesi di viste sparse: come creare una scena 3D perfetta partendo da pochissime immagini?

Ecco come CuriGS risolve questo problema, spiegato come se fosse una storia:

1. Il Problema: L'Alunno che impara troppo velocemente

I metodi attuali (come la "3D Gaussian Splatting") sono come studenti molto intelligenti ma un po' impulsivi. Se dai loro solo tre foto, studiano quelle tre foto così intensamente da memorizzarle a memoria, ma falliscono miseramente quando provi a guardarle da un angolo leggermente diverso. Si "sovra-adattano" (overfitting): vedono solo quello che hanno già visto e perdono la capacità di generalizzare.

2. La Soluzione: Il Metodo "Curriculum" (Come a Scuola)

CuriGS introduce un nuovo approccio basato sul curriculum learning (apprendimento curricolare). Immagina un insegnante molto saggio che non butta subito lo studente in un esame difficile, ma lo guida passo dopo passo.

I Professori (Teacher): Sono le tue 3 foto originali. Sono l'unica verità assoluta che abbiamo.
Gli Studenti (Student Views): Sono foto finte (pseudo-viste) che il computer genera da solo. Sono come se lo studente provasse a immaginare come sarebbe la scena se si spostasse di un millimetro, poi di due, poi di cinque.

3. Come Funziona la Magia: La "Ginnastica" delle Immagini

Ecco il processo in tre fasi semplici:

Fase A: Il Riscaldamento (Perturbazioni Piccole)

All'inizio, il sistema genera foto finte spostando la "macchina fotografica virtuale" di pochissimo (pochi gradi) rispetto alle foto originali.

L'analogia: È come se lo studente guardasse il castello di sabbia da una posizione quasi identica a quella originale. È facile per il sistema capire se la sua immaginazione è corretta.
Se la foto finta assomiglia molto alla realtà, viene premiata.

Fase B: L'Aumento della Difficoltà (Curriculum)

Man mano che il sistema impara, l'insegnante (il curriculum) aumenta la difficoltà. Ora chiede di generare foto finte spostandosi di più, poi ancora di più.

L'analogia: Prima si chiede allo studente di immaginare il castello da 1 metro di distanza, poi da 5 metri, poi da 10. Questo costringe il sistema a capire la forma reale dell'oggetto, non solo a memorizzare i pixel delle foto originali.

Fase C: La Selezione (Il Filtro di Qualità)

Non tutte le foto finte sono buone. Alcune potrebbero essere strane o sbagliate.

CuriGS usa un giudice intelligente che controlla ogni foto finta. Se una foto sembra realistica, ha una buona struttura e non ha "artefatti" (errori visivi), viene promossa e aggiunta alla lista delle foto di allenamento.
Se una foto è brutta, viene scartata.
Il risultato: Il sistema si allena con un numero crescente di foto "buone" che ha creato da solo, diventando sempre più bravo a ricostruire la scena da qualsiasi angolazione.

4. Perché è Geniale?

Invece di dire "Ecco, hai solo 3 foto, fai del tuo meglio", CuriGS dice: "Ecco 3 foto. Ora, immagina 100 altre foto che potrebbero essere vere. Se riesci a immaginarle bene, le useremo per allenarti ancora di più."

Questo crea un ciclo virtuoso:

Il sistema impara a immaginare bene.
Le immagini immaginate diventano "veri" dati di allenamento.
Il sistema impara ancora meglio.

In Sintesi

CuriGS è come un allenatore personale per la visione 3D. Non ti lascia solo con pochi dati, ma ti guida attraverso un percorso graduale, facendoti "praticare" con scenari sempre più complessi ma controllati, fino a quando non riesci a ricostruire l'intera scena 3D in modo perfetto, anche partendo da pochissime immagini.

Il risultato? Scene 3D più nitide, dettagli più precisi e meno errori, anche quando si parte da un numero di foto molto basso.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Sintesi di Vista Sparsa con 3DGS

La ricostruzione 3D e la sintesi di nuove viste sono fondamentali per realtà virtuale, digital twin e conservazione del patrimonio culturale. Sebbene il 3D Gaussian Splatting (3DGS) abbia rivoluzionato il campo offrendo rendering in tempo reale e alta fedeltà, la sua applicazione in scenari con viste di input sparse (poche immagini) rimane una sfida critica.

Sfida principale: La scarsità di supervisione porta a un grave overfitting sulle viste osservate e a una mancanza di generalizzazione verso nuove angolazioni.
Limiti delle soluzioni attuali: I metodi precedenti (sia basati su NeRF che su 3DGS) tentano di mitigare il problema introducendo prior geometrici esterni (es. profondità monoculare) o meccanismi di regolarizzazione. Tuttavia, questi approcci non risolvono la causa radice: l'intrinseca mancanza di segnali di supervisione multi-vista, risultando spesso in geometrie instabili o artefatti.

2. Metodologia: CuriGS

Il paper propone CuriGS, un framework guidato da un curriculum learning che espande dinamicamente il set di dati di training generando e selezionando "viste studente" (pseudo-viste) attorno alle viste reali ("insegnanti").

A. Generazione delle Viste Studente

Concetto: Per ogni camera reale (Teacher), vengono generate multiple viste pseudo (Student) perturbando la posa della camera.
Perturbazione: Le perturbazioni includono rotazioni angolari (yaw/pitch) e spostamenti radiali controllati.
Gerarchia: Le viste studente sono organizzate in gruppi basati sul livello di perturbazione ( $\sigma$ ), da piccole (vicine alla vista originale) a grandi (più diverse).

B. Scheduling del Curriculum

Invece di introdurre tutte le viste studente contemporaneamente, CuriGS adotta una strategia progressiva:

Fase iniziale: Il training inizia con livelli di perturbazione bassi ( $\sigma$ piccoli) per garantire stabilità e coerenza geometrica locale.
Sblocco progressivo: Dopo un numero fisso di iterazioni, il curriculum "sblocca" livelli di perturbazione più alti, esponendo gradualmente il modello a una diversità di viewpoint maggiore.
Campionamento: Ad ogni iterazione, viene campionata casualmente una vista studente dal livello di perturbazione attualmente attivo.

C. Valutazione e Promozione

Non tutte le viste generate vengono aggiunte al training. CuriGS implementa un meccanismo di selezione rigoroso:

Metrica Multi-Segnale: Ogni vista studente viene valutata combinando:
- SSIM (Similarità Strutturale).
- LPIPS (Distanza Perceptiva).
- Qualità dell'immagine senza riferimento (No-Reference Image Quality).
Promozione: Solo le viste studente che superano una soglia di qualità predefinita e mostrano le migliori prestazioni per un dato livello di perturbazione vengono promosse al set di training ufficiale, espandendo così la copertura delle viste in modo affidabile.

D. Funzione di Obiettivo (Loss Function)

L'ottimizzazione è guidata da tre componenti:

Loss di Ricostruzione Dinamica ( $L_{train}$ ): Calcolata sul set di training aggiornato (viste originali + studenti promossi).
Loss di Ancoraggio ( $L_{anchor}$ ): Applicata alle viste originali (Teacher) per prevenire la deriva semantica e garantire che la geometria di base rimanga fedele alle osservazioni reali.
Regolarizzazione delle Viste Studente ( $L_{reg}$ ): Poiché le viste studente non hanno ground-truth, vengono regolarizzate tramite:
- Correlazione di Profondità: Allineamento della profondità metrica renderizzata con una mappa di profondità proxy estratta da un modello monoculare pre-addestrato.
- Co-Regolarizzazione: Consistenza fotometrica tra due modelli 3DGS inizializzati indipendentemente ( $M_A$ e $M_B$ ) sulla stessa vista studente, per sopprimere le geometrie fantasma (floaters).

3. Contributi Chiave

Primo Framework 3DGS Guidato da Curriculum: Introduce un meccanismo dinamico per generare e promuovere viste studente, espandendo la supervisione direttamente dagli input sparsi senza dipendere da prior esterni complessi.
Meccanismo Unificato di Apprendimento delle Pseudo-Viste: Fornisce un framework principiato per generare, valutare e integrare viste virtuali nell'ottimizzazione della scena, aprendo nuove direzioni per l'apprendimento di viste virtuali.
Prestazioni Superiori e Generalizzazione: Dimostra una capacità di generalizzazione eccezionale verso viste non viste, mantenendo alta fedeltà geometrica e fotometrica.

4. Risultati Sperimentali

Il metodo è stato valutato su tre benchmark standard: LLFF (scene reali frontali), MipNeRF-360 (scene indoor/outdoor illimitate) e DTU (oggetti in laboratorio).

Metriche Quantitative: CuriGS supera lo stato dell'arte (SOTA) in termini di PSNR, SSIM e LPIPS su tutti i dataset, specialmente in configurazioni estremamente sparse (es. 3 viste per DTU).
- Esempio su LLFF (3 viste): PSNR di 21.10 dB (vs 20.76 del secondo migliore) e SSIM di 0.732.
Risultati Qualitativi: Le visualizzazioni mostrano una riduzione significativa degli artefatti, una migliore conservazione dei dettagli fini (bordi, texture) e una geometria più coerente rispetto ai metodi basati su NeRF e altri approcci 3DGS.
Studio Ablativo:
- La rimozione del curriculum guida porta a un calo drastico delle prestazioni (es. -2.64 dB su DTU con 3 viste), confermando l'efficacia della strategia progressiva.
- La rimozione della loss di ancoraggio o della regolarizzazione studente causa deriva geometrica e overfitting.

5. Significato e Impatto

CuriGS rappresenta un avanzamento significativo nella ricostruzione 3D da viste sparse. Risolvendo il problema fondamentale della scarsità di supervisione attraverso un'espansione controllata e guidata del dominio delle viste, il metodo permette di ottenere ricostruzioni di alta qualità anche con un numero minimo di immagini di input.

Impatto Pratico: Abilita applicazioni reali dove la raccolta di dati densi è costosa o impossibile (es. archeologia, ispezione industriale, VR mobile).
Innovazione Metodologica: Sposta il paradigma dalla semplice regolarizzazione esterna all'espansione attiva e intelligente dello spazio di supervisione, offrendo un approccio più robusto alla generalizzazione in scenari di dati limitati.