PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

Each language version is independently generated for its own context, not a direct translation.

PartSAM: Il "Chirurgo Digitale" che Capisce il 3D

Immagina di avere un oggetto 3D, come una sedia, un'auto o un robot, e di volerlo smontare pezzo per pezzo. Non solo la superficie esterna, ma anche le parti interne nascoste (come il motore sotto il cofano o le ossa sotto la pelle).

Fino a poco tempo fa, i computer faticavano enormemente a fare questo. I vecchi metodi erano come bambini che imparano a riconoscere gli oggetti guardando solo le foto piatte (2D) e cercando di indovinare come sono fatti dentro. Spesso sbagliavano, vedendo solo la "pelle" dell'oggetto e non la sua struttura interna.

PartSAM è il nuovo modello che cambia le regole del gioco. È il primo "assistente intelligente" capace di capire e tagliare gli oggetti 3D direttamente nel loro spazio tridimensionale, senza dover prima trasformarli in foto.

Ecco come funziona, spiegato con tre metafore semplici:

1. Il Problema: "Guardare solo la buccia"

Immagina di avere un'arancia. I vecchi metodi di intelligenza artificiale (come quelli basati su SAM, il famoso modello per le immagini 2D) guardano l'arancia da tutte le angolazioni e provano a disegnare dei cerchi sulla buccia per capire dove finisce la buccia e inizia la polpa.

Il limite: Se provi a capire come è fatta la polpa dentro l'arancia guardando solo la buccia, non ci riesci. Inoltre, se l'arancia è generata da un computer (e non ha una buccia perfetta), questi metodi vanno in confusione.
La soluzione di PartSAM: Invece di guardare l'arancia da fuori, PartSAM è come un chirurgo che ha una "visione a raggi X". Entra direttamente nell'oggetto 3D, capisce la sua forma interna e sa esattamente dove tagliare per separare la buccia dalla polpa, anche se non la vede direttamente.

2. La Tecnica: "Il Maestro e l'Apprendista"

PartSAM ha un cervello speciale chiamato codificatore a due braccia (dual-branch encoder).

Il Braccio "Frozen" (Il Maestro): È come un vecchio maestro d'arte che ha studiato milioni di foto 2D. Sa riconoscere i bordi e le forme piatte perfettamente. Questo braccio è "congelato" (non cambia) per non dimenticare ciò che sa già.
Il Braccio "Learnable" (L'Apprendista): È un giovane studente che impara guardando milioni di oggetti 3D reali. Impara a capire la profondità, le curve e le strutture interne che il maestro non può vedere.
L'Unione: Insieme, questi due bracci creano una mappa 3D perfetta. Il maestro fornisce la base, l'apprendista aggiunge la profondità. Invece di usare vecchie mappe 2D, PartSAM costruisce una "nuvola di punti" intelligente che riempie tutto lo spazio dell'oggetto.

3. L'Addestramento: "Imparare dagli Artisti e dai Robot"

Per diventare così bravo, PartSAM ha bisogno di milioni di esempi. Ma trovare etichette per gli oggetti 3D è difficile (nessuno vuole disegnare a mano ogni singola parte di un'auto).

La Pipeline "Model-in-the-Loop": Gli autori hanno creato un sistema a due fasi, come un ciclo di feedback tra un umano e una macchina.
1. Prima, hanno preso oggetti già etichettati da artisti (come quelli di Objaverse).
2. Poi, hanno usato un modello più vecchio (PartField) per fare una "bozza" di taglio su oggetti molto complessi e rotti.
3. Infine, PartSAM stesso ha controllato queste bozze. Se PartSAM diceva: "Ehi, questo taglio ha senso e posso rifarlo meglio con un solo clic", allora quel dato veniva salvato. Se diceva: "No, questo è un errore", veniva scartato.
Il Risultato: Hanno creato un database di 5 milioni di coppie "Oggetto-Parte" pulite e precise, addestrando il modello su dati nativi 3D e non su foto.

4. Cosa sa fare PartSAM?

PartSAM ha due modalità principali, come un coltellino svizzero:

Modalità "Interattiva" (Il Clic): Tu clicchi con il mouse su una parte dell'oggetto (ad esempio, sulla ruota di un'auto). PartSAM capisce immediatamente: "Ah, vuoi isolare la ruota!" e la colora di rosso, separandola dal resto. Funziona anche se clicchi su una parte nascosta dietro un'altra, perché "sa" che la ruota esiste lì.
Modalità "Segmenta Tutto" (Il Taglio Automatico): Se non clicchi nulla, PartSAM può analizzare l'oggetto e dargli un "taglio automatico". Smonta l'oggetto in tutte le sue parti logiche (sedili, volante, motore, telaio) senza che tu debba dirgli nulla. È come se l'oggetto si smontasse da solo in un manuale di istruzioni 3D.

Perché è importante?

Prima, se volevi modificare un oggetto 3D (ad esempio, cambiare il colore della maniglia di una porta in un videogioco), dovevi farlo a mano o usare strumenti lenti e imprecisi.
Con PartSAM:

È veloce: Non deve aspettare ore per calcolare le parti.
È preciso: Capisce la geometria interna, non solo la superficie.
È generico: Funziona su qualsiasi oggetto, anche quelli creati dall'Intelligenza Artificiale che non esistono nel mondo reale.

In sintesi, PartSAM è come dare agli sviluppatori di videogiochi, agli architetti e agli ingegneri robotici un "superpotere": la capacità di capire e manipolare il mondo 3D con la stessa facilità con cui oggi selezioniamo una foto su Instagram.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La segmentazione di oggetti 3D nelle loro parti costituenti è una sfida fondamentale nella visione artificiale e nella grafica computerizzata. Le approcci esistenti presentano limitazioni significative:

Metodi a "Closed-World": I modelli tradizionali sono addestrati su dataset con tassonomie predefinite (es. sedie con solo seduta, schienale e gambe). Questi non generalizzano a categorie inedite o a definizioni di parti diverse.
Metodi basati su "Lifting" 2D: Le soluzioni più recenti (come SAMPart3D o PartField) trasferiscono la conoscenza da modelli fondazionali 2D (come SAM - Segment Anything Model) proiettando le maschere 2D multivista nello spazio 3D. Questo paradigma indiretto fallisce nel catturare la geometria intrinseca 3D, portando a:
- Una comprensione limitata alla sola superficie (mancanza di strutture interne).
- Decomposizioni non controllate e frammentate.
- Scarsa generalizzazione su mesh generate dall'IA o con connettività assente.
- Necessità di ottimizzazioni computazionalmente costose per ogni forma durante l'inferenza.

2. Metodologia: PartSAM

PartSAM è il primo modello di segmentazione di parti promptabile (guidato da prompt) addestrato nativamente su grandi quantità di dati 3D. L'architettura e il flusso di lavoro sono strutturati come segue:

A. Architettura del Modello

Il modello segue la filosofia di SAM (Encoder-Decoder) ma è adattato per il dominio 3D nativo:

Encoder Dual-Branch basato su Triplane:
- Le forme 3D (nuvole di punti) vengono codificate in un campo di caratteristiche continuo basato su Triplane.
- L'encoder utilizza due rami di Transformer:
  - Ramo Congelato (Frozen): Inizializzato con i pesi di PartField, preserva le potenti conoscenze 2D apprese da SAM tramite apprendimento contrastivo.
  - Ramo Apprendibile (Learnable): Adattato per imparare nuove rappresentazioni di parti 3D native dai dati di addestramento. Accetta attributi aggiuntivi oltre alle coordinate (normali e RGB) tramite un layer di "zero convolution".
- I due rami vengono sommati per produrre un campo di caratteristiche continuo.
Decoder Guidato da Prompt:
- Riceve le embedding delle caratteristiche di input ( $F_c$ ) e le embedding dei prompt dell'utente ( $F_p$ , punti positivi/negativi).
- Utilizza token speciali: un token di output ( $T_{out}$ ) per generare le maschere e un token IoU ( $T_{iou}$ ) per stimare la qualità della maschera.
- Un decoder Transformer a due vie (two-way) fonde prompt e caratteristiche per generare maschere binarie.
- Supporta l'interazione multi-round: le logits delle maschere precedenti vengono riutilizzate come prompt aggiuntivi per raffinare il risultato.

B. Pipeline di Curazione dei Dati (Model-in-the-Loop)

Per superare la scarsità di dati 3D annotati, gli autori hanno creato una pipeline scalabile che ha prodotto oltre 5 milioni di coppie forma-parte:

Fase 1 (Etichette Esistenti): Estrazione di supervisione da asset artistici (es. Objaverse) utilizzando grafi di scena e componenti connessi, filtrando le forme con parti troppo frammentate o insignificanti.
Fase 2 (Model-in-the-Loop): Per le strutture altamente frammentate scartate nella fase 1, viene utilizzato un approccio iterativo:
- Un modello pre-addestrato (PartField) genera maschere candidate su diverse scale.
- PartSAM simula interazioni utente per filtrare le maschere rumorose.
- Vengono accettate solo le maschere che soddisfano criteri rigorosi di IoU (es. IoU > 60 dopo 1 iterazione o > 90 dopo 10 iterazioni).
- Questo processo scala il dataset a 500k forme e 5 milioni di parti, garantendo diversità e qualità.

C. Modalità di Inferenza

Segmentazione Interattiva: L'utente clicca su un punto (o più punti) per isolare una parte specifica.
Modalità "Segment Every Part": Il modello esegue automaticamente la decomposizione dell'intera forma in parti semanticamente significative, utilizzando un processo di campionamento e soppressione dei picchi (NMS) basato sul punteggio IoU predetto.

3. Risultati Sperimentali

PartSAM è stato valutato su benchmark aperti (PartObjaverse-Tiny, PartNet-E) e su mesh generate dall'IA (Hunyuan3D).

Performance Interattiva: Su PartObjaverse-Tiny, PartSAM supera Point-SAM di oltre il 90% in termini di IoU con un singolo prompt (56.1% vs 29.4%). Dimostra una capacità superiore di delineare parti anche con un solo click.
Segmentazione Automatica: Nella modalità "Segment Every Part", PartSAM supera tutti gli stati dell'arte (inclusi SAMesh, SAMPart3D, PartField) con un margine significativo (es. 69.5% IoU contro il 56.9% di SAMesh su PartObjaverse-Tiny).
Generalizzazione 3D: A differenza dei metodi basati su lifting 2D, PartSAM riesce a segmentare correttamente strutture interne e parti occluse (es. sedili interni di un'auto, parti nascoste sotto vestiti), dimostrando una vera comprensione geometrica 3D.
Scalabilità: Le curve di scalatura mostrano che le prestazioni continuano a migliorare all'aumentare della dimensione del dataset (da 40k a 500k forme), confermando che il modello beneficia della supervisione 3D nativa su larga scala.

4. Contributi Chiave

Primo Modello Fondazionale 3D Nativo: Introduzione di PartSAM, il primo modello scalabile e promptabile addestrato direttamente su supervisione 3D nativa, eliminando la dipendenza dalle maschere 2D.
Architettura Encoder Dual-Branch: Un design innovativo che combina priors 2D congelati (da SAM) con un ramo apprendibile per le caratteristiche 3D, permettendo di scalare su grandi dataset senza dimenticare le conoscenze pregresse.
Pipeline di Annotazione Model-in-the-Loop: Un metodo automatizzato per estrarre supervisione fine-grained da asset 3D esistenti, creando un dataset di oltre 5 milioni di coppie forma-parte.
Capacità Emergenti: Il modello non solo esegue segmentazione interattiva di alta precisione, ma possiede la capacità emergente di decomporre automaticamente forme complesse in parti strutturali e interne.

5. Significato e Impatto

PartSAM rappresenta un passo decisivo verso i modelli fondazionali per la comprensione delle parti 3D.

Superamento del "Surface-Only": Risolve il problema fondamentale dei metodi precedenti che non riescono a comprendere la geometria interna o le strutture nascoste.
Versatilità: È applicabile a mesh artistiche, scansioni reali e, crucialmente, a mesh generate dall'IA (dove la connettività può essere assente o irregolare).
Applicazioni: Abilita nuove applicazioni in creazione di asset 3D, editing in AR/VR, e manipolazione robotica, permettendo un controllo granulare su parti specifiche di oggetti complessi.
Futuro della Ricerca: Dimostra che scalare i dati 3D nativi, piuttosto che affidarsi al trasferimento da 2D, è la strada maestra per ottenere una comprensione geometrica robusta e generalizzabile.

In sintesi, PartSAM stabilisce un nuovo stato dell'arte, combinando un'architettura scalabile ispirata a SAM con una massiccia quantità di dati 3D nativi curati, offrendo un modello controllabile, preciso e capace di comprendere la struttura interna degli oggetti 3D.