PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un énorme bloc de Lego numérique. Un humain peut facilement dire : « Tiens, c'est la roue de la voiture », « C'est le siège », ou « C'est le moteur ». Mais pour un ordinateur, ce n'est qu'un amas de millions de petits points sans lien logique. C'est là qu'intervient PartSAM, le nouveau super-héros de la vision par ordinateur présenté dans ce papier.

Voici l'explication de ce travail, traduite en langage simple et imagé.

🌟 Le Problème : Les "Traducteurs" ratés

Jusqu'à présent, pour apprendre aux ordinateurs à comprendre les pièces d'un objet 3D, les chercheurs utilisaient une méthode un peu maladroite. Ils prenaient un modèle intelligent capable de reconnaître des objets sur des photos 2D (comme un modèle qui voit des chats sur Instagram), et ils essayaient de "projeter" cette intelligence sur des objets 3D.

C'est comme essayer de comprendre la structure interne d'une maison en regardant uniquement des photos de sa façade.

Le résultat ? L'ordinateur voit bien la surface (la peinture, les briques), mais il est aveugle à l'intérieur. Il ne peut pas voir le moteur caché sous le capot d'une voiture ou les coussins à l'intérieur d'un fauteuil. De plus, cette méthode est lente et peu flexible : il faut souvent recalculer tout le modèle pour chaque nouvel objet.

🚀 La Solution : PartSAM, le "Chirurgien 3D"

Les auteurs ont créé PartSAM. Au lieu de copier un modèle 2D, ils ont construit un cerveau 3D natif, entraîné directement sur des millions d'objets 3D réels.

Voici comment cela fonctionne, avec des analogies simples :

1. L'Entraînement : Le "Stage de Cuisine" géant

Pour qu'un chef cuisinier devienne un expert, il doit cuisiner des milliers de plats.

L'ancien modèle : Il apprenait avec seulement 50 recettes (peu de données) et devait deviner comment cuisiner un plat qu'il n'avait jamais vu.
PartSAM : Les chercheurs ont créé une "cuisine" géante avec 5 millions de recettes (5 millions de paires d'objets et de leurs pièces). Ils ont même utilisé un robot (le modèle lui-même) pour aider à étiqueter ces recettes, en éliminant les erreurs. Résultat : PartSAM a vu de tout, des chaises aux robots, en passant par des objets générés par l'IA.

2. L'Architecture : Le "Double Cerveau"

PartSAM utilise une architecture spéciale avec deux branches (deux cerveaux) qui travaillent ensemble :

Le Cerveau "Mémoire 2D" : Il garde les connaissances apprises sur les photos (comme savoir qu'une roue est ronde). Il est figé, comme un livre de référence qu'on ne change pas.
Le Cerveau "Apprentissage 3D" : C'est lui qui apprend activement la géométrie 3D. Il apprend à voir les formes, les volumes et les détails cachés.
La Synergie : En combinant les deux, le modèle ne perd pas sa "culture visuelle" tout en devenant un expert de la 3D. C'est comme avoir un architecte qui connaît l'histoire de l'art (2D) et qui sait aussi construire des immeubles modernes (3D).

3. L'Interaction : Le "Pointeur Magique"

C'est la partie la plus cool. PartSAM fonctionne comme un jeu de "Pointez et Cliquez".

Mode Interactif : Vous cliquez sur une partie d'un objet (par exemple, le bras d'un robot), et PartSAM dit : « Ah, c'est le bras ! » et isole tout le bras instantanément.
Mode "Tout Découper" : Si vous ne cliquez sur rien, PartSAM peut deviner tout seul comment décomposer l'objet en pièces logiques (comme un puzzle qui se monte tout seul).

🎁 Pourquoi c'est révolutionnaire ?

Il voit l'invisible : Contrairement aux anciens modèles qui ne voyaient que la peau de l'objet, PartSAM comprend la structure interne. Il peut séparer le siège d'une voiture de son châssis, même si le siège est caché à l'intérieur.
Il est rapide : Les anciennes méthodes prenaient des minutes pour analyser un objet. PartSAM le fait en quelques secondes, comme un coup de baguette magique.
Il est polyvalent : Que ce soit un objet dessiné par un artiste ou un objet bizarre créé par une intelligence artificielle, PartSAM s'adapte. Il ne se perd pas face à l'inconnu.

🎨 À quoi ça sert dans la vraie vie ?

Imaginez un futur où :

Vous voulez changer la couleur du siège de votre voiture virtuelle en AR (Réalité Augmentée) : PartSAM identifie le siège et vous permet de le peindre en rouge.
Un robot doit réparer un moteur : PartSAM lui montre exactement où sont les boulons et les pistons, même s'ils sont cachés.
Un créateur de jeux vidéo veut modifier un personnage : Il peut dire « Enlève son manteau » et le manteau disparaît, révélant le corps en dessous, sans casser le modèle 3D.

En résumé

PartSAM, c'est comme donner à un ordinateur des yeux qui voient en 3D et un cerveau capable de comprendre la logique des objets, le tout entraîné sur une quantité de données jamais vue auparavant. C'est un pas de géant vers des machines qui comprennent vraiment le monde qui les entoure, et pas seulement son apparence de surface.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La segmentation d'objets 3D en leurs parties constitutives est un défi majeur en vision par ordinateur et en infographie. Les approches traditionnelles reposent sur des taxonomies fermées (ex: ShapeNet-Part, PartNet) qui limitent la généralisation aux objets non vus ou à des granularités de parties différentes.

Pour surmonter ces limites, les travaux récents tentent de transférer la connaissance de modèles fondationnels 2D (comme SAM - Segment Anything Model) vers le 3D. Cependant, ces méthodes souffrent de deux défauts critiques :

Paradigme indirect : Elles projettent des masques 2D multi-vues vers l'espace 3D, ce qui échoue à capturer la géométrie intrinsèque, conduisant à une compréhension superficielle et à une incapacité à segmenter les structures internes.
Manque de contrôle et d'évolutivité : Les méthodes basées sur le clustering (comme PartField) manquent de la contrôlabilité centrée sur l'utilisateur inhérente à SAM et peinent à s'adapter à des données 3D natives à grande échelle.

2. Méthodologie : PartSAM

PartSAM est présenté comme le premier modèle de segmentation de parties 3D promptable (commandable par invite) entraîné nativement sur des données 3D à grande échelle. L'architecture s'inspire de SAM mais est adaptée au domaine 3D.

A. Architecture du Modèle

Le modèle suit une structure Encodeur-Décodeur :

Encodeur Dual-Branch (à deux branches) :
- Il encode les formes 3D dans un champ de caractéristiques continu basé sur des triples plans (triplane).
- Branche Gelée : Initialise les poids avec PartField (entraîné par apprentissage contrastif) pour préserver les priors 2D puissants appris via SAM.
- Branche Apprenable : S'adapte aux données 3D natives. Elle accepte des attributs d'entrée supplémentaires au-delà des coordonnées (normales, RGB) via une couche de convolution "Zero Convolution", enrichissant la représentation des détails locaux.
- Les sorties des deux branches sont sommées pour produire un champ de caractéristiques riche.
Décodeur Guidé par Prompt :
- Contrairement au clustering, ce décodeur génère directement des masques de segmentation conditionnés par des invites utilisateur (points positifs/négatifs).
- Il utilise des tokens d'apprentissage spécifiques : un token de sortie ( $T_{out}$ ) pour générer les masques et un token d'IoU ( $T_{iou}$ ) pour estimer la qualité de chaque masque.
- Un mécanisme d'attention bidirectionnelle (Two-way Transformer) permet aux invites et aux caractéristiques d'entrée d'interagir.
- En mode automatique, il peut générer plusieurs candidats en parallèle, sélectionnant le meilleur via le score d'IoU prédit.

B. Pipeline d'Annotation "Model-in-the-Loop"

Pour pallier le manque de données 3D annotées de haute qualité, les auteurs proposent un pipeline d'annotation itératif :

Phase 1 : Extraction de supervisions à partir de graphes de scènes d'artistes (Objaverse) et de composants connectés, filtrant les formes trop fragmentées ou trop simples.
Phase 2 (Model-in-the-Loop) : Utilisation d'un modèle pré-entraîné (PartField) pour générer des masques candidats sur des structures très fragmentées. PartSAM est ensuite utilisé pour interagir avec ces masques (simulation d'interactions multiples). Seuls les masques qui atteignent un certain seuil d'IoU (soit immédiatement, soit après itération) sont conservés.
Résultat : Ce processus a permis de curer plus de 5 millions de paires forme-part natives, offrant une diversité et une granularité inégalées.

3. Contributions Clés

PartSAM : Le premier modèle de segmentation 3D promptable, évolutif et entraîné nativement sur des données 3D, permettant une segmentation interactive flexible et une segmentation automatique ("Segment Every Part").
Encodeur Dual-Branch : Une architecture innovante qui combine la rétention des priors 2D de SAM (via une branche gelée) avec l'apprentissage de sémantiques 3D fines (via une branche apprenable), permettant une mise à l'échelle efficace.
Pipeline de Données à Grande Échelle : Une stratégie d'annotation "model-in-the-loop" qui a généré un jeu de données massif (5M+ paires), essentiel pour l'apprentissage de modèles fondationnels 3D.
Capacités Emergentes : Le modèle démontre une capacité à segmenter non seulement les surfaces visibles mais aussi les structures internes et les parties occluses, ce que les méthodes basées sur la projection 2D ne peuvent pas faire.

4. Résultats Expérimentaux

Les expériences montrent que PartSAM surpasse largement les méthodes de l'état de l'art (SOTA) sur plusieurs benchmarks :

Segmentation Interactive : Sur les ensembles de données PartObjaverse-Tiny et PartNet-E, PartSAM dépasse Point-SAM de plus de 90% en IoU avec une seule invite (IoU@1). Il produit des parties sémantiquement cohérentes même avec des invites minimales.
Segmentation Automatique (Class-Agnostic) : Dans le mode "Segment Every Part", PartSAM bat les méthodes concurrentes (SAMesh, PartField, SAMPart3D) avec une marge de plus de 20% en IoU moyen.
Généralisation : Le modèle fonctionne efficacement sur des maillages générés par IA (Hunyuan3D) et des scans réels, là où les méthodes basées sur la connectivité du maillage échouent.
Structure Interne : Contrairement à SAMesh qui échoue à reconstruire les parties cachées (ex: l'intérieur d'un sac à main ou d'une voiture), PartSAM réussit à décomposer ces structures grâce à son apprentissage natif 3D.

5. Signification et Impact

Ce travail marque une étape décisive vers des modèles fondationnels pour la compréhension 3D.

Changement de Paradigme : Il démontre que l'entraînement natif sur des données 3D massives est supérieur au transfert de connaissances 2D pour la segmentation de parties, en particulier pour la géométrie interne.
Applications : Les capacités de PartSAM ouvrent la voie à des applications avancées en création d'actifs 3D, en édition AR/VR, en manipulation robotique et en segmentation amodale (reconstruction de parties cachées).
Évolutivité : La courbe de mise à l'échelle (scaling curve) montre que les performances continuent d'augmenter avec la taille des données, suggérant que PartSAM est prêt pour une expansion future vers des modèles encore plus grands et plus généralisables.

En résumé, PartSAM établit une nouvelle référence pour la segmentation de parties 3D en combinant une architecture contrôlable, une supervision native à grande échelle et une capacité unique à comprendre la géométrie 3D complète, y compris les parties invisibles.