PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

Das Papier stellt PartSAM vor, das erste promptbare Modell für die 3D-Teilesegmentierung, das durch eine native Triplane-Architektur und eine neuartige Annotation auf über fünf Millionen 3D-Formen erstmals überlegene, taxonomiefreie Ergebnisse sowohl für Oberflächen- als auch für innere Strukturen erzielt.

Zhe Zhu, Le Wan, Rui Xu, Yiheng Zhang, Honghua Chen, Zhiyang Dou, Cheng Lin, Yuan Liu, Mingqiang Wei

Veröffentlicht 2026-02-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, komplexen 3D-Drachen aus Papier. Wenn du ihn auf den Tisch legst, siehst du nur die Außenhaut. Aber was ist mit dem Inneren? Wo sind die Knochen? Wo sind die Flügel, die sich bewegen lassen?

Bisher war es für Computer extrem schwierig, solche 3D-Objekte nicht nur zu „sehen", sondern auch zu verstehen und in ihre sinnvollen Teile zu zerlegen – und das ohne vorher zu wissen, was für ein Objekt es ist.

Das neue Papier stellt PartSAM vor. Hier ist die Erklärung, wie es funktioniert, ohne technisches Fachchinesisch:

1. Das Problem: Der „Fotografen-Trick"

Früher haben Computer versucht, 3D-Objekte zu verstehen, indem sie viele 2D-Fotos davon machten (wie ein Fotograf, der um ein Objekt herumgeht). Sie haben dann gelernt, was auf den Fotos zu sehen ist, und versucht, das auf das 3D-Modell zu übertragen.

Das Problem dabei: Ein Fotograf sieht nur die Haut. Er sieht nicht, was innerhalb des Objekts ist. Wenn du einen Stuhl hast, sieht der Fotograf die Beine, aber er weiß nicht, dass die Beine auch unter dem Sitz versteckt sind, wenn man von oben schaut. Das führte zu ungenauen Ergebnissen, besonders bei künstlich generierten 3D-Modellen (wie sie KI oft erstellt), die keine klaren „Fotos" haben.

2. Die Lösung: PartSAM – Der „3D-Architekt"

PartSAM ist wie ein genialer 3D-Architekt, der das Objekt von innen heraus versteht, nicht nur von außen.

  • Keine Fotos, sondern direkte Erfahrung: Statt Fotos zu schauen, hat PartSAM direkt mit Millionen von echten 3D-Modellen trainiert. Es hat gelernt, wie ein Auto, ein Stuhl oder ein Roboter wirklich aufgebaut sind, inklusive der Teile, die man von außen gar nicht sieht.
  • Der „Wackel-Finger"-Effekt (Promptable): Stell dir vor, du zeigst mit dem Finger auf einen Teil des Objekts (z. B. auf das Lenkrad eines Autos). PartSAM versteht sofort: „Ah, du meinst das Lenkrad!" und hebt genau diesen Bereich hervor. Du musst nicht alles von vorne bis hinten erklären; ein kleiner Tipp reicht.
  • Der „Alles-zerlegen"-Modus: Wenn du nichts tippst, kann PartSAM auch automatisch das ganze Objekt in seine Bestandteile zerlegen. Es trennt das Lenkrad vom Sitz, den Sitz vom Chassis und findet sogar Teile im Inneren, die sonst unsichtbar wären.

3. Wie hat es das gelernt? (Der „Lern-Coach")

Um so gut zu werden, brauchte PartSAM eine riesige Bibliothek an Beispielen. Aber es gab ein Problem: Es gab nicht genug Menschen, die Millionen von 3D-Modellen manuell in Teile zerlegt haben.

Die Forscher haben einen cleveren Trick angewendet, den sie „Modell-im-Loop" nennen:

  1. Sie haben ein älteres, etwas dümmeres Modell benutzt, um erste grobe Teile zu markieren.
  2. Dann hat PartSAM diese Markierungen geprüft: „Ist das wirklich ein sinnvolles Teil?"
  3. Wenn ja, hat es das als Lernbeispiel gespeichert. Wenn nein, hat es verworfen.
  4. So haben sie aus einer riesigen Menge an Rohmaterial (Online-3D-Modellen) über 5 Millionen hochwertige Lernbeispiele gezaubert. Es ist, als würde ein Schüler (PartSAM) die Hausaufgaben eines anderen Schülers (dem alten Modell) korrigieren und daraus lernen.

4. Warum ist das so wichtig?

Stell dir vor, du willst ein virtuelles Zimmer einrichten oder einen Roboter programmieren, der Gegenstände greift.

  • Bisher: Der Roboter sah nur die Oberfläche. Er wusste nicht, dass er den Griff eines Koffers greifen muss, um ihn zu tragen, oder dass er die Tür eines Schranks öffnen muss, um hineinzugreifen.
  • Mit PartSAM: Der Roboter „sieht" den Griff, die Tür und das Innere des Schranks. Er versteht die Struktur. Das macht ihn viel schlauer und flexibler.

Zusammenfassung in einem Satz

PartSAM ist wie ein 3D-Röntgenblick für Computer, der durch direktes Lernen an echten 3D-Objekten und einem cleveren Selbstkorrektur-System lernt, jedes Objekt in seine sinnvollen Teile zu zerlegen – egal ob es ein echter Stuhl ist oder ein KI-generierter Fantasie-Drache.

Es ist ein riesiger Schritt hin zu Computern, die die 3D-Welt so gut verstehen wie wir Menschen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →