Open-vocabulary 3D scene perception in industrial environments

Deze paper presenteert een trainingsvrije pipeline voor open-vocabulaire 3D-perceptie in industriële omgevingen die, door het samenvoegen van superpunten op basis van semantische kenmerken in plaats van het gebruik van niet-geoptimaliseerde modellen, een betere segmentatie van industriële objecten mogelijk maakt.

Keno Moenck, Adrian Philip Florea, Julian Koch, Thorsten Schüppstuhl

Gepubliceerd 2026-02-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Kern van het Probleem: De "Huiselijke" Bril

Stel je voor dat je een robot wilt bouwen die een fabriekshuis kan "zien" en begrijpen. Je wilt dat de robot vraagt: "Waar staat die vijzelspanner?" of "Toon me de freesmachine."

Het probleem is dat de slimme camera's (kunstmatige intelligentie) die we vandaag de dag hebben, zijn getraind op foto's van gewone huiskamers. Ze kennen stoelen, tafels, bedden en deuren als de achterkant van hun hand. Maar in een fabriek? Daar staan geen bedden. Daar staan zware machines, gereedschappen en onderdelen die er totaal anders uitzien.

De auteurs van dit paper hebben ontdekt dat als je deze "huiselijke" slimme camera's in een fabriek zet, ze in de war raken. Het is alsof je iemand vraagt om een auto te herkennen, maar je hebt die persoon alleen maar foto's van fietsen laten zien. Ze zien de wielen, maar begrijpen niet wat het voertuig is. Ze zien een vijzelspanner en denken: "Geen idee, dat is geen stoel."

De Oplossing: Geen Nieuwe School, maar Slimmer Kijken

In plaats van de robot maandenlang te laten leren (wat duur en moeilijk is omdat er weinig foto's van fabrieken zijn), hebben de onderzoekers een slimme, trainingsvrije truc bedacht.

Stel je voor dat je een enorme pot met losse LEGO-stenen hebt (de 3D scan van de fabriek).

  1. De oude manier: Je probeert de LEGO-stenen eerst in vooraf gemaakte bakjes te stoppen (zoals "stoel", "tafel"). Maar omdat de bakjes alleen voor huiskamers zijn, passen de fabrieks-Lego's er niet in.
  2. De nieuwe manier (van dit paper): Je doet het andersom. Je pakt de LEGO-stenen en plakt ze eerst aan elkaar op basis van hoe ze eruitzien en hoe ze tegen elkaar aan liggen (dit noemen ze superpoints). Je maakt geen vooraf gedefinieerde bakjes, maar bouwt groepjes die logisch bij elkaar horen.

De Creatieve Analogie: De "Kleefmuts" en de "Magische Lijst"

Hier is hoe hun methode werkt, stap voor stap:

  1. De Superpoints (De Kleefmuts):
    In plaats van te proberen elk object direct te benoemen, kijken ze eerst naar kleine groepjes punten in de 3D-ruimte. Stel je voor dat je een magische kleefmuts over de 3D-scène trekt. Alle punten die dicht bij elkaar zitten en een glad oppervlak vormen, plakken aan elkaar. Zo krijg je een hoopje "deeltjes" die samen een object vormen, zonder dat je weet wat het is.

  2. De Magische Lijst (SAM & CLIP):
    Nu hebben ze die groepjes. Ze nemen een foto van een groepje en laten een slimme AI (die ze SAM noemen) een masker eromheen tekenen, zodat alleen dat specifieke object zichtbaar is. Vervolgens laten ze een andere slimme AI (CLIP) kijken naar die foto en vragen: "Wat zie je hier?" of "Is dit een vijzelspanner?".

    De AI geeft een score: "Ja, dit lijkt erg op een vijzelspanner!" of "Nee, dit is een tafel."

  3. Het Samenvoegen (De Puzzel):
    Als twee naast elkaar liggende groepjes punten allebei zeggen: "Ik ben een vijzelspanner!", dan plakt de robot ze aan elkaar tot één groot object. Als één groepje zegt "Ik ben een vijzelspanner" en de buurman zegt "Ik ben een muur", dan blijven ze gescheiden.

Wat hebben ze ontdekt? (De "Industrie-Bril")

Ze hebben ook getest met een speciale bril die speciaal voor fabrieken is gemaakt, genaamd IndustrialCLIP.

  • De goede kant: Deze bril herkent industriële spullen veel beter dan de standaard-bril. Als je vraagt om een "vijzelspanner", ziet deze bril precies waar die zit.
  • De slechte kant: Deze bril is soms te specifiek. Hij ziet een freesmachine en een boormachine als bijna hetzelfde, omdat ze op de foto's in de catalogus op elkaar lijken. Hij is zo gespecialiseerd op fabrieksdingen, dat hij andere dingen soms minder goed ziet.

Het Resultaat

De conclusie is simpel:
Je hoeft geen dure, nieuwe robot te bouwen die alles van nul af moet leren. Je kunt bestaande slimme systemen gebruiken, maar je moet ze slimmer laten werken door eerst de objecten in groepjes te plakken (superpoints) en die groepjes dan te laten "lezen" door een AI die gespecialiseerd is in fabrieken.

Het is alsof je een vertaler hebt die alleen Nederlands spreekt (de standaard AI). Als je hem in een fabriek zet, begrijpt hij de taal van de machines niet. Maar als je hem eerst laat kijken naar de vorm van de machines (de superpoints) en hem dan een woordenboek geeft met fabriekstermen (IndustrialCLIP), kan hij ineens perfect vertellen waar de gereedschappen staan, zonder dat hij ooit een fabrieksopleiding heeft gehad.

Kortom: Ze hebben een manier gevonden om robots te laten zien in een fabriek, zonder dat ze eerst jarenlang hoeven te studeren aan de hand van duizenden foto's. Ze gebruiken slimme "plaktechnieken" en een gespecialiseerd woordenboek.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →