HaDR: Applying Domain Randomization for Generating Synthetic Multimodal Dataset for Hand Instance Segmentation in Cluttered Industrial Environments

Dit onderzoek introduceert HaDR, een methode die domeinrandomisatie toepast om een synthetisch RGB-D dataset te genereren voor het trainen van robuuste multimodale handsegmentatiemodellen in industriële omgevingen, die zelfs zonder reële trainingsdata presteren beter dan bestaande state-of-the-art modellen.

Stefan Grushko, Aleš Vysocký, Jakub Chlebek, Petr Prokop

Gepubliceerd 2026-02-23
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

HaDR: Hoe we robots leren handen te zien in een rommelige fabriek (zonder dure foto's)

Stel je voor dat je een robot wilt trainen om handen te herkennen in een drukke, rommelige fabriek. De robot moet kunnen zien waar een werknemer zijn hand houdt, zelfs als de werknemer gekleurde handschoenen draagt, het licht flitst, of als er gereedschappen en rommel op de achtergrond staan.

Dit klinkt simpel, maar voor een computer is dit een nachtmerrie. Normaal gesproken leer je een computer door duizenden echte foto's te tonen en handmatig te vertellen: "Hier is een hand, hier is een gereedschap." Dit is echter extreem duur, tijdrovend en vaak onmogelijk als de situatie in de fabriek te complex is.

De auteurs van dit paper hebben een slimme oplossing bedacht, genaamd HaDR (Hand Domain Randomization). Hier is hoe het werkt, vertaald in begrijpelijke taal:

1. Het probleem: De "Kloof tussen Wereld en Wereld"

Stel je voor dat je een kind leert een hond herkennen. Als je het kind alleen foto's van een witte hond op een witte achtergrond laat zien, zal het kind waarschijnlijk denken dat alle honden wit zijn. Als het kind dan een zwarte hond ziet, herkent het die niet.

Dit is precies wat er gebeurt met robots. Als je ze traint op "perfecte" foto's, falen ze zodra de realiteit een beetje rommelig wordt (anders licht, andere kleuren handschoenen, rommel op de achtergrond). Dit noemen de auteurs de "Reality Gap" (de kloof tussen de perfecte simulatie en de ruwe realiteit).

2. De oplossing: "Domain Randomization" (Het Chaos-principe)

In plaats van te proberen een perfecte, fotorealistische simulatie te maken (wat duur is en vaak toch niet werkt), doen de auteurs het tegenovergestelde. Ze maken de simulatie opzettelijk raar en chaotisch.

Dit is Domain Randomization. Het werkt als volgt:

  • De Set: Ze bouwen een virtuele fabriek in een computerspelletje.
  • De Chaos: Ze gooien alles door elkaar. De achtergronden zijn gekke patronen. Het licht flitst willekeurig. De handen hebben vreemde texturen. Er staan vreemde gereedschappen en geometrische vormen (zoals blokjes en bollen) in de weg die niets met handen te maken hebben.
  • Het Doel: Door de computer te bombarderen met zoveel mogelijk rare en onrealistische situaties, wordt de computer gedwongen om te stoppen met kijken naar de "kleur van de huid" of de "perfecte achtergrond". In plaats daarvan leert hij het essentiële: de vorm van een hand.

Het is alsof je iemand traint om een auto te herkennen door hem duizenden foto's te tonen van auto's in regen, sneeuw, onder een paarse lamp, en op een tapijt. Uiteindelijk leert de persoon: "Ah, het gaat om de vorm en de wielen, niet om de kleur of de achtergrond."

3. De Magie van "Twee Ogen" (Kleur + Diepte)

De robot krijgt twee soorten informatie:

  1. Kleur (RGB): Net als onze ogen.
  2. Diepte (Depth): Een kaart die aangeeft hoe ver objecten weg zijn (alsof de robot een sonar heeft).

De auteurs ontdekten dat het combineren van beide (RGB-D) het beste werkt.

  • Analogie: Stel je voor dat je in een donkere kamer staat met een witte hand en een witte muur. Met alleen je ogen (kleur) zie je niets, want alles is wit. Maar met je "diepte-zin" (sonar) voel je dat je hand dichterbij is dan de muur. De robot doet hetzelfde. Zelfs als de handschoen dezelfde kleur heeft als de achtergrond, ziet de robot het verschil in afstand.

4. De Resultaten: De Robot is Beter dan de Beste

De auteurs hebben hun robot getraind alleen met deze gekke, virtuele foto's. Geen enkele echte foto is gebruikt tijdens het leren.

Toen ze de robot in de echte, rommelige fabriek testten, gebeurde er iets verrassends:

  • Beter dan bestaande systemen: De robot deed het veel beter dan systemen die getraind zijn op echte foto's (zoals MediaPipe, een bekende technologie).
  • Ongevoelig voor handschoenen: Andere systemen faalden als iemand rode of gele handschoenen droeg (want ze waren getraind op blote huid). De HaDR-robot zag gewoon een hand, ongeacht de kleur.
  • Winnen in de chaos: In een rommelige omgeving met veel afleiding, bleef de HaDR-robot stabiel.

Waarom is dit belangrijk?

Vroeger dachten mensen: "Om een robot slim te maken, moeten we duizenden echte foto's maken en handmatig labelen."
Dit paper zegt: "Nee, we kunnen een virtuele wereld creëren die opzettelijk onrealistisch is, zodat de robot leert wat echt belangrijk is."

De grote les:
Het gaat er niet om hoe realistisch je simulatie is, maar om hoe goed je de robot traint om de essentie te zien, ongeacht de chaos om hem heen. Door de robot te laten oefenen in een "chaos-simulatie", wordt hij in de echte wereld een kampioen.

Samenvatting in één zin

De auteurs hebben een robot getraind in een virtuele wereld vol gekke kleuren en rommel, zodat de robot in de echte, rommelige fabriek perfect handen kan zien, zelfs als de werknemers gekleurde handschoenen dragen, zonder dat ze ooit een enkele echte foto hebben gezien.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →