Omni-Manip: Beyond-FOV Large-Workspace Humanoid Manipulation with Omnidirectional 3D Perception

Dit paper introduceert Omni-Manip, een end-to-end LiDAR-gedreven visuele motorische beleidsstrategie die robuuste manipulatie in grote werkruimtes mogelijk maakt door middel van een 360°-perceptiesysteem dat de beperkingen van traditionele RGB-D-camera's overwint.

Pei Qu, Zheng Li, Yufei Jia, Ziyun Liu, Liang Zhu, Haoang Li, Jinni Zhou, Jun Ma

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die eruit ziet als een mens en die taken moet uitvoeren in een rommelige kamer, zoals een fles van de ene kast naar de andere brengen. Normaal gesproken heeft zo'n robot "ogen" (camera's) die alleen recht vooruit kijken.

Het probleem:
Stel je voor dat je met een bril op loopt die alleen een heel smal zichtveld heeft, alsof je door een papieren buis kijkt. Als je een object wilt pakken dat net buiten dat smalle zichtveld ligt, moet je je hele lichaam draaien of op je knieën gaan om het te zien. In een rommelige ruimte is dat gevaarlijk; je kunt tegen meubels aanlopen of dingen laten vallen voordat je weet dat ze daar staan. De meeste robot-robots doen precies dit: ze kijken alleen recht vooruit en moeten daarom vaak blijven draaien om hun werk te doen.

De oplossing: Omni-Manip
De onderzoekers in dit paper hebben een slimme oplossing bedacht die ze Omni-Manip noemen. In plaats van camera's die alleen vooruit kijken, hebben ze de robot uitgerust met een 360-graden LiDAR-sensor.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. De "Oog van de Adelaar" (360-graden zicht)

Stel je voor dat je een superheld bent die niet alleen naar voren kan kijken, maar ook naar links, rechts, achter en boven, allemaal tegelijk. Dat is wat deze robot doet.

  • Normale robot: Kijkt door een koker. Als de fles op de grond ligt, net buiten het zicht, ziet hij hem niet en botst hij er misschien tegenaan terwijl hij draait.
  • Omni-Manip: Heeft een "halo" van zicht rondom zich. Hij ziet de fles op de grond, de stoel achter hem en de muur aan zijn linkerzijde, allemaal in één oogopslag. Hij hoeft niet te draaien om te weten waar alles is; hij heeft een compleet beeld van de kamer.

2. De "Tijdscheer" (Tijd-bewuste aandacht)

LiDAR-sensoren werken met laserstralen die punten in de ruimte meten. Soms zijn die punten wat wazig of flitsen ze, net als een camera die even wazig is.
De onderzoekers hebben een slim algoritme bedacht dat we "Tijd-bewuste Aandacht" noemen.

  • De analogie: Stel je voor dat je probeert een danspas te onthouden. Als je alleen naar één moment in de dans kijkt, zie je misschien niet de vloeiende beweging. Maar als je naar een reeks van beelden kijkt en je hersenen die samenvoegen tot één soepele beweging, begrijp je de dans veel beter.
  • De robot doet hetzelfde: hij kijkt niet alleen naar het huidige beeld, maar combineert het met de beelden van de laatste paar seconden. Hierdoor wordt het beeld "gladder" en betrouwbaarder, waardoor hij niet meer hapt of stopt door ruis in de data.

3. De "Tele-robot" (Het leren van de robot)

Om deze robot slim te maken, hebben ze hem niet zomaar geprogrammeerd; ze hebben hem laten leren van een mens.

  • Ze hebben een tele-operatiesysteem gebouwd. Dit werkt net als een VR-bril (zoals een Meta Quest). Een mens zit in een virtuele wereld en beweegt zijn armen en lichaam. De robot nabootst deze bewegingen exact.
  • Het mooie is: de mens kan zich in de virtuele wereld omkeren, bukken en reiken, en de robot doet precies hetzelfde. Zo leert de robot hoe hij zijn hele lichaam moet gebruiken om taken in een grote ruimte uit te voeren, zonder dat hij zelf eerst jarenlang moet "proberen en fouten maken".

Wat is het resultaat?

In tests hebben ze gezien dat deze robot veel beter presteert dan robots met alleen camera's:

  • Minder botsingen: Omdat hij alles om zich heen ziet, botst hij niet tegen meubels aan die "achter" hem liggen.
  • Grotere werkruimte: Hij kan objecten pakken die ver weg zijn of aan de andere kant van de kamer, zonder dat hij eerst hoeft te draaien.
  • Veiligheid: Zelfs als het licht verandert of de kamer vol staat met rommel, blijft hij zijn weg vinden, omdat hij zich baseert op de vorm en afstand van objecten (3D-geometrie) in plaats van alleen op kleuren en licht.

Kortom:
Omni-Manip is als het verschil tussen een robot die blindelings door een kamer loopt en vaak tegen muren aanloopt, en een robot die een magische bril draagt waarmee hij de hele kamer in één keer kan zien en die precies weet waar hij zijn handen moet zetten, zelfs als het doelwit niet direct voor zijn neus staat. Het maakt robots veiliger en slimmer voor taken in onze echte, rommelige wereld.