ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Dit paper introduceert ViTaPEs, een transformer-architectuur die door middel van een innovatieve twee-staps positie-injectie visuele en tactiele data effectief combineert voor taak-agnostische representaties, wat leidt tot state-of-the-art prestaties in herkenning, zero-shot generalisatie en robotische grijpvoorspelling.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert

Gepubliceerd Tue, 10 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe taal moet leren, maar je hebt twee verschillende leraren: één die alleen naar beelden kijkt (visie) en één die alleen voelt (tactiel). De beeldleraar ziet de vorm van een appel, maar de voelleraar voelt de ruwe schil en de zachte plek waar de steel zit.

Tot nu toe waren robot- en AI-systemen vaak slecht in het samenvoegen van deze twee leraren. Ze konden de informatie niet goed combineren, alsof ze twee boeken lazen in verschillende talen zonder vertaler.

De onderzoekers van deze paper (ViTaPEs) hebben een slimme oplossing bedacht. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Twee Werelden, Geen Gedeeld Woordenboek

Normaal gesproken kijken robots naar een foto en voelen ze iets, maar ze doen dit alsof het twee losse verhalen zijn.

  • Visie is als een landschapschilderij: je ziet de hele boom, de vorm en de kleur.
  • Tactiel is als een close-up van een hand die de schil aftast: je voelt de textuur, de hardheid en de druk.

Het probleem is dat AI-modellen vaak vergeten waar iets precies zit in die twee werelden. Ze weten niet dat de ruwe plek die de hand voelt, precies overeenkomt met de groene vlek op de foto. Ze missen de "ruimtelijke kaart" die beide werelden aan elkaar koppelt.

2. De Oplossing: ViTaPEs (De Slimme Vertaler)

De onderzoekers hebben een nieuw systeem gebouwd dat ze ViTaPEs noemen. Je kunt dit zien als een super-slimme vertaler die twee soorten "posities" (locaties) gebruikt om de twee leraren samen te brengen.

Stel je voor dat je een grote groep mensen in een zaal hebt. Je hebt twee groepen:

  • Groep A (De Ooggetuigen): Zij kijken naar een scherm.
  • Groep B (De Voelers): Zij voelen aan objecten in hun handen.

Om te zorgen dat ze goed met elkaar kunnen praten, doet ViTaPEs twee dingen:

Stap 1: De Eigen Kaart (Lokale Positie)

Eerst geeft ViTaPEs aan elke groep een eigen kaart.

  • De ooggetuigen krijgen een kaart met de indeling van het scherm (links, rechts, boven, beneden).
  • De voelers krijgen een kaart met de indeling van hun vingers (waar de druk is, waar de textuur ruw is).
    Dit zorgt ervoor dat iedereen binnen hun eigen groep weet waar ze zijn. Dit is de lokale positie.

Stap 2: De Gedeelde Zaal (Globale Positie)

Vervolgens brengt ViTaPEs beide groepen in dezelfde grote zaal. Maar nu komt het slimme deel: voordat ze gaan praten, krijgt iedereen in de zaal een nieuw, gedeeld nummerplaatje.

  • Het nummerplaatje zegt niet alleen "ik ben links", maar ook "ik ben de voeler die praat met de ooggetuige rechts".
  • Dit is de globale positie. Het zorgt ervoor dat de voeler en de ooggetuige die over hetzelfde stukje appel praten, elkaar "vinden" in de chaos van de zaal.

3. Waarom werkt dit zo goed?

In het verleden probeerden robots dit door één grote, statische kaart te gebruiken, of door te vertrouwen op modellen die al op tekst waren getraind (zoals ChatGPT voor beelden). Dat werkte niet goed voor het voelen, omdat voelen heel anders werkt dan kijken.

ViTaPEs gebruikt een tweestaps-methode:

  1. Eerst leren ze hun eigen taal (de eigen kaart).
  2. Daarna leren ze de gedeelde taal (de zaal) op het moment dat ze echt gaan communiceren.

Dit is als het leren van een nieuwe taal: eerst leer je je moedertaal (visie of voelen) perfect, en daarna leer je de grammatica die nodig is om die twee talen in één zin te combineren.

4. Wat kan dit nu doen? (De Resultaten)

De onderzoekers hebben hun systeem getest in de echte wereld, en de resultaten zijn indrukwekkend:

  • Materiaal herkennen: Het kan precies zeggen of iets van zijde, hout of rubber is, alleen door te kijken en te voelen.
  • Objecten vinden: Het herkent voorwerpen zelfs als ze er anders uitzien dan in de training (bijvoorbeeld een ander soort camera of een andere hand).
  • Robots grijpen: Dit is misschien wel het coolste: een robotarm kan een object vastpakken en weten of het grip heeft, zelfs als het object nieuw is. Het systeem werkt zelfs als de camera of de sensor tijdelijk "blind" is (bijvoorbeeld als er een stukje van de foto ontbreekt).

Conclusie

Kortom: ViTaPEs is als het geven van een tweestaps-opleiding aan een robot. Eerst leert hij hoe hij moet kijken en hoe hij moet voelen, en daarna leert hij hoe hij die twee vaardigheden perfect op elkaar moet laten afstemmen met een slimme "ruimtelijke kaart".

Hierdoor wordt de robot niet alleen slimmer, maar ook veel veerkrachtiger. Hij kan dingen doen in de echte wereld, waar dingen niet altijd perfect zijn, zonder dat we hem voor elke nieuwe situatie opnieuw hoeven te programmeren. Het is een grote stap naar robots die echt kunnen "voelen" en "zien" zoals wij doen.