ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers
Dit paper introduceert ViTaPEs, een transformer-architectuur die door middel van een innovatieve twee-staps positie-injectie visuele en tactiele data effectief combineert voor taak-agnostische representaties, wat leidt tot state-of-the-art prestaties in herkenning, zero-shot generalisatie en robotische grijpvoorspelling.