ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers
Le papier présente ViTaPEs, une architecture transformer innovante qui améliore l'alignement cross-modal et la généralisation zéro-shot en intégrant un schéma d'encodage positionnel à deux étapes (local et global) pour fusionner efficacement les perceptions visuelle et tactile.