Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction
Cet article propose une méthode de récupération de mouvement textuel interprétable qui utilise une représentation d'images de mouvements basée sur les angles articulaires et une interaction tardive token-patch pour surpasser les approches existantes en préservant les correspondances locales fines.