Multimodal Skeleton-Based Action Representation Learning via Decomposition and Composition
Il paper propone un framework di apprendimento auto-supervisionato chiamato "Decomposition and Composition" che risolve il compromesso tra efficienza e prestazioni nell'analisi delle azioni umane multimodali basate sullo scheletro, decomponendo e ricomponendo le caratteristiche per allineare i dati unimodali e migliorare la rappresentazione multimodale senza eccessivo costo computazionale.