MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection
Dit artikel introduceert MambaTAD, een nieuw end-to-end model voor tijdsgebonden actie-detectie dat Structured State-Space-modellen combineert met een diagonaal-gemaskeerde bidirectionele module en een globale feature-fusiehead om de beperkingen van bestaande methoden bij het detecteren van langdurige acties in ongesneden video's effectief aan te pakken.