MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection
El artículo presenta MambaTAD, un modelo de detección de acciones temporales que integra modelos de espacio de estados con dos innovaciones clave, el módulo DMBSS y una cabeza de fusión de características globales, para superar los desafíos de la detección de acciones de larga duración en videos sin recortar.