Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding
L'article présente SemVID, un cadre d'élagage de tokens sans entraînement pour l'ancrage temporel vidéo qui préserve la chaîne de preuves sémantiques en allouant dynamiquement des budgets de tokens et en sélectionnant des tokens d'objets, de mouvement et de contexte, permettant ainsi d'accélérer considérablement le traitement tout en maintenant une précision élevée.