Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding
Il paper propone SemVID, un framework di pruning dei token senza addestramento che, preservando le evidenze critiche e la connettività inter-frame attraverso una specifica allocazione semantica, ottimizza l'efficienza e le prestazioni del grounding temporale video mantenendo un'alta accuratezza.