Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding
O artigo apresenta o SemVID, um framework de poda de tokens sem treinamento que otimiza a eficiência e mantém a precisão na localização temporal de vídeos, preservando evidências críticas e conexões entre quadros essenciais para a compreensão semântica.