Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding
El artículo presenta SemVID, un marco de poda de tokens sin entrenamiento diseñado específicamente para la localización temporal en videos que, mediante la asignación semántica de evidencia basada en la retención de información crítica y la fuerza de conectividad, logra un equilibrio óptimo entre precisión y eficiencia al reducir drásticamente el número de tokens visuales necesarios.