Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding
Het artikel introduceert SemVID, een trainingsvrij raamwerk voor semantische toewijzing van bewijsmateriaal dat door het behoud van object-, bewegings- en contexttokens de nauwkeurigheid van video-temporale gronding behoudt terwijl het het aantal visuele tokens drastisch reduceert en de verwerkingssnelheid aanzienlijk verbetert.