HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos
Dit paper introduceert HERO, een nieuw kader voor open-vocabulaire tijdsgebonden zinsgrondering in video's, en presenteert de eerste benchmarks en methoden om modellen beter te laten generaliseren naar onbekende taaluitdrukkingen.