SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning
Dit paper introduceert SAIL, een nieuwe aanpak voor zwak-toezicht op dichte videobeschrijvingen die semantisch bewuste maskers creëert via kruismodale uitlijning en LLM-gegenereerde synthetische captions, waardoor zowel de lokale precisie als de beschrijvingskwaliteit aanzienlijk worden verbeterd.