Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos
Dit paper introduceert Synthetic Visual Genome 2 (SVG2), een grootschalig panoptisch videoscène-graafdataset gegenereerd via een geautomatiseerde pipeline, en presenteert TRaSER, een model dat deze data gebruikt om de prestaties op object-, attribuut- en relatiedetectie aanzienlijk te verbeteren en video-VQA-taken te ondersteunen.