StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles
Il paper introduce StoryMovie, un dataset di 1.757 storie allineate a script e sottotitoli cinematografici che, utilizzato per addestrare il modello Qwen Storyteller3, dimostra come l'allineamento semantico migliori significativamente l'attribuzione dei dialoghi e la coerenza narrativa rispetto alla sola grounding visiva.