VDCook:DIY video data cook your MLLMs
Das Paper stellt VDCook vor, ein selbstentwickelndes Video-Daten-Betriebssystem, das Forschern und Domänenteams ermöglicht, durch natürliche Sprachabfragen und automatisierte Retrieval- sowie Syntheseprozesse dynamisch aktualisierbare, metadatenreiche Videodatensätze für das Training von Multimodalen Large Language Models (MLLMs) zu erstellen.