VDCook:DIY video data cook your MLLMs

VDCook est une plateforme auto-évolutive qui permet aux chercheurs de générer et de mettre à jour continuellement des ensembles de données vidéo spécialisés pour les modèles multimodaux via des requêtes en langage naturel, en combinant récupération de vidéos réelles et synthèse contrôlée.

Chengwei Wu

Publié Mon, 09 Ma
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez cuisiner un repas exquis, mais au lieu d'acheter un plat préparé tout fait dans un supermarché (ce qui correspond aux jeux de données vidéo traditionnels), vous décidez de construire votre propre cuisine ultra-sophistiquée. C'est exactement ce que propose VDCook.

Voici une explication simple de ce projet, imagée pour tout le monde :

🍳 Qu'est-ce que VDCook ?

VDCook est comme un chef de cuisine robotisé et évolutif pour les intelligences artificielles qui regardent des vidéos (les MLLM).

Au lieu de donner aux chercheurs un gros sac de pommes de terre déjà épluchées et figées dans le temps, VDCook leur donne une cuisine complète où ils peuvent commander exactement ce qu'ils veulent, à la minute.

🛒 Le problème : Les vieux supermarchés de données

Jusqu'à présent, construire un jeu de données vidéo ressemblait à acheter un plat congelé :

  1. C'est figé : Une fois le plat sorti du congélateur (le dataset publié), il ne change plus. Si vous voulez ajouter du piment ou changer le plat, vous devez tout recommencer de zéro.
  2. C'est trop gros ou trop petit : Parfois, le sac est trop lourd à porter (trop de données inutiles), ou il ne contient pas l'ingrédient rare dont vous avez besoin (comme des camions dans un chantier ou des images médicales).
  3. C'est difficile à cuisiner : Il faut souvent tout déconstruire pour réorganiser les ingrédients.

🚀 La solution VDCook : La cuisine à la carte

VDCook change la donne en transformant la création de données en un processus dynamique et interactif.

1. La commande vocale (Le "Prompt")

Vous n'avez pas besoin d'être un expert en code. Vous dites simplement à la machine : "Je veux 10 000 vidéos de camions de chantier, avec un bon mouvement, mais pas trop de texte à l'écran."
VDCook comprend votre demande en langage naturel et ajuste les paramètres (taille, qualité, mélange de vidéos réelles et créées).

2. Le marché vivant (L'ingestion MCP)

Au lieu d'avoir un stock fixe, VDCook est connecté à un marché en direct.

  • Il va chercher des vidéos sur le web automatiquement.
  • Il accepte aussi que vous lui donniez vos propres vidéos privées.
  • C'est comme un marché qui se remplit tout seul chaque jour avec des produits frais, sans que vous ayez à aller faire les courses.

3. La préparation intelligente (Le "Cooking")

C'est ici que la magie opère. Au lieu de jeter immédiatement les vidéos qui ne sont pas parfaites, VDCook les analyse et les étiquette comme un chef qui examine chaque ingrédient :

  • "Cette vidéo a beaucoup de mouvement ?" (Score de mouvement)
  • "Y a-t-il beaucoup de texte ?" (OCR)
  • "La qualité de l'image est-elle belle ?"
    Il garde toutes ces informations précieuses. Plus tard, vous pourrez dire : "Donne-moi seulement les vidéos avec beaucoup de mouvement" sans avoir perdu les autres. C'est comme garder tous les légumes au frigo pour pouvoir faire une soupe ou une salade selon l'humeur.

4. Le four à synthèse (Pour les ingrédients rares)

Et si vous voulez des vidéos de quelque chose de très rare, comme un "dragon volant" ou un "accident de voiture très spécifique" ? Il n'y en a pas assez dans la nature.
VDCook utilise une machine à imaginer (l'IA générative) pour créer ces vidéos manquantes à partir de ce qu'elle a déjà appris. C'est comme si le chef savait exactement comment composer un plat avec des ingrédients que vous n'avez pas, en respectant votre style.

🌍 Pourquoi c'est génial ?

  • Pour les chercheurs : Ils peuvent créer des datasets sur mesure pour n'importe quel domaine (médecine, sécurité routière, art chinois) en quelques clics.
  • Pour la communauté : Le système s'améliore tout seul. Plus on l'utilise, plus il apprend à trouver de meilleures vidéos. C'est un écosystème vivant, pas un musée.
  • La preuve par l'exemple : Les auteurs ont montré que si on entraîne une IA avec leurs vidéos de style "peinture à l'encre chinoise", l'IA apprend vraiment à peindre comme un maître, alors qu'avec les vieux datasets, elle échouait.

En résumé

VDCook, c'est passer de l'achat d'un livre de recettes figé à l'installation d'une cuisine intelligente et infinie. Vous décidez ce que vous voulez manger (le dataset), et la cuisine s'adapte, cherche les meilleurs ingrédients, et même crée de nouveaux plats si nécessaire, le tout en vous donnant la recette exacte pour que tout soit reproductible.

C'est un outil qui rend la création de données vidéo aussi simple et flexible que de cuisiner un bon repas à la maison.