Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT
Ce papier présente CVS, une méthode de sélection de données sans entraînement qui identifie les échantillons nécessitant un raisonnement conjoint vision-langage en mesurant l'impact de la question sur la validité d'une réponse, permettant ainsi d'améliorer les performances des modèles tout en réduisant les coûts computationnels.