Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT
Este artículo presenta CVS, un método de selección de datos sin entrenamiento que identifica muestras de alta calidad para el ajuste fino de modelos visuales-lingüísticos midiendo la discrepancia en la validez de la respuesta con y sin la pregunta, logrando así un mejor rendimiento con menos datos y menor costo computacional.