Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT
Il paper propone CVS, un metodo di selezione dei dati privo di addestramento che utilizza un VLLM congelato per identificare campioni che richiedono un ragionamento congiunto visione-linguaggio, migliorando le prestazioni dei modelli multimodali con meno dati e costi computazionali ridotti.