Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT
Dit paper introduceert CVS, een trainingsvrije methode voor het selecteren van hoogwaardige multimodale data voor visueel-taalmodellen door de discrepantie in antwoordvaliditeit met en zonder de vraag te meten, waardoor de prestaties aanzienlijk worden verbeterd met minder data en lagere rekenkosten.