Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT
O artigo propõe o CVS, um método de seleção de dados sem treinamento que utiliza a discrepância na validação de respostas com e sem a pergunta para identificar amostras que exigem raciocínio conjunto visão-linguagem, superando o treinamento com dados completos e reduzindo custos computacionais.