VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning
Die Arbeit stellt VisNec vor, ein Rahmenwerk zur Messung der visuellen Notwendigkeit in multimodalen Instruktionsdaten, das durch die Auswahl von nur 15 % der LLaVA-665K-Datenmenge eine Leistung erzielt, die der des gesamten Datensatzes entspricht oder ihn sogar übertrifft.