Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum
Il paper presenta Wiki-R1, un framework di apprendimento per rinforzo basato su un curricolo di generazione dati e campionamento che incentiva il ragionamento multimodale nelle KB-VQA, ottenendo risultati all'avanguardia sui benchmark Encyclopedic VQA e InfoSeek.