Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum
El artículo presenta Wiki-R1, un marco de aprendizaje por refuerzo basado en un currículo de generación de datos y muestreo que incentiva el razonamiento multimodal para la VQA basada en conocimiento, logrando nuevos resultados de vanguardia en los benchmarks Encyclopedic VQA e InfoSeek al cerrar la brecha entre el preentrenamiento y la distribución objetivo.