Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
Het paper introduceert Vision-R1, een multimodaal groot taalmodel dat door middel van een zelfgeconstrueerde dataset en een geavanceerde trainingsstrategie met versterkende leer (RL) de redeneerprestaties aanzienlijk verbetert en daarmee bijna gelijk komt aan de prestaties van OpenAI O1 op wiskundige benchmarks.