Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward
Il paper introduce Perception-R1, un metodo che migliora le capacità di ragionamento multimodale dei modelli MLLM attraverso un nuovo premio di percezione visiva basato sulla coerenza tra le annotazioni testuali e le risposte generate, ottenendo prestazioni all'avanguardia con un dataset di addestramento ridotto.