RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
Il paper presenta RewardMap, un framework di apprendimento per rinforzo multi-fase che risolve il problema delle ricompense sparse nel ragionamento visivo fine-granularità introducendo il dataset ReasonMap-Plus e un meccanismo di ricompensa adattivo alla difficoltà, ottenendo significativi miglioramenti nelle capacità di ragionamento spaziale e visivo dei modelli linguistici multimodali.