RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
O artigo apresenta o RewardMap, um framework de aprendizado por reforço em múltiplos estágios que supera o desafio de recompensas esparsas no raciocínio visual detalhado de modelos de linguagem multimodal, utilizando o conjunto de dados ReasonMap-Plus e um design de recompensa sensível à dificuldade para alcançar melhorias consistentes em tarefas de raciocínio espacial e visual.