OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
O artigo apresenta o OddGridBench, um benchmark controlado que revela a baixa sensibilidade dos Modelos de Linguagem Multimodal (MLLMs) a discrepâncias visuais finas, e propõe o OddGrid-GRPO, um framework de aprendizado por reforço que melhora significativamente essa capacidade através de aprendizado curricular e recompensas sensíveis à distância espacial.