OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
Ce papier présente OddGridBench, un benchmark contrôlé révélant les lacunes des modèles de langage multimodaux dans la détection de discrepancies visuelles fines, et propose OddGrid-GRPO, un cadre d'apprentissage par renforcement qui améliore significativement cette capacité grâce à un curriculum et des récompenses spatiales.