OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
Dit paper introduceert OddGridBench, een nieuwe benchmark die aantoont dat multimodale grote taalmodellen tekortschieten in het detecteren van fijne visuele verschillen, en stelt OddGrid-GRPO voor, een versterkingsleerframework dat deze vaardigheid aanzienlijk verbetert.