OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models
O artigo apresenta o OrdinalBench, um novo conjunto de dados de benchmark com 39.000 pares de perguntas e respostas projetado para diagnosticar as limitações de generalização de Modelos Visão-Linguagem na compreensão de números ordinais, revelando que modelos de ponta sofrem degradação significativa ao lidar com grandes índices e caminhos complexos.