Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks
El artículo presenta Ref-Adv, un nuevo benchmark diseñado para evaluar la capacidad de razonamiento visual y fundamentación de los modelos de lenguaje multimodal en tareas de expresión de referencia, revelando que, a pesar de su alto rendimiento en conjuntos de datos existentes, estos modelos dependen en gran medida de atajos y carecen de un razonamiento genuino ante desafíos más rigurosos.