OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de Inteligencia Artificial (IA) que combinan visión y lenguaje (como los que "ven" una imagen y te la describen) son como niños genios que han leído millones de libros y visto millones de fotos. Son increíbles reconociendo cosas: "¡Eso es un gato!", "¡Esa es una manzana roja!".

Pero, según este nuevo estudio, si le pides a uno de estos "niños genios" que haga algo un poco más complicado, como contar objetos siguiendo un camino específico, se les va la cabeza.

Aquí te explico el paper ORDINALBENCH usando analogías sencillas:

1. El Problema: El "Genio" que se pierde en el laberinto

Los investigadores notaron que estas IAs son muy buenas en tareas estáticas (decir cuántos objetos hay en total), pero fallan estrepitosamente cuando tienen que entender el orden y la posición relativa.

La analogía: Imagina que le pides a un niño que busque "el séptimo juguete" en una fila de 100. Si la fila es recta, lo hace bien. Pero si la fila es un laberinto gigante y tienes que decirle: "Empieza en la puerta, gira a la derecha, salta cada dos cajas y dime qué hay en la posición 250"... ¡el niño se pierde! Se olvida dónde empezó, pierde la cuenta o se confunde con el camino.

2. La Solución: ORDINALBENCH (El "Examen de Orientación")

Para diagnosticar exactamente dónde fallan, los autores crearon ORDINALBENCH. No es solo un examen, es como un simulador de vuelo para la lógica visual de las IAs.

¿Qué hace? Genera miles de imágenes artificiales (como videojuegos simples) donde hay objetos dispuestos en bucles o laberintos.
La prueba: Le da a la IA una regla estricta: "Empieza en el objeto A, camina en sentido horario, y dime cuál es el objeto número 260".
Los niveles de dificultad:
1. El camino: Desde un círculo simple hasta un laberinto complejo.
2. El número: Desde contar hasta el 5, hasta contar hasta el 300 (números que las IAs rara vez ven en sus entrenamientos).
3. El truco: A veces les piden "saltar" (contar cada 3 objetos). Esto es como si les dijeran: "No cuentes 1, 2, 3... cuenta 1, 4, 7...". ¡Esto les rompe el cerebro!

3. ¿Qué descubrieron? (El diagnóstico)

Probaron a las IAs más famosas del mundo (como GPT-5, Gemini, Qwen, etc.) y el resultado fue decepcionante pero revelador:

En tareas fáciles: Se portan bien. Si hay pocos objetos y el camino es recto, aciertan.
En tareas difíciles: Cuando el número es grande (ej. 200) o el camino es un laberinto, su precisión se desploma. Pasan de acertar el 30% a acertar menos del 5% (casi como si estuvieran adivinando al azar).
El fallo de memoria: Las IAs no tienen una "memoria de trabajo" sólida. Empiezan a contar, pero a mitad del camino (digamos, en el objeto 50) se olvidan de dónde estaban o confunden la regla. Es como si un conductor de coche se olvidara de que iba a la izquierda y empezara a ir a la derecha sin darse cuenta.

4. La Metáfora Final: El Viajero con un Mapa

Imagina que la IA es un turista con un mapa muy detallado pero que nunca ha viajado a lugares con miles de calles.

Si le dices: "Ve a la calle 5", el turista lo hace perfecto.
Si le dices: "Camina por este laberinto, gira a la derecha en cada esquina roja, salta los charcos y llega al edificio número 250", el turista se vuelve loco. Se olvida de la regla de girar, pierde la cuenta de las esquinas y termina en un callejón sin salida.

¿Por qué es importante esto?

Los autores dicen que para que las IAs sean verdaderos agentes inteligentes (robots que puedan ayudar en fábricas, navegar por ciudades o usar ordenadores por nosotros), no basta con que "vean" bien. Necesitan aprender a pensar paso a paso, mantener el hilo de una instrucción compleja y no perderse en números grandes.

En resumen:
ORDINALBENCH es el examen de "matemáticas y orientación" que le ha dicho a la Inteligencia Artificial: "Oye, eres muy lista para reconocer cosas, pero necesitas aprender a contar y seguir instrucciones largas sin perder el hilo, porque ahí es donde te estás quedando corta".

¡Y ahora, los científicos tienen un mapa claro de qué deben mejorar en los próximos modelos!

Each language version is independently generated for its own context, not a direct translation.

1. Problema Identificado

A pesar de los avances significativos de los Modelos Visión-Lenguaje (VLM) en diversas tareas multimodales, estos modelos exhiben deficiencias críticas en el razonamiento visual fundamental, específicamente en la comprensión de números ordinales.

La Brecha: Los VLMs actuales suelen fallar al rastrear posiciones relativas y generalizar a índices numéricos grandes (ej. "el objeto N-ésimo").
Causa Probable: Se sospecha que estas fallas se deben a una generalización frágil, exacerbada por la naturaleza de la predicción de tokens siguientes, lo que impide el mantenimiento de un estado interno coherente durante procesos secuenciales complejos.
Limitación de Benchmarks Existentes: Las evaluaciones actuales se centran en conteo cardinal ("cuántos hay") o reconocimiento estático, pero carecen de herramientas para diagnosticar la generalización de la comprensión ordinal procedural (seguir reglas de recorrido, actualizar estados y ejecutar algoritmos de conteo).

2. Metodología: ORDINALBENCH

Los autores presentan ORDINALBENCH, un benchmark diagnóstico diseñado para estandarizar y evaluar la comprensión ordinal en VLMs.

Definición de la Tarea

La tarea central es la identificación del N-ésimo objeto. Dada una imagen y una regla de recorrido, el modelo debe:

Identificar un punto de partida.
Seguir una regla de recorrido (ej. horario, laberinto).
Contar secuencialmente hasta llegar a la posición ordinal $N$ .
Identificar el objeto en esa posición.

Ejes de Control de Dificultad

La dificultad se controla sistemáticamente a través de tres ejes independientes para aislar factores de fallo:

Magnitud Ordinal: Desde números pequeños hasta casos extremos ( $N$ hasta 300), superando lo que suele aparecer en los datos de entrenamiento.
Complejidad de la Disposición:
- Bucle Único (Single-Loop): Rutas cerradas simples (2D/3D).
- Bucle de Laberinto (Maze-Loop): Rutas complejas generadas algorítmicamente sin callejones sin salida, que requieren mantener el estado global de la topología.
Conteo de Objetos: Variación del número total de objetos o tamaño de la cuadrícula para evaluar la carga de memoria de trabajo y la atención.

Características Adicionales

Conteo Saltado (Skip Counting): Se introduce un paso $k > 1$ (contar cada $k$ pasos), obligando al modelo a ejecutar un algoritmo de conteo más complejo en lugar de un seguimiento paso a paso simple.
Generación de Datos: Se utiliza un pipeline automatizado para generar 39,000 pares pregunta-respuesta con datos sintéticos controlados (sin ruido de reconocimiento visual como oclusión o iluminación), utilizando identificadores visuales simples (letras y números).
Salida Estructurada: Se exige a los modelos que generen no solo la respuesta final, sino una traza de razonamiento paso a paso (en formato JSON) que detalla cada paso del conteo.

Métricas de Evaluación

Más allá de la precisión final, el benchmark introduce métricas para diagnosticar la fidelidad del proceso:

Precisión Final (Acc@N): ¿Es correcto el objeto final?
Longest Correct Prefix Normalizado (nLCP): Mide hasta qué punto la secuencia de razonamiento generada es correcta antes de fallar.
Precisión de la Traza Paso a Paso (STA): Evalúa la corrección de cada paso individual en la traza.
Cobertura de la Traza (Cov.): Porcentaje de muestras donde el modelo genera una salida estructurada válida.

3. Contribuciones Clave

Lanzamiento de ORDINALBENCH: Un benchmark diagnóstico reproducible con datos sintéticos escalables, diseñado específicamente para probar los límites de la generalización ordinal bajo condiciones de gran escala numérica y complejidad espacial.
Diagnóstico de Debilidades: Identificación de patrones de fallo característicos en los VLMs de última generación (SOTA) mediante evaluaciones zero-shot.
Marco de Evaluación Avanzado: Propuesta de un protocolo que va más allá de la respuesta final, utilizando trazas estructuradas y métricas de consistencia paso a paso para entender dónde y por qué falla el razonamiento.

4. Resultados Experimentales

Se evaluaron modelos propietarios (GPT-5, Gemini 2.5) y de código abierto (Qwen2.5-VL, InternVL3.5, Molmo) en un entorno zero-shot.

Degradación Severa en Tareas Complejas:
- En tareas simples (Bucle 2D), algunos modelos alcanzaron ~32% de precisión.
- En tareas complejas (Laberinto 2D), la precisión cayó drásticamente (ej. GPT-5 bajó a ~11%, otros modelos por debajo del 5%), acercándose al nivel de azar.
Impacto de la Magnitud Numérica: El rendimiento decae consistentemente a medida que $N$ aumenta (de "dentro del conjunto" a "escala grande"). En condiciones de gran escala ( $N \ge 100$ ), la mayoría de los modelos caen por debajo del 3% de precisión.
Fallo en el Conteo Saltado (Stride > 1): La introducción de saltos en el conteo provocó un colapso inmediato en el rendimiento de todos los modelos, sugiriendo una incapacidad para ejecutar algoritmos secuenciales no triviales.
Problemas de Formato: Modelos como la serie Molmo mostraron tasas de cobertura muy bajas (<80%), indicando dificultades para seguir instrucciones de formato estructurado, lo que impide incluso la evaluación de su razonamiento.
Correlación con Complejidad Visual: En entornos 3D o con muchos objetos, la precisión disminuye más rápido que lo esperado por el azar, indicando problemas de atención sostenida y carga de memoria de trabajo.

5. Significado e Implicaciones

Cuello de Botella del Lenguaje: Los resultados sugieren que los VLMs pueden estar traduciendo información visual a representaciones lingüísticas que pierden la estructura espacial global necesaria para el razonamiento a largo plazo (especialmente en laberintos).
Falta de Conocimiento Procedural: Los modelos poseen conocimiento declarativo (saben qué es un objeto) pero carecen de la capacidad robusta para ejecutar conocimiento procedural (algoritmos de seguimiento y actualización de estado).
Direcciones Futuras: Para desarrollar VLMs más robustos ("agentes visuales"), se propone:
- Implementar representaciones de estado explícitas y estructuradas.
- Diseñar curricula de entrenamiento que enfaticen la ejecución procedural paso a paso.
- Utilizar métricas de trazas (nLCP, STA) en lugar de solo precisión final para evaluar el progreso.
- Realizar pruebas de estrés sistemáticas con escalas numéricas y topologías complejas.

En conclusión, ORDINALBENCH demuestra que, a pesar de su alto rendimiento en tareas estáticas, los VLMs actuales tienen una capacidad de generalización muy limitada para el razonamiento secuencial y ordinal, revelando una brecha fundamental en la inteligencia visual procedural.