VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

El artículo presenta VB, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de visión y lenguaje para determinar la visibilidad en imágenes y abstenerse de responder cuando la evidencia es insuficiente, demostrando que GPT-4o y Gemini 3.1 Pro lideran este razonamiento entre los modelos evaluados.

Neil Tripathi

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que acabamos de inventar un examen de "sentido común visual" para las inteligencias artificiales (IA). Este examen se llama VB (Benchmark de Visibilidad) y su creador, Neil Tripathi, quiere saber algo muy específico: ¿Puede una IA saber realmente qué puede ver en una foto y, lo más importante, cuándo debe decir "no sé"?

Aquí te lo explico con analogías sencillas:

1. El Problema: La IA que alucina

Imagina que le muestras una foto a un detective muy listo, pero con una regla estricta: "Solo puedes hablar de lo que ves con tus propios ojos en esta foto. Si no está claro, no inventes nada".

Muchas IAs actuales son como detectives que, cuando no ven algo, empiezan a inventar historias. Si la foto es oscura o hay algo tapado, la IA podría decir: "¡Ah, sí, ahí hay un gato!" (cuando en realidad no hay ninguno). Esto es peligroso. Si esa IA controla un coche autónomo y "alucina" que ve a un peatón donde no hay, o no ve a uno que sí está escondido, las consecuencias son graves.

2. La Prueba: El Juego de los "Cambia-Imágenes"

Para probar si la IA es realmente lista o solo está adivinando, los autores crearon un juego con 100 familias de fotos.

Imagina que tienes una foto de una habitación (la Foto Base).

  • Pregunta 1: "¿Se ve la etiqueta de la caja?" (La IA dice: "No, no se ve").
  • El Truco (Edición Mínima): Ahora, movemos la caja un poquito para que la etiqueta se vea claramente (la Foto Editada).
  • Pregunta 2: "¿Se ve la etiqueta de la caja?" (La IA debería decir: "¡Sí!").

Si la IA cambia su respuesta solo cuando cambiamos la foto (y no cuando solo cambiamos las palabras de la pregunta), significa que realmente está "viendo". Si no cambia su respuesta, es que estaba adivinando.

3. Las Tres Respuestas Permitidas

En este examen, la IA tiene tres opciones de respuesta, como un semáforo:

  1. VERDADERO (VISIBLY_TRUE): "¡Sí, lo veo claramente!" (La evidencia está ahí).
  2. FALSO (VISIBLY_FALSE): "¡No, definitivamente no está!" (La evidencia dice lo contrario).
  3. NO RESPONDO (ABSTAIN): "No puedo decidir con seguridad". Esta es la respuesta más importante. Si la foto está borrosa, oscura o el objeto está fuera del encuadre, la IA debe tener la humildad de decir "no sé" en lugar de inventar.

4. ¿Cómo se califica? (El puntaje)

No basta con acertar. El examen mide tres cosas:

  • La Honestidad (CAA): ¿La IA sabe cuándo decir "no sé" en lugar de adivinar? Si dice "no sé" cuando es difícil, gana puntos. Si adivina y se equivoca, pierde muchos.
  • La Sensibilidad (MEFR): ¿La IA nota los cambios pequeños? Si movemos la foto un milímetro y la respuesta cambia, ¡es buena! Si no nota el cambio, es mala.
  • La Confianza (SelRank): ¿La IA sabe cuándo está segura? Si dice "¡Estoy 100% segura!" y acierta, es genial. Si dice "¡Estoy 100% segura!" y se equivoca, es un desastre.

5. Los Resultados: ¿Quién ganó?

Los autores probaron a 9 "detectives" (modelos de IA):

  • Los Campeones: Los modelos más potentes y cerrados, como GPT-4o y Gemini 3.1 Pro, fueron los mejores. Son como detectives veteranos que saben cuándo detenerse y no inventar.
  • Los Nuevos Talentos: El modelo de código abierto Gemma 3 12B (que es más pequeño y gratuito) logró superar a un modelo antiguo y cerrado. ¡Es como si un estudiante de secundaria superara a un profesor jubilado en este examen!
  • El Problema de los "Cegueros": Curiosamente, a la mayoría de las IAs les cuesta más detectar cambios pequeños en la foto (mover un objeto) que detectar cambios en el texto (cambiar una palabra de la pregunta). Es como si fueran mejores leyendo el menú que mirando el plato.

6. ¿Por qué importa esto?

Este examen es como un test de seguridad.

  • Si una IA va a ayudar a un ciego a describir una calle, no debe inventar que hay un semáforo si no lo ve.
  • Si una IA revisa radiografías, no debe decir "todo está bien" si la imagen es borrosa; debe decir "necesitamos otra foto".

En resumen: El paper VB nos dice que las IAs están aprendiendo a "ver" mejor, pero todavía necesitan aprender la lección más difícil de todas: saber cuándo no saber. Y eso es lo que las hace verdaderamente seguras para usar en el mundo real.