PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Este trabajo presenta PoSh, una métrica que utiliza grafos de escena para guiar a los modelos de lenguaje grandes como jueces en la evaluación de descripciones de imágenes detalladas, junto con el nuevo conjunto de datos DOCENT para validar su superioridad frente a métodos existentes y medir el progreso de los modelos en dominios complejos como el arte.

Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford, Julia Demarest, Adam Purvis, Keith Krut, Robert Stein, Rina Elster Pantalony, Mohit Bansal, Kathleen McKeown

Publicado 2026-02-27
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que has creado una descripción muy detallada de un cuadro de arte, como si fueras un guía turístico que le cuenta a alguien que no puede ver la obra todo lo que hay en ella: quién está mirando a quién, de qué color es el vestido, si el perro está ladrando o si está durmiendo.

El problema es: ¿Cómo sabes si tu descripción es buena?

Antiguamente, usábamos reglas matemáticas simples que contaban palabras repetidas (como si dijéramos: "¡Bien! Tu descripción tiene la palabra 'perro' y el cuadro tiene un perro"). Pero esto falla cuando las descripciones son largas y complejas. Podrías decir "el perro está durmiendo" cuando en realidad está ladrando, y la regla simple no se daría cuenta.

Aquí es donde entra el equipo de investigadores con su nueva idea, POSH.

1. ¿Qué es POSH? (El "Inspector de Estructuras")

Imagina que POSH es como un arquitecto experto que tiene un plano muy detallado del cuadro (llamado "gráfico de escena").

  • El truco: En lugar de comparar palabra por palabra, POSH convierte tanto tu descripción como la descripción "perfecta" (hecha por un experto) en un mapa de conexiones.
    • Ejemplo: En lugar de solo ver la palabra "hombre", el mapa dice: "Hombre" + "está" + "vertiendo" + "agua" + "sobre" + "mujer".
  • La comparación: POSH toma tu descripción, hace su propio mapa, y luego lo compara con el mapa del experto.
  • El resultado: Si tu mapa dice "el hombre está bebiendo agua" y el del experto dice "el hombre está vertiendo agua", POSH no solo te dice "estás mal", sino que señala exactamente dónde está el error en tu texto: "Oye, aquí confundiste la acción de beber con la de verter".

Es como si un profesor de arte no solo te diera una nota de 5/10, sino que te dijera: "Tu descripción de la nariz del personaje es correcta, pero olvidaste mencionar que lleva un sombrero rojo y confundiste quién está sentado a la izquierda".

2. DOCENT: El nuevo "Examen de Arte"

Para probar si su nuevo inspector (POSH) funciona, los investigadores crearon un nuevo banco de pruebas llamado DOCENT.

  • La analogía: Imagina que todos los exámenes anteriores de descripciones de imágenes eran como describir una foto de una calle con un perro y un árbol. Son fáciles.
  • DOCENT es diferente: Es como describir una pintura renacentista compleja llena de personajes, gestos sutiles, ropa detallada y emociones.
  • Los jueces: No usaron robots para calificar, sino estudiantes de historia del arte. Estos expertos miraron las descripciones generadas por la Inteligencia Artificial y marcaron con un lápiz rojo:
    1. Errores: Cosas que la IA inventó mal (ej. "el hombre tiene bigote" cuando no lo tiene).
    2. Omisiones: Cosas que la IA olvidó mencionar (ej. "no dijo que el fondo era azul").

3. ¿Por qué es importante esto?

Hasta ahora, las IAs eran muy buenas describiendo cosas simples, pero fallaban estrepitosamente en cosas complejas.

  • El problema actual: Si una IA describe un cuadro de guerra y dice "hay soldados", pero olvida mencionar que uno está herido y otro está llorando, las métricas antiguas podrían darle una nota alta porque "soldados" está bien.
  • La solución POSH: POSH es tan detallado que le baja la nota por olvidar esos detalles emocionales y vitales.

4. Los Resultados: ¿Quién ganó?

Los investigadores probaron a las IAs más famosas (como GPT-4o, Claude, y modelos de código abierto) contra este nuevo examen DOCENT usando a POSH como juez.

  • El hallazgo: Incluso las IAs más potentes tienen dificultades. A menudo, describen bien la "acción principal" pero fallan en los detalles secundarios (como la dirección de la mirada o el color de un accesorio).
  • La ventaja de POSH: Funcionó mejor que los jueces humanos en términos de consistencia y fue capaz de detectar errores que otros métodos ignoraban. Además, es abierto y gratuito (cualquiera puede usarlo), a diferencia de otros sistemas que requieren pagar a empresas gigantes de tecnología.

En resumen:

Piensa en POSH como un traductor de "arte a palabras" con lupa.

  • Antes, las IAs describían cuadros como si fueran titulares de periódico: "Hombre con caballo".
  • Ahora, con POSH y el examen DOCENT, estamos empujando a las IAs a describirlos como un poeta o un historiador: "El hombre, con un sombrero de paja desgastado, sostiene las riendas de un caballo castaño que mira hacia el horizonte, mientras una mujer al fondo observa con preocupación".

El objetivo final es que, en el futuro, si una persona ciega usa una aplicación para "ver" un cuadro en un museo, la descripción que escuche sea tan rica, precisa y llena de detalles que pueda imaginar la obra tal como la ve un experto. ¡Y POSH es la herramienta que nos ayuda a lograrlo!