PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que has creado una descripción muy detallada de un cuadro de arte, como si fueras un guía turístico que le cuenta a alguien que no puede ver la obra todo lo que hay en ella: quién está mirando a quién, de qué color es el vestido, si el perro está ladrando o si está durmiendo.

El problema es: ¿Cómo sabes si tu descripción es buena?

Antiguamente, usábamos reglas matemáticas simples que contaban palabras repetidas (como si dijéramos: "¡Bien! Tu descripción tiene la palabra 'perro' y el cuadro tiene un perro"). Pero esto falla cuando las descripciones son largas y complejas. Podrías decir "el perro está durmiendo" cuando en realidad está ladrando, y la regla simple no se daría cuenta.

Aquí es donde entra el equipo de investigadores con su nueva idea, POSH.

1. ¿Qué es POSH? (El "Inspector de Estructuras")

Imagina que POSH es como un arquitecto experto que tiene un plano muy detallado del cuadro (llamado "gráfico de escena").

El truco: En lugar de comparar palabra por palabra, POSH convierte tanto tu descripción como la descripción "perfecta" (hecha por un experto) en un mapa de conexiones.
- Ejemplo: En lugar de solo ver la palabra "hombre", el mapa dice: "Hombre" + "está" + "vertiendo" + "agua" + "sobre" + "mujer".
La comparación: POSH toma tu descripción, hace su propio mapa, y luego lo compara con el mapa del experto.
El resultado: Si tu mapa dice "el hombre está bebiendo agua" y el del experto dice "el hombre está vertiendo agua", POSH no solo te dice "estás mal", sino que señala exactamente dónde está el error en tu texto: "Oye, aquí confundiste la acción de beber con la de verter".

Es como si un profesor de arte no solo te diera una nota de 5/10, sino que te dijera: "Tu descripción de la nariz del personaje es correcta, pero olvidaste mencionar que lleva un sombrero rojo y confundiste quién está sentado a la izquierda".

2. DOCENT: El nuevo "Examen de Arte"

Para probar si su nuevo inspector (POSH) funciona, los investigadores crearon un nuevo banco de pruebas llamado DOCENT.

La analogía: Imagina que todos los exámenes anteriores de descripciones de imágenes eran como describir una foto de una calle con un perro y un árbol. Son fáciles.
DOCENT es diferente: Es como describir una pintura renacentista compleja llena de personajes, gestos sutiles, ropa detallada y emociones.
Los jueces: No usaron robots para calificar, sino estudiantes de historia del arte. Estos expertos miraron las descripciones generadas por la Inteligencia Artificial y marcaron con un lápiz rojo:
1. Errores: Cosas que la IA inventó mal (ej. "el hombre tiene bigote" cuando no lo tiene).
2. Omisiones: Cosas que la IA olvidó mencionar (ej. "no dijo que el fondo era azul").

3. ¿Por qué es importante esto?

Hasta ahora, las IAs eran muy buenas describiendo cosas simples, pero fallaban estrepitosamente en cosas complejas.

El problema actual: Si una IA describe un cuadro de guerra y dice "hay soldados", pero olvida mencionar que uno está herido y otro está llorando, las métricas antiguas podrían darle una nota alta porque "soldados" está bien.
La solución POSH: POSH es tan detallado que le baja la nota por olvidar esos detalles emocionales y vitales.

4. Los Resultados: ¿Quién ganó?

Los investigadores probaron a las IAs más famosas (como GPT-4o, Claude, y modelos de código abierto) contra este nuevo examen DOCENT usando a POSH como juez.

El hallazgo: Incluso las IAs más potentes tienen dificultades. A menudo, describen bien la "acción principal" pero fallan en los detalles secundarios (como la dirección de la mirada o el color de un accesorio).
La ventaja de POSH: Funcionó mejor que los jueces humanos en términos de consistencia y fue capaz de detectar errores que otros métodos ignoraban. Además, es abierto y gratuito (cualquiera puede usarlo), a diferencia de otros sistemas que requieren pagar a empresas gigantes de tecnología.

En resumen:

Piensa en POSH como un traductor de "arte a palabras" con lupa.

Antes, las IAs describían cuadros como si fueran titulares de periódico: "Hombre con caballo".
Ahora, con POSH y el examen DOCENT, estamos empujando a las IAs a describirlos como un poeta o un historiador: "El hombre, con un sombrero de paja desgastado, sostiene las riendas de un caballo castaño que mira hacia el horizonte, mientras una mujer al fondo observa con preocupación".

El objetivo final es que, en el futuro, si una persona ciega usa una aplicación para "ver" un cuadro en un museo, la descripción que escuche sea tan rica, precisa y llena de detalles que pueda imaginar la obra tal como la ve un experto. ¡Y POSH es la herramienta que nos ayuda a lograrlo!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "POSH: USING SCENE GRAPHS TO GUIDE LLMS-AS-A-JUDGE FOR DETAILED IMAGE DESCRIPTIONS", presentado en la conferencia ICLR 2026.

1. El Problema

A pesar de los avances de los Modelos de Lenguaje y Visión (VLM) en la descripción de imágenes, la evaluación de descripciones detalladas (textos largos y complejos) sigue siendo un desafío crítico:

Inadecuación de métricas existentes: Métricas estándar como CIDEr o SPICE fueron diseñadas para textos cortos (captions) y se centran en errores de identificación de objetos que ya son raros. No son sensibles a errores sutiles en la atribución de atributos o relaciones (ej. quién está vertiendo agua en una escena dinámica).
Falta de granularidad: Las métricas actuales suelen producir una puntuación global "coarsa" (general), lo que impide identificar dónde y por qué falló el modelo (omisiones vs. errores de precisión).
Costo y replicabilidad: La evaluación humana es costosa y lenta. Las métricas basadas en LLMs cerrados (como GPT-4o) son caras, no replicables y carecen de transparencia.
Dominio específico: No existen benchmarks robustos para la descripción de obras de arte, que requieren un nivel de detalle, contexto histórico y precisión en la orientación espacial superior al de las imágenes web comunes.

2. Metodología: POSH

Los autores proponen POSH (PrOofing Scene grapHs), una métrica basada en referencias que utiliza grafos de escena como rúbricas estructuradas para guiar a un LLM abierto (Open-Weight) actuando como juez. El proceso consta de tres pasos:

Extracción de Grafos de Escena:
- Se extraen grafos de escena tanto de la descripción generada como de la referencia experta.
- Se utilizan analizadores de dependencias (Spacy) y resolución de coreferencia (Maverick) para crear una representación estructurada: $G(d) = \langle O, E, K \rangle$ , donde $O$ son objetos, $E$ atributos y $K$ relaciones.
- Esto reduce la diversidad superficial del texto a sus componentes visuales esenciales, preservando las uniones de atributos y relaciones.
Puntuación Granular (QA):
- Se utiliza un LLM abierto (Qwen-3-14b) para realizar preguntas de verificación (QA) basadas en los componentes del grafo.
- Para cada componente (objeto, atributo, relación) de la descripción generada, se pregunta al LLM si está presente en la referencia (y viceversa), utilizando identificadores únicos para desambiguar entidades.
- El LLM asigna una puntuación (1-5) que refleja el grado de presencia/veracidad. Esto permite localizar errores en spans de texto específicos.
Puntuación Coarse (Global):
- Las puntuaciones granulares se agregan para calcular métricas finales interpretables:
  - Errores (Precisión): Promedio de fallos en los componentes generados.
  - Omisión (Recall): Promedio de componentes de la referencia que faltan en la generación.
  - Calidad General: Una combinación de ambas.

3. Nuevo Benchmark: DOCENT

Para validar POSH, los autores introducen DOCENT, un benchmark específico para la descripción detallada de arte:

Datos: 1,750 obras de arte (pinturas, bocetos, esculturas) del Museo Nacional de Arte de EE. UU. (NGA).
Referencias: Descripciones escritas por expertos que siguen pautas de accesibilidad, cubriendo ropa, orientación, posición relativa y mirada.
Generaciones: Descripciones generadas por 4 VLMs (LLaVA-1.6, Molmo, GPT-4o, Claude Sonnet 3.5).
Anotaciones Humanas: 900 juicios realizados por estudiantes y expertos en historia del arte, divididos en:
- Granulares: Identificación de spans de texto específicos que contienen errores u omisiones.
- Coarsos: Clasificación por pares de la calidad general, errores y omisiones.
Complejidad: Las imágenes tienen un 16% más de objetos y casi el doble de personas que benchmarks anteriores, requiriendo descripciones mucho más largas y complejas.

4. Resultados Clave

Los experimentos demuestran que POSH supera a las alternativas existentes:

Correlación con Humanos: En DOCENT, POSH logra una correlación de Spearman ( $\rho$ ) +0.05 superior a las mejores alternativas de peso abierto y supera incluso a GPT-4o como juez en la detección de omisiones y calidad general.
Granularidad: POSH alcanza el F1 más alto en la localización de errores (0.580) y omisiones (0.680), superando a métodos basados en embeddings (4GramEmbed, SGEmbed).
Robustez: Probado en CapArena (imágenes web), POSH mantiene un alto rendimiento, demostrando ser robusto al tipo de imagen, aunque destaca especialmente en escenas complejas (3+ personas) donde otros modelos fallan.
Función de Recompensa: Al utilizar POSH como función de recompensa en Aprendizaje por Refuerzo (RL) con DAPO, se obtienen descripciones significativamente mejores que el ajuste fino supervisado (SFT), reduciendo las omisiones y mejorando la calidad general.
Eficiencia: POSH es rápido (15 minutos para 400 ejemplos en una GPU H100) y totalmente replicable al usar modelos de peso abierto, a diferencia de las soluciones basadas en API.

5. Contribuciones y Significado

Métrica Interpretável: POSH no solo da una puntuación, sino que explica qué falló (ej. "el pájaro no tiene pico descrito" o "la relación de vertido es incorrecta"), facilitando la iteración de modelos.
Benchmarks de Alta Calidad: DOCENT establece un nuevo estándar para evaluar la descripción de arte, un dominio socialmente impactante para la generación de texto asistivo (accesibilidad para personas ciegas).
Avance en Evaluación de VLMs: El trabajo demuestra que los modelos fundacionales aún luchan para cubrir completamente imágenes con dinámicas de escena ricas sin errores, estableciendo una tarea desafiante para medir el progreso futuro.
Accesibilidad: Al mejorar la evaluación y generación de descripciones detalladas, el trabajo contribuye directamente a la creación de textos alternativos ("alt-text") de alta calidad, mejorando la accesibilidad web.

En resumen, POSH y DOCENT ofrecen un marco integral, replicable y de bajo costo para evaluar y mejorar la capacidad de los VLMs para describir el mundo visual con el detalle y la precisión necesarios para aplicaciones del mundo real.

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

1. ¿Qué es POSH? (El "Inspector de Estructuras")

2. DOCENT: El nuevo "Examen de Arte"

3. ¿Por qué es importante esto?

4. Los Resultados: ¿Quién ganó?

En resumen:

1. El Problema

2. Metodología: POSH

3. Nuevo Benchmark: DOCENT

4. Resultados Clave

5. Contribuciones y Significado

Más como este

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora

Detecting Abnormal User Feedback Patterns through Temporal Sentiment Aggregation

Phonological Fossils: Machine Learning Detection of Non-Mainstream Vocabulary in Sulawesi Basic Lexicon