PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstgalerie bezoekt. Je loopt langs een prachtig schilderij en vraagt je af: "Wat zie ik hier precies?" Vroeger konden computers alleen zeggen: "Er is een man en een vrouw." Maar nu, met de nieuwste kunstmatige intelligentie (AI), kunnen ze veel gedetailleerdere verhalen vertellen. Ze kunnen zeggen: "De man in het rode jasje giet water in een kom, terwijl de vrouw erachter lacht."

Maar hier zit een probleem: Hoe weten we of die AI het verhaal goed vertelt?

De huidige meetlatjes voor computers zijn als een oude liniaal die alleen goed werkt voor korte zinnen. Ze kunnen niet goed zien of de AI een detail vergeten is (bijvoorbeeld dat de man een hoed op heeft) of of hij een fout maakt (bijvoorbeeld zeggen dat de vrouw het water giet, terwijl het de man is).

In dit nieuwe onderzoek introduceren de auteurs twee dingen om dit op te lossen: POSH en DOCENT.

1. DOCENT: De nieuwe "Kunsttest"

Stel je voor dat je een examen wilt laten afnemen aan AI's, maar dan niet over wiskunde, maar over het beschrijven van schilderijen.

Het probleem: Bestaande tests gebruiken simpele foto's van internet (zoals een hond op een grasveld). Dat is te makkelijk voor geavanceerde AI.
De oplossing (DOCENT): De auteurs hebben een nieuwe testbank gemaakt met 1.750 echte kunstwerken (schilderijen, schetsen, beelden) uit het National Gallery of Art in Washington.
De "Onderzoekers": In plaats van willekeurige mensen, hebben ze kunstgeschiedenis-studenten ingehuurd. Deze experts kijken naar de AI-teksten en zeggen precies: "Hier is een fout" (bijv. verkeerde kleur) of "Hier ontbreekt iets" (bijv. vergeten dat er een vogel in de boom zit).
Het resultaat: Dit is als een zware, moeilijke examenopgave die laat zien waar AI's echt vastlopen.

2. POSH: De slimme "Kunstcriticus"

Nu hebben we een manier nodig om de AI's te beoordelen zonder dat we urenlang met de hand moeten nakijken. Dat is waar POSH komt kijken.

Stel je voor dat POSH een slimme detective is die twee verhalen vergelijkt:

Het ideale verhaal (geschreven door een menselijke expert).
Het verhaal van de AI.

Hoe werkt POSH? (De Magie)
In plaats van gewoon te tellen hoeveel woorden overeenkomen (wat dom is), doet POSH het volgende:

Stap 1: De Schets maken. POSH leest beide verhalen en maakt er een soort "bouwtekening" van, een scènegrafiek. Het haalt eruit: Wie is er? Wat doen ze? Hoe zien ze eruit?
- Vergelijking: Het is alsof je een recept en een gerecht vergelijkt. In plaats van te kijken of de schaal er hetzelfde uitziet, kijkt POSH of er precies dezelfde ingrediënten in zitten.
Stap 2: De Vraagbaak. POSH gebruikt een andere AI (een "rechter") om vragen te stellen over die bouwtekening.
- Voorbeeldvraag: "Zegt het verhaal van de AI dat de man een hoed op heeft?"
- Als het antwoord "nee" is, maar het ideale verhaal zegt "ja", dan is er een ontbrekend detail.
- Als het antwoord "ja" is, maar de man heeft in het ideale verhaal een pet op, dan is er een fout.
Stap 3: Het Rapport. POSH geeft niet alleen een cijfer (zoals een 7 of een 8), maar vertelt ook waar de fout zit. "Je hebt de kleur van de jurk verkeerd beschreven, maar je hebt de achtergrond wel goed."

Waarom is dit beter?

Transparant: Je weet precies wat er misging.
Herhaalbaar: Het is gratis en open source (geen dure API's nodig).
Slim: Het is beter dan de huidige "topmodellen" (zoals GPT-4o) om te beoordelen of een beschrijving goed is, vooral bij complexe kunst.

Waarom is dit belangrijk?

Dit onderzoek is niet alleen voor kunstliefhebbers. Het helpt bij het maken van toegankelijke teksten voor blinden en slechtzienden.

Als een AI een schilderij beschrijft voor iemand die het niet kan zien, mag er geen detail ontbreken.
Met POSH en DOCENT kunnen onderzoekers nu AI's trainen om deze complexe, menselijke beschrijvingen veel beter te maken.

Kort samengevat:
De auteurs hebben een nieuwe, moeilijke test (DOCENT) gemaakt met echte kunst en een slimme, transparante "rechter" (POSH) die precies kan zien waar een AI een verhaal goed of fout vertelt. Hierdoor kunnen we AI's leren om de wereld (en de kunst) voor iedereen beter te beschrijven.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel Vision-Language Models (VLMs) aanzienlijke vooruitgang hebben geboekt in het genereren van gedetailleerde afbeeldingsbeschrijvingen, blijft de evaluatie hiervan een groot uitdaging.

Onvoldoende bestaande metrics: Standaard metrics zoals CIDEr en SPICE zijn ontworpen voor korte captions en zijn getuned op fouten die tegenwoordig zeldzaam zijn (zoals het verkeerd identificeren van objecten). Ze missen de gevoeligheid voor attributen en relaties die essentieel zijn voor lange teksten.
Gebrek aan granulariteit: Bestaande methoden leveren vaak slechts één ruwe score op, wat geen inzicht geeft in specifieke fouten (zoals verkeerde eigenschappen of ontbrekende details) of waar deze fouten in de tekst voorkomen.
Kosten en reproduceerbaarheid: Menselijke evaluatie is duur en tijdrovend. Alternatieven zoals "LLM-as-a-Judge" (bijv. met GPT-4o) zijn vaak duur (API-kosten), niet volledig reproduceerbaar (gesloten modellen) en bieden geen goed onderbouwde, interpreteerbare scores.
Gebrek aan benchmarks: Er is een gebrek aan benchmarks met gedetailleerde, menselijke beoordelingen (zowel granulaire als ruwe) voor complexe afbeeldingen, zoals kunstwerken.

Methodologie: POSH

De auteurs introduceren POSH (PrOofing Scene grapHs), een nieuwe metric voor het evalueren van gedetailleerde afbeeldingsbeschrijvingen. POSH combineert gestructureerde scene graphs met open-weight Large Language Models (LLMs) als rechter. Het proces verloopt in drie stappen:

Extractie van Scene Graphs:
- POSH extrahert scene graphs uit zowel de gegenereerde beschrijving als de referentie (de "gold standard").
- Deze graphs worden op zinsniveau opgebouwd met behulp van dependency parsing en coreferentie-oplossing.
- De graph bestaat uit objecten ( $O$ ), attributen ( $A$ ) en relaties ( $R$ ), waarbij elk component gelokaliseerd is naar specifieke tekstspannen. Dit behoudt de structuur van "wie doet wat aan wie".
Granulaire Scoring (QA):
- POSH gebruikt de scene graph van de ene tekst als gestructureerde rubric om de andere tekst te evalueren via Vragen en Antwoorden (QA) met een open-weight LLM (in dit geval Qwen-3-14b).
- Voor elk component (object, attribuut, relatie) in de bron-tekst wordt een vraag gegenereerd om te bepalen of dit ook in de doel-tekst staat.
- Om ambiguïteit te voorkomen (bijv. meerdere "mannen" in een scène), worden unieke identificatoren gegenereerd en getest.
- De LLM geeft een score (1-5) voor de aanwezigheid van het component. Dit levert granulaire scores op voor fouten (precision: fouten in de generatie) en weglatingen (recall: ontbrekende details t.o.v. de referentie).
Ruwe Scoring (Coarse Scoring):
- De ruwe scores voor fouten, weglatingen en algehele kwaliteit worden berekend door de granulaire scores te middelen.
- Omdat de ruwe scores direct zijn afgeleid van de granulaire, tekst-gebaseerde scores, is de metric interpreteerbaar: men kan precies zien welke tekstspannen de score beïnvloedden.

Benchmarks: DOCENT

Om POSH te valideren, stellen de auteurs DOCENT voor, een nieuw benchmark-dataset specifiek voor kunst:

Inhoud: 1.750 kunstwerken (schilderijen, schetsen, beelden) van het U.S. National Gallery of Art met expert-geschreven referentiebeschrijvingen.
Complexiteit: De afbeeldingen zijn visueel complexer dan bestaande benchmarks (meer objecten, mensen en relaties).
Evaluatie: Het dataset bevat 900 menselijke oordelen van kunstgeschiedenis-studenten en experts, verdeeld in:
- Granulaire oordelen: Identificatie van specifieke tekstspannen met fouten of weglatingen.
- Ruwe oordelen: Pairwise ranking van generaties op basis van fouten, weglatingen en algehele kwaliteit.

Belangrijkste Resultaten

De auteurs hebben POSH getest tegen bestaande metrics (zoals SPICE, CAPTURE, CLIPScore) en LLM-based judges (zoals GPT-4o, LLaVA-Critic).

Superieure correlatie met menselijke oordelen:
- Op de DOCENT-benchmark bereikt POSH een sterkere correlatie met menselijke scores dan alle bestaande open-weight alternatieven en zelfs beter dan GPT-4o als judge.
- Voor het voorspellen van weglatingen (recall) en algehele kwaliteit scoort POSH significant hoger (+0.05 Spearman $\rho$ voor kwaliteit).
- POSH is de beste reproduceerbare metric (geen API-afhankelijkheid).
Robuustheid:
- Op het CapArena-dataset (web-afbeeldingen) presteert POSH eveneens sterk, wat aantoont dat het robuust is voor verschillende beeldtypes.
- Bij complexe scènes (3+ personen) presteert POSH zelfs beter dan de veel grotere LLaVA-Critic.
POSH als Reward Function:
- De auteurs toonden aan dat POSH effectief kan worden gebruikt als beloningsfunctie (reward function) in Reinforcement Learning (RL).
- Een model getraind met POSH als reward (via DAPO) produceerde betere beschrijvingen dan een model dat alleen met Supervised Fine-Tuning (SFT) was getraind, met name door minder details over te slaan.
Analyse van Modelprestaties:
- Met behulp van POSH en DOCENT bleek dat zelfs geavanceerde foundation modellen moeite hebben met volledige, foutloze dekking van afbeeldingen met rijke scene-dynamiek. Open modellen presteren goed op het vermijden van fouten, maar blijven achter bij het dekken van alle details (weglatingen) vergeleken met gesloten modellen.

Significantie en Impact

Interpreteerbaarheid: In tegenstelling tot "black-box" LLM-judges, biedt POSH inzichtelijke feedback door fouten te lokaliseren in specifieke tekstspannen. Dit is cruciaal voor het itereren van prompts en modellen.
Reproduceerbaarheid en Kosten: Omdat POSH volledig gebaseerd is op open-weight modellen en lokale inferentie, is het goedkoop en perfect reproduceerbaar, wat de adoptie door de onderzoeksgemeenschap en praktijken vergemakkelijkt.
Toegang tot Kunst en Toegankelijkheid: De focus op gedetailleerde beschrijvingen van kunstwerken heeft directe implicaties voor toegankelijkheid (accessibility). Het stelt systemen in staat om hoogwaardige "alt-text" te genereren voor blinden en slechtzienden, een gebied waar bestaande modellen vaak tekortschieten.
Nieuwe Standaard: DOCENT en POSH stellen een nieuwe, uitdagende standaard voor het evalueren van VLMs, die verder gaat dan simpele objectherkenning naar diepgaand semantisch begrip van relaties en context.

Samenvattend introduceert dit werk een nieuwe, robuuste en interpreteerbare methode om de kwaliteit van gedetailleerde afbeeldingsbeschrijvingen te meten, ondersteund door een uniek benchmark-dataset dat de complexiteit van kunstwerken adresseert.

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

1. DOCENT: De nieuwe "Kunsttest"

2. POSH: De slimme "Kunstcriticus"

Waarom is dit belangrijk?

Probleemstelling

Methodologie: POSH

Benchmarks: DOCENT

Belangrijkste Resultaten

Significantie en Impact

Meer zoals dit

Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Skeleton-based Coherence Modeling in Narratives

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets