PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Die KI sieht mehr, als sie sagen kann

Stellen Sie sich vor, Sie haben einen sehr talentierten Maler (die KI), der Ihnen ein Bild beschreibt. Früher reichte es, wenn er sagte: „Da ist ein Hund." Das war einfach zu prüfen. Aber heute wollen wir, dass er Details liefert: „Da ist ein kleiner, brauner Hund, der auf einem roten Teppich sitzt und traurig in die Ferne schaut."

Das Problem? Wie prüfen wir, ob diese lange, detaillierte Beschreibung wirklich gut ist?

Die alten Maßstäbe (wie CIDEr oder SPICE) sind wie ein Lineal, das nur für kurze Sätze gemacht wurde. Sie zählen nur, wie viele Wörter übereinstimmen. Wenn die KI sagt „Der Hund sitzt" und der Mensch „Der Hund liegt", zählen die alten Maßstäbe das als Fehler, obwohl die Bedeutung fast gleich ist. Oder schlimmer: Sie merken gar nicht, dass die KI den Hund auf den falschen Teppich gesetzt hat.
Der menschliche Prüfer ist zwar genau, aber extrem teuer und langsam. Jemand muss stundenlang lesen und vergleichen. Das geht nicht für jede neue KI-Version.

Die Lösung: POSH – Der „Architekt" unter den Prüfern

Die Forscher haben POSH entwickelt. Der Name steht für PrOofing Scene grapHs (Prüfung von Szenengraphen).

Die Analogie: Der Bauplan
Stellen Sie sich vor, die Bildbeschreibung ist ein Haus.

Der Szenengraph (Der Bauplan): POSH nimmt die Beschreibung und zerlegt sie in einen strukturierten Bauplan. Es fragt: „Welche Objekte gibt es? (Hund, Teppich). Welche Eigenschaften haben sie? (braun, klein). Wie hängen sie zusammen? (Hund auf Teppich)."
Der Prüfer (Der LLM-Richter): Anstatt die Texte Wort für Wort zu vergleichen, nutzt POSH eine andere KI (einen „Richter"), um diesen Bauplan mit dem Originalbild (oder einer perfekten Referenzbeschreibung) abzugleichen.
Das Ergebnis: Der Richter sagt nicht nur „Gut" oder „Schlecht". Er zeigt genau an: „Hier hast du den Hund vergessen" (Fehler im Detail) oder „Hier hast du gesagt, der Hund sei grün, obwohl er braun ist" (Falsche Eigenschaft).

POSH ist wie ein intelligenter Bauinspektor, der nicht nur schaut, ob das Haus steht, sondern prüft, ob die Fenster an der richtigen Stelle sind und ob die Farbe stimmt. Und das Beste: Er ist kostenlos, schnell und jeder kann ihn nutzen (im Gegensatz zu teuren, geschlossenen KI-Modellen).

Der neue Test: DOCENT – Die Kunstgalerie

Um zu beweisen, dass POSH gut funktioniert, brauchten die Forscher einen schwierigen Test. Sie haben DOCENT geschaffen.

Die Analogie: Die Kunstgalerie
Statt einfache Fotos von Hunden oder Autos zu nehmen, haben sie sich Bilder aus der National Gallery of Art ausgesucht.

Warum Kunst? Kunst ist komplex. Ein Gemälde kann 20 Personen zeigen, die alle unterschiedliche Kleidung tragen, in verschiedene Richtungen schauen und miteinander interagieren. Das ist wie ein riesiges Puzzle.
Die Experten: Sie haben Kunststudenten und -historiker engagiert, um diese Bilder zu beschreiben. Diese Beschreibungen sind so detailliert, dass sie als „perfekte Vorlage" dienen.
Der Test: Verschiedene KIs (von kleinen Open-Source-Modellen bis zu den teuersten Closed-Source-KIs wie GPT-4o) mussten diese Bilder beschreiben. Die menschlichen Experten haben dann geprüft: „Wo hat die KI einen Fehler gemacht? Was hat sie vergessen?"

Was haben sie herausgefunden?

POSH ist der beste Prüfer: POSH hat die menschlichen Bewertungen besser vorhergesagt als alle anderen existierenden Methoden – sogar besser als die sehr teuren, geschlossenen KI-Modelle (wie GPT-4o), die als Prüfer eingesetzt werden.
KI hat immer noch Probleme mit Details: Selbst die besten KIs schaffen es oft nicht, jedes Detail in einem komplexen Kunstwerk zu erfassen. Sie vergessen oft, wer genau wen ansieht oder welche Farbe ein Kleidungsstück hat.
POSH macht die KI besser: Wenn man POSH als „Belohnungssystem" für das Training der KI verwendet (statt nur menschliche Beispiele nachzuahmen), lernen die KIs, detailliertere und genauere Beschreibungen zu schreiben.

Warum ist das wichtig?

Dies ist nicht nur akademisches Spielzeug.

Barrierefreiheit: Für blinde oder sehbehinderte Menschen sind detaillierte Bildbeschreibungen („Alt-Text") oft das einzige Fenster zur Welt. Wenn eine KI sagt „Da ist ein Bild", hilft das wenig. Wenn sie sagt „Ein Mann in einem blauen Mantel hilft einem Kind, eine Treppe hochzukommen", ist das wertvoll.
Vertrauen: Mit POSH können Entwickler schneller und günstiger testen, ob ihre KIs wirklich besser werden, ohne Tausende von Stunden menschlicher Prüfarbeit zu bezahlen.

Zusammenfassend: Die Forscher haben einen neuen, cleveren „Kunstkenner" (POSH) und eine neue „Kunstgalerie" (DOCENT) gebaut, um sicherzustellen, dass unsere KI nicht nur oberflächlich schaut, sondern die Welt wirklich versteht und genau beschreiben kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Bewertung von detaillierten Bildbeschreibungen durch Vision-Language-Modelle (VLMs) stellt eine erhebliche Herausforderung dar.

Limitationen bestehender Metriken: Standardmetriken wie CIDEr oder SPICE wurden für kurze Bildunterschriften entwickelt und sind für lange, komplexe Texte ungeeignet. Sie erkennen häufige Fehler (wie falsche Objekterkennung) nicht mehr, da diese bei modernen Modellen selten geworden sind. Stattdessen sind Modelle anfällig für subtilere Fehler wie falsche Attributzuordnungen (z. B. „wer gießt das Wasser?") oder das Auslassen wichtiger Details.
Mangel an Granularität: Bestehende Metriken liefern oft nur einen groben Gesamtscore, der keine Einblicke in spezifische Fehlerquellen (Präzision vs. Recall) oder Textbereiche gibt. Dies erschwert die Iteration von Modellen und Prompts.
Fehlende Benchmarks: Es gibt kaum Datensätze mit menschlichen Urteilen auf granularer Ebene (Fehler und Auslassungen in spezifischen Textspannen) für komplexe Bildinhalte wie Kunstwerke.
Kosten und Reproduzierbarkeit: Menschliche Evaluation ist teuer und zeitaufwendig. Closed-Source-LLMs als Richter (Judge) sind teuer, nicht vollständig reproduzierbar und oft intransparent.

2. Methodik: POSH

Die Autoren stellen POSH (PrOofing Scene grapHs) vor, eine neue Metrik zur Bewertung detaillierter Bildbeschreibungen. POSH kombiniert strukturierte Szenengraphen mit der Flexibilität von LLMs als Richter.

Der Prozess läuft in drei Schritten ab:

Extraktion von Szenengraphen:
- Aus der generierten Beschreibung und der Referenzbeschreibung werden Szenengraphen extrahiert.
- Diese Graphen bestehen aus Objekten ( $O$ ), Attributen ( $E$ ) und Relationen ( $K$ ).
- Um die Oberflächenvielfalt zu reduzieren, werden dependency parsing und Coreferenz-Resolution verwendet, um Objekte zu verknüpfen und ihre Textspannen zu lokalisieren.
Granulares Scoring (QA-basiert):
- Die extrahierten Graphen dienen als strukturierte Rubriken.
- Ein offenes LLM (Qwen-3-14B) wird per Prompting (Question Answering) angewiesen, für jede Komponente des einen Graphen zu prüfen, ob sie im anderen Text vorhanden ist.
- Um Mehrdeutigkeiten zu vermeiden (z. B. bei mehreren Männern), werden eindeutige Identifikatoren generiert (z. B. „der Mann im weißen Hemd").
- Das LLM bewertet das Vorhandensein auf einer Skala von 1 bis 5.
- Daraus werden Granular-Scores für Fehler (Präzision, wenn ein Element im Generierten, aber nicht im Referenztext ist) und Auslassungen (Recall, wenn ein Element im Referenztext fehlt) berechnet.
Kohärentes Scoring (Aggregation):
- Die groben Scores (Mistakes, Omissions, Overall Quality) werden durch Mittelwertbildung der granularer Scores abgeleitet.
- Dies gewährleistet Interpretierbarkeit: Ein niedriger Gesamtscore kann direkt auf spezifische Fehlerarten zurückgeführt werden.

3. Der DOCENT-Benchmark

Um POSH zu validieren, wurde DOCENT (Detailed Description of Artwork for Evaluation of Novel Texts) eingeführt.

Inhalt: 1.750 Kunstwerke (Gemälde, Skizzen, Skulpturen) aus der National Gallery of Art (NGA) mit Experten-Referenzbeschreibungen.
Komplexität: Die Bilder sind visuell komplexer als in bestehenden Benchmarks (mehr Objekte, Personen, dynamische Szenen). Die Referenztexte sind deutlich länger und detaillierter.
Annotation: Für 100 Bilder wurden Generierungen von vier VLMs (LLaVA-1.6, Molmo, GPT-4o, Claude 3.5) erstellt.
Urteile: 24 Kunstgeschichts-Studenten und Experten lieferten:
- Granulare Urteile: Markierung spezifischer Textspannen für Fehler und Auslassungen (ca. 18 Min./Bild).
- Grobe Urteile: Paarweise Vergleiche der Qualität (ca. 5 Min./Bild).
Datenmenge: 300 granulare und 600 grobe Urteile.

4. Wichtige Beiträge

POSH-Metrik: Eine interpretierbare, reproduzierbare und kostengünstige Metrik, die Szenengraphen nutzt, um LLMs als Richter zu führen. Sie liefert sowohl grobe als auch granular lokalisierte Scores.
DOCENT-Benchmark: Der erste Benchmark für detaillierte Bildbeschreibungen im Kunstbereich mit Experten-Referenzen und menschlichen Urteilen auf zwei Ebenen (granular und grob).
Reward-Function: Demonstration, dass POSH als Belohnungsfunktion für Reinforcement Learning (RL) effektiv ist und bessere Ergebnisse liefert als reines Supervised Fine-Tuning (SFT).
Evaluierung von Modellen: Eine umfassende Analyse des Leistungsunterschieds zwischen Open-Weight- und Closed-Source-Modellen bei der Beschreibung komplexer Kunstwerke.

5. Ergebnisse

Korrelation mit menschlichen Urteilen:
- POSH korreliert stärker mit menschlichen Bewertungen als alle anderen reproduzierbaren Metriken (inkl. SPICE, CAPTURE, LLaVA-Critic) und schlägt sogar GPT-4o als Richter.
- Verbesserung der Spearman-Korrelation ( $\rho$ ) um +0,05 gegenüber den besten Open-Weight-Alternativen.
- POSH ist robust gegenüber Bildtypen (validiert auch auf dem CapArena-Datensatz mit Web-Bildern).
Granulare Leistung:
- POSH erreicht die höchsten F1-Scores bei der Lokalisierung von Fehlern (0,580) und Auslassungen (0,680) im Vergleich zu Embedding-basierten Baselines.
Reward-Function:
- Modelle, die mit POSH als Reward-Funktion (via DAPO) trainiert wurden, zeigten weniger Auslassungen und eine höhere Gesamtqualität als SFT-Modelle, obwohl sie leicht mehr Präzisionsfehler machten.
Modellvergleich:
- Selbst die besten Modelle (wie GPT-4o) decken nur ca. 50,1 % der visuellen Informationen in den Referenztexten ab.
- Open-Source-Modelle sind bei Fehlern konkurrenzfähig, hinken aber bei der Vollständigkeit (Auslassungen) hinter geschlossenen Modellen zurück.

6. Bedeutung und Ausblick

Fortschrittsmessung: POSH und DOCENT etablieren eine neue, anspruchsvolle Aufgabe, um den Fortschritt von VLMs bei der Erfassung komplexer Szenen dynamiken zu messen.
Barrierefreiheit: Die Arbeit trägt direkt zur Verbesserung der „Alt-Text"-Generierung für sehbehinderte Menschen bei, da detaillierte und fehlerfreie Beschreibungen für die Zugänglichkeit von Kunstwerken entscheidend sind.
Reproduzierbarkeit: Da POSH vollständig auf Open-Weight-Modellen basiert und der Code/Datensatz öffentlich verfügbar ist, wird eine demokratischere und überprüfbare Forschung in diesem Bereich ermöglicht.
Zukunft: Die Fähigkeit, Fehler auf Textebene zu lokalisieren, eröffnet neue Wege für Token-Level-Guidance beim Fine-Tuning von Modellen.

Zusammenfassend bietet das Paper einen robusten Rahmen, um die Lücke zwischen der Fähigkeit von VLMs, Bilder zu „sehen", und ihrer Fähigkeit, diese visuellen Informationen präzise und vollständig in Text zu übersetzen, zu schließen.

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Das große Problem: Die KI sieht mehr, als sie sagen kann

Die Lösung: POSH – Der „Architekt" unter den Prüfern

Der neue Test: DOCENT – Die Kunstgalerie

Was haben sie herausgefunden?

Warum ist das wichtig?

1. Problemstellung

2. Methodik: POSH

3. Der DOCENT-Benchmark

4. Wichtige Beiträge

5. Ergebnisse

6. Bedeutung und Ausblick

Mehr davon

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora