PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Die Arbeit stellt PoSh vor, eine Metrik, die Szenengraphen nutzt, um LLMs als Richter bei der Bewertung detaillierter Bildbeschreibungen zu leiten, und validiert diese mithilfe des neuen DOCENT-Datensatzes mit Kunstwerken, um die Leistungsfähigkeit von Vision-Language-Modellen in diesem anspruchsvollen Bereich besser zu erfassen.

Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford, Julia Demarest, Adam Purvis, Keith Krut, Robert Stein, Rina Elster Pantalony, Mohit Bansal, Kathleen McKeown

Veröffentlicht 2026-02-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Die KI sieht mehr, als sie sagen kann

Stellen Sie sich vor, Sie haben einen sehr talentierten Maler (die KI), der Ihnen ein Bild beschreibt. Früher reichte es, wenn er sagte: „Da ist ein Hund." Das war einfach zu prüfen. Aber heute wollen wir, dass er Details liefert: „Da ist ein kleiner, brauner Hund, der auf einem roten Teppich sitzt und traurig in die Ferne schaut."

Das Problem? Wie prüfen wir, ob diese lange, detaillierte Beschreibung wirklich gut ist?

  • Die alten Maßstäbe (wie CIDEr oder SPICE) sind wie ein Lineal, das nur für kurze Sätze gemacht wurde. Sie zählen nur, wie viele Wörter übereinstimmen. Wenn die KI sagt „Der Hund sitzt" und der Mensch „Der Hund liegt", zählen die alten Maßstäbe das als Fehler, obwohl die Bedeutung fast gleich ist. Oder schlimmer: Sie merken gar nicht, dass die KI den Hund auf den falschen Teppich gesetzt hat.
  • Der menschliche Prüfer ist zwar genau, aber extrem teuer und langsam. Jemand muss stundenlang lesen und vergleichen. Das geht nicht für jede neue KI-Version.

Die Lösung: POSH – Der „Architekt" unter den Prüfern

Die Forscher haben POSH entwickelt. Der Name steht für PrOofing Scene grapHs (Prüfung von Szenengraphen).

Die Analogie: Der Bauplan
Stellen Sie sich vor, die Bildbeschreibung ist ein Haus.

  1. Der Szenengraph (Der Bauplan): POSH nimmt die Beschreibung und zerlegt sie in einen strukturierten Bauplan. Es fragt: „Welche Objekte gibt es? (Hund, Teppich). Welche Eigenschaften haben sie? (braun, klein). Wie hängen sie zusammen? (Hund auf Teppich)."
  2. Der Prüfer (Der LLM-Richter): Anstatt die Texte Wort für Wort zu vergleichen, nutzt POSH eine andere KI (einen „Richter"), um diesen Bauplan mit dem Originalbild (oder einer perfekten Referenzbeschreibung) abzugleichen.
  3. Das Ergebnis: Der Richter sagt nicht nur „Gut" oder „Schlecht". Er zeigt genau an: „Hier hast du den Hund vergessen" (Fehler im Detail) oder „Hier hast du gesagt, der Hund sei grün, obwohl er braun ist" (Falsche Eigenschaft).

POSH ist wie ein intelligenter Bauinspektor, der nicht nur schaut, ob das Haus steht, sondern prüft, ob die Fenster an der richtigen Stelle sind und ob die Farbe stimmt. Und das Beste: Er ist kostenlos, schnell und jeder kann ihn nutzen (im Gegensatz zu teuren, geschlossenen KI-Modellen).

Der neue Test: DOCENT – Die Kunstgalerie

Um zu beweisen, dass POSH gut funktioniert, brauchten die Forscher einen schwierigen Test. Sie haben DOCENT geschaffen.

Die Analogie: Die Kunstgalerie
Statt einfache Fotos von Hunden oder Autos zu nehmen, haben sie sich Bilder aus der National Gallery of Art ausgesucht.

  • Warum Kunst? Kunst ist komplex. Ein Gemälde kann 20 Personen zeigen, die alle unterschiedliche Kleidung tragen, in verschiedene Richtungen schauen und miteinander interagieren. Das ist wie ein riesiges Puzzle.
  • Die Experten: Sie haben Kunststudenten und -historiker engagiert, um diese Bilder zu beschreiben. Diese Beschreibungen sind so detailliert, dass sie als „perfekte Vorlage" dienen.
  • Der Test: Verschiedene KIs (von kleinen Open-Source-Modellen bis zu den teuersten Closed-Source-KIs wie GPT-4o) mussten diese Bilder beschreiben. Die menschlichen Experten haben dann geprüft: „Wo hat die KI einen Fehler gemacht? Was hat sie vergessen?"

Was haben sie herausgefunden?

  1. POSH ist der beste Prüfer: POSH hat die menschlichen Bewertungen besser vorhergesagt als alle anderen existierenden Methoden – sogar besser als die sehr teuren, geschlossenen KI-Modelle (wie GPT-4o), die als Prüfer eingesetzt werden.
  2. KI hat immer noch Probleme mit Details: Selbst die besten KIs schaffen es oft nicht, jedes Detail in einem komplexen Kunstwerk zu erfassen. Sie vergessen oft, wer genau wen ansieht oder welche Farbe ein Kleidungsstück hat.
  3. POSH macht die KI besser: Wenn man POSH als „Belohnungssystem" für das Training der KI verwendet (statt nur menschliche Beispiele nachzuahmen), lernen die KIs, detailliertere und genauere Beschreibungen zu schreiben.

Warum ist das wichtig?

Dies ist nicht nur akademisches Spielzeug.

  • Barrierefreiheit: Für blinde oder sehbehinderte Menschen sind detaillierte Bildbeschreibungen („Alt-Text") oft das einzige Fenster zur Welt. Wenn eine KI sagt „Da ist ein Bild", hilft das wenig. Wenn sie sagt „Ein Mann in einem blauen Mantel hilft einem Kind, eine Treppe hochzukommen", ist das wertvoll.
  • Vertrauen: Mit POSH können Entwickler schneller und günstiger testen, ob ihre KIs wirklich besser werden, ohne Tausende von Stunden menschlicher Prüfarbeit zu bezahlen.

Zusammenfassend: Die Forscher haben einen neuen, cleveren „Kunstkenner" (POSH) und eine neue „Kunstgalerie" (DOCENT) gebaut, um sicherzustellen, dass unsere KI nicht nur oberflächlich schaut, sondern die Welt wirklich versteht und genau beschreiben kann.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →