HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie gehen in eine riesige, moderne Kunstgalerie. An den Wänden hängen nicht nur alte, echte Meisterwerke chinesischer Tuschmalerei, sondern auch Bilder, die von Computern (Künstlicher Intelligenz) erstellt wurden.

Das Problem ist: Die meisten aktuellen KI-Systeme, die Bilder „sehen" können (die sogenannten VLMs), sind wie Kunststudenten, die gerade erst angefangen haben. Sie können sagen: „Da ist ein Berg, da ist ein Baum, da ist ein Vogel." Aber wenn man sie fragt: „Ist dieses Bild ein Meisterwerk oder nur ein durchschnittlicher Versuch?", antworten sie oft unsicher oder falsch. Ihnen fehlt das tiefe Verständnis für die Seele der chinesischen Kunst – die „Geistige Resonanz" und die „Künstlerische Konzeption".

Hier kommt HanMoVLM ins Spiel. Das ist wie ein alter, erfahrener Kunstexperte, den man in die KI eingebaut hat.

Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Vergleichen:

1. Das Problem: Der „Kunst-Blindheit"-Effekt

Stellen Sie sich vor, Sie geben einem normalen Computerprogramm ein Bild einer chinesischen Tuschlandschaft. Der Computer sieht die Tinte und die Formen. Aber er versteht nicht, warum die Tuschstriche so gesetzt sind. Er bewertet das Bild vielleicht nur danach, wie „realistisch" oder „bunt" es aussieht. Das ist wie wenn jemand ein klassisches Musikstück bewertet, nur weil die Instrumente laut sind, aber nicht versteht, ob die Melodie schön ist.

2. Die Lösung: Der „Experten-Gedankengang" (Chain-of-Thought)

HanMoVLM ist nicht einfach nur ein smarterer Computer. Die Forscher haben ihm eine mentale Checkliste gegeben, die genau so funktioniert, wie ein echter chinesischer Kunstexperte denkt.

Stellen Sie sich vor, der Experte geht durch die Galerie und macht sich Notizen in einem speziellen Notizbuch:

Schritt 1: Was sehe ich? (Identifikation) – „Ah, das ist eine Berglandschaft, kein Porträt."
Schritt 2: Wo ist das Wichtigste? (Region of Interest) – Er zoomt nicht einfach rein, sondern sucht gezielt nach den Stellen, die wirklich zählen: „Schauen Sie sich diesen einzelnen Pinienzweig an. Wie wurde er gemalt?"
Schritt 3: Die Drei-Stufen-Prüfung (Die eigentliche Bewertung) – Hier kommt das Herzstück:
1. Der Pinselstrich (Brush & Ink): Ist die Tinte lebendig oder steif? Ist der Strich kraftvoll wie ein Schwert oder schwach wie ein Wattebausch?
2. Der Atem (Spirit Resonance): Hat das Bild „Leben"? Fließt die Energie durch das Bild, oder wirkt es wie ein totes Foto?
3. Die Stimmung (Artistic Conception): Fühlt man sich in das Bild hineinversetzt? Erzeugt es eine poetische Stimmung, die über das Bild hinausgeht?

Erst wenn er alle drei Schritte durchlaufen hat, gibt er eine Note ab.

3. Das Training: Vom Schüler zum Meister

Damit die KI diesen Weg lernt, haben die Forscher zwei Dinge getan:

Die „Meister-Bibliothek" (HanMo-Bench): Sie haben eine riesige Sammlung von echten Auktionswerken (die besten Meisterwerke) und KI-generierten Bildern gesammelt. Echte Experten haben diese Bilder bewertet und genau erklärt, warum sie eine 5 von 5 oder eine 2 von 5 bekommen haben. Das ist wie ein Lehrbuch mit Lösungen, das die KI gelernt hat.
Der „Richtige Weg"-Belohnung (Reward Function): Während des Trainings hat die KI oft versucht, einfach zu raten. Aber das System hat ihr gesagt: „Nein, du hast den Pinselstrich nicht analysiert, du hast nur das Motiv beschrieben. Das ist falsch." Nur wenn sie den kompletten Experten-Gedankengang (wie oben beschrieben) durchlief, bekam sie eine „Belohnung". So hat sie gelernt, nicht nur zu sehen, sondern zu verstehen.

4. Der Nutzen: Der „Qualitäts-Filter" für KI-Kunst

Warum ist das wichtig?
Stellen Sie sich vor, ein Künstler (eine andere KI) soll 100 Bilder von einer „Berglandschaft im Nebel" malen. Die meisten sind schlecht oder wirken künstlich.
Früher musste ein Mensch alle 100 Bilder durchschauen, um das eine gute zu finden.
Jetzt kann HanMoVLM als unermüdlicher Qualitätskontrolleur fungieren. Er schaut sich alle 100 Bilder an, wendet seinen Experten-Gedankengang an und sagt: „Nimm Bild Nr. 42. Das hat die richtige 'Geistige Resonanz'. Die anderen sind nur oberflächlich schön."

Zusammenfassung

HanMoVLM ist wie ein digitaler Kunstkritiker, der nicht nur die Farben zählt, sondern die Seele der chinesischen Malerei versteht. Er hat gelernt, zwischen einem echten Meisterwerk und einer bloßen Imitation zu unterscheiden, indem er sich an die strengen, jahrhundertealten Regeln der chinesischen Kunst hält. Damit hilft er nicht nur, Kunst besser zu bewerten, sondern auch, bessere KI-Kunst zu erzeugen, indem er die besten Ergebnisse aus einer Menge von Versuchen auswählt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation" auf Deutsch:

1. Problemstellung

Trotz der beeindruckenden allgemeinen visuellen Fähigkeiten von Large Vision-Language Models (VLMs) bleiben diese in spezifischen künstlerischen Domänen, insbesondere bei der Bewertung traditioneller chinesischer Malerei, „künstlerisch blind".
Die Hauptprobleme sind:

Künstlerische Fehljustierung (Artistic Misalignment): Generische Modelle verstehen die kulturelle Tiefe und die nicht-westlichen Ästhetikstandards chinesischer Malerei nicht.
Lücke zwischen Verständnis und Bewertung (Understanding-Evaluation Gap): Modelle können zwar Elemente wie „Berge" oder „Flüsse" identifizieren, sind aber nicht in der Lage, diese nach professionellen Kriterien zu bewerten.
Mangel an hochwertigen Daten: Es fehlt an annotierten Datensätzen, die von echten Experten bewertet wurden und die komplexe Bewertungskriterien (wie Qi Yun oder Yi Jing) abbilden.

2. Methodik

Das Paper stellt HanMoVLM vor, ein spezialisiertes VLM, das durch eine Kombination aus strukturiertem Experten-Wissen, Chain-of-Thought (CoT) und Verstärkungslernen trainiert wird.

A. HanMo-Bench (Datensatz)

Ein neuer Benchmark-Datensatz mit 13.162 Trainings- und 600 Testbildern, der aus zwei Quellen stammt:

Authentische Meisterwerke: Hochauflösende Bilder aus Auktionskatalogen mit professionellen Bewertungen.
Synthetische Kunstwerke: Von T2I-Modellen generierte Bilder, die von Experten bewertet wurden.
Die Daten wurden durch einen mehrstufigen Prozess (Label-Skalierung, Experten-Review) in ein einheitliches Bewertungssystem (0–5 Punkte) überführt.

B. Experten-Level Chain-of-Thought (CoT)

Anstatt eine direkte Bewertung abzugeben, durchläuft das Modell einen strukturierten Denkprozess, der Experten nachahmt:

Inhaltsidentifikation: Beschreibung des Bildinhalts und des Stils.
Themenklassifizierung: Einordnung in die drei Hauptkategorien: Landschaft (Shanshui), Blumen & Vögel (Huaniao) oder Figuren (Renwu).
RoI-Lokalisierung (Region of Interest): Identifikation und Lokalisierung spezifischer, analysierbarer Bereiche im Bild.
Themenspezifische Bewertung: Anwendung spezifischer Kriterien basierend auf dem identifizierten Thema.
Drei-Stufen-Bewertung: Analyse nach den traditionellen chinesischen Kriterien:
- Bi Mo (Pinselführung und Tinte)
- Qi Yun (Geistige Resonanz / Lebendigkeit)
- Yi Jing (Künstlerische Konzeption / Atmosphäre)
Finale Bewertung: Ableitung einer Gesamtnote (0–5).

C. Reinforcement Fine-Tuning (RFT) mit spezialisierten Belohnungsfunktionen

Um die Genauigkeit des CoT zu sichern, wird Group Relative Policy Optimization (GRPO) eingesetzt. Ein neuartiger Belohnungsmechanismus (Reward Function) bewertet nicht nur das Endergebnis, sondern jeden Schritt der Kette:

Accuracy Reward ( $R_{acc}$ ): Misst die Übereinstimmung der finalen Note mit dem Ground Truth.
BERT Reward ( $R_{BERT}$ ): Misst die semantische Ähnlichkeit der generierten Analyse mit der Expertenreferenz.
IoU Reward ( $R_{mIoU}$ ): Bewertet die Genauigkeit der lokalisierten Regionen (Bounding Boxes) und deren Beschreibungen.

D. Test-time Scaling für die Bildgenerierung

HanMoVLM dient als externer Verifizierer für Text-zu-Bild-Modelle. Anstatt das Generierungsmodell neu zu trainieren, werden bei der Inferenz mehrere Kandidatenbilder generiert ( $N$ Samples). HanMoVLM bewertet diese und das Modell wählt das Bild mit der höchsten Expertenbewertung aus (Best-of-N-Strategie).

3. Wichtige Beiträge

HanMo-Bench: Der erste Benchmark, der sich speziell auf die professionelle Bewertung chinesischer Malerei durch VLMs konzentriert und echte Meisterwerke mit KI-generierter Kunst vergleicht.
HanMoVLM-Modell: Ein VLM, das durch Experten-CoT in der Lage ist, strukturierte, tiefgehende künstlerische Analysen durchzuführen, die über reine Objekterkennung hinausgehen.
Granulare Belohnungsfunktion: Ein neuer Ansatz im Reinforcement Learning, der die Qualität des Denkprozesses (CoT) selbst belohnt, was zu höherer Zuverlässigkeit und weniger Halluzinationen führt.
Anwendung in der Generierung: Demonstration, wie ein bewertendes VLM die Qualität von generierter Kunst durch Test-time Scaling signifikant verbessern kann, ohne das Generierungsmodell selbst zu verändern.

4. Ergebnisse

Bewertungsleistung: HanMoVLM (8B) erreicht eine Genauigkeit von 46,67 % bei der Vorhersage der Expertenbewertung (im Vergleich zu ~18 % bei besten generischen Modellen wie GPT-4 oder Qwen-VL).
Korrelation mit Experten: Die menschliche Studie zeigt eine hohe Übereinstimmung mit menschlichen Experten (Kendall's $\tau$ = 0,758; Spearman's $\rho$ = 0,845). Herkömmliche Metriken wie PickScore oder Aesthetic Scores schneiden hier schlecht ab.
Verbesserung der Generierung: Bei der Anwendung auf T2I-Modelle (z. B. Nano-Banana, GPT-Image) konnte HanMoVLM die Qualität der generierten chinesischen Gemälde signifikant steigern, indem es Artefakte und stilistische Inkonsistenzen filterte.
Ablationsstudie: Die Kombination aller drei Belohnungsfunktionen (Accuracy, BERT, IoU) führt zu den besten Ergebnissen; das Weglassen einer Komponente verschlechtert die entsprechende Metrik.

5. Bedeutung

Das Paper schließt eine kritische Lücke zwischen allgemeiner visueller Wahrnehmung und domänenspezifischem Expertenwissen. Es zeigt, dass VLMs durch gezieltes Training mit Experten-Logik und spezialisierten Belohnungsfunktionen nicht nur als passive Beobachter, sondern als aktive, professionelle Kritiker fungieren können. Dies hat weitreichende Implikationen für:

Die digitale Erhaltung und Bewertung von Kulturgut.
Die Verbesserung von KI-generierter Kunst, insbesondere in nicht-westlichen Stilen.
Die Entwicklung von „Test-time Scaling"-Strategien, bei denen ein starkes Verifizierungsmodell die Ausgabe schwächerer Generatoren optimiert.

Zusammenfassend beweist HanMoVLM, dass KI-Systeme lernen können, die subtilen, kulturell verankerten Ästhetikstandards der chinesischen Kunst zu verstehen und anzuwenden.