Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

Die Arbeit stellt Venus vor, ein zweistufiges Framework, das auf dem neu eingeführten AesGuide-Datensatz aufbaut, um multimodale Large Language Models durch ästhetische Anleitungsfähigkeiten zu stärken und damit sowohl proaktive fotografische Beratung als auch den state-of-the-art ästhetischen Zuschnitt von Bildern zu ermöglichen.

Tianxiang Du, Hulingxiao He, Yuxin Peng

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hältst dein Smartphone in der Hand und machst ein Foto von einem wunderschönen alten Gebäude oder einem Sonnenuntergang. Du bist stolz auf das Bild, aber es fehlt etwas. Es wirkt nicht „professionell". Vielleicht ist der Himmel zu leer, das Motiv ist schief oder es gibt zu viele störende Dinge im Hintergrund.

Ein professioneller Fotograf würde dir sofort sagen: „Mach einen Schritt nach links, neige die Kamera ein bisschen und warte, bis die Wolke genau dort ist." Aber die meisten von uns haben keinen Fotografen im Kopf.

Genau hier kommt Venus ins Spiel – ein neues KI-System, das von Forschern der Peking-Universität entwickelt wurde. Man kann sich Venus wie einen digitalen Fotolehrer vorstellen, der nicht nur schaut, sondern dir auch sagt, wie du das Bild verbessern kannst.

Hier ist die einfache Erklärung, wie das funktioniert, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Die „Ja-Sager"-KI

Bisher waren die meisten KI-Modelle (wie GPT-4o) bei Fotos eher wie ein übertrieben höflicher Freund. Wenn du ihm ein schlechtes Foto zeigst, sagt er: „Wow, tolle Farben! Sehr schön!" Er findet keine Fehler und gibt dir keinen echten Rat. Er ist ein „Ja-Sager", der nicht helfen kann, das Bild wirklich zu verbessern.

2. Die Lösung: Ein neuer Lehrer namens „AesGuide"

Die Forscher haben gemerkt, dass es an Daten fehlt. Also haben sie AesGuide geschaffen. Stell dir das wie ein riesiges Lehrbuch für Fotografie vor, das mit 10.000 echten Fotos gefüllt ist.

  • Bei jedem Foto steht nicht nur „schön" oder „hässlich" dabei.
  • Es gibt eine Bewertung (wie bei einer Schulnote).
  • Es gibt eine Analyse (Warum ist das Bild gut oder schlecht?).
  • Und das Wichtigste: Es gibt konkrete Anweisungen (z. B. „Schneide den linken Rand ab" oder „Mach das Foto aus einer tieferen Perspektive").

Dieses Lehrbuch wurde von echten Fotoprofis geprüft, damit die Ratschläge wirklich gut sind.

3. Wie Venus lernt: Zwei Schritte zum Erfolg

Venus ist wie ein Schüler, der dieses Lehrbuch in zwei Phasen lernt:

Schritt 1: Der Fotograf wird zum Kritiker (Aesthetic Guidance)
Zuerst lernt die KI, ein Foto nicht nur anzusehen, sondern es zu kritisch zu analysieren. Sie lernt, Fehler zu erkennen (wie ein strenger Lehrer) und konkrete Tipps zu geben.

  • Vergleich: Früher sagte die KI nur „Gute Arbeit!". Jetzt sagt sie: „Der Himmel ist zu leer, schneide ihn weg, damit das Gebäude besser zur Geltung kommt."
  • Das Ziel ist, dass die KI versteht, warum ein Bild funktioniert und wie man es verbessert.

Schritt 2: Der Fotograf wird zum Bildhauer (Aesthetic Cropping)
In der zweiten Phase lernt die KI, das Bild tatsächlich zu zuschneiden (zu „croppen"). Aber sie macht das nicht blind.

  • Sie nutzt eine Technik namens CoT (Chain of Thought). Das ist wie ein Gedankengang. Bevor die KI das Bild zuschneidet, denkt sie laut nach: „Ich schneide hier ab, weil der Baumstamm den Blick stört, und ich rücke das Motiv in die Mitte, um die Symmetrie zu betonen."
  • Vergleich: Ein normaler Bildschneider schneidet einfach irgendwo hin. Venus schneidet wie ein Künstler, der genau weiß, wo der Fokus liegen muss, und kann dir sogar erklären, warum er genau diese Stelle gewählt hat.

4. Warum ist das so besonders?

Das Besondere an Venus ist die Interaktion.

  • Erklärbar: Du kannst die KI fragen: „Warum hast du das Bild so zugeschnitten?" und sie gibt dir eine logische Antwort, keine vage Ausrede.
  • Anpassbar: Du kannst sagen: „Ich mag den Hintergrund nicht, schneide ihn weg." Die KI versteht deinen Wunsch und passt das Bild an.
  • Besser als die Konkurrenz: In Tests hat Venus deutlich besser abgeschnitten als andere KIs oder spezialisierte Programme. Sie schneidet Bilder so, dass sie ästhetisch ansprechender sind, und erklärt dabei, warum.

Zusammenfassung

Stell dir Venus vor wie einen persönlichen Fototrainer in deiner Tasche.

  1. Er zeigt dir, was an deinem Foto schief läuft (nicht nur „schön", sondern ehrlich).
  2. Er gibt dir Tipps, wie du das nächste Foto besser machst.
  3. Er kann dein aktuelles Foto so zuschneiden, dass es wie ein Meisterwerk aussieht, und erklärt dir dabei jeden Schritt.

Mit Venus schließen die Forscher die Lücke zwischen dem, was ein normaler Handyfotograf macht, und dem, was ein Profi kann. Sie machen aus jedem Nutzer einen besseren Fotografen.