E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Chef-Prüfer für Werbefotos in einem riesigen Online-Markt, ähnlich wie Amazon oder Alibaba. Ihre Aufgabe ist es, tausende von Produktbildern zu bewerten, die von künstlicher Intelligenz (KI) erstellt wurden.

Das Problem: Die KI wird immer besser darin, wunderschöne Bilder zu malen. Aber sie macht auch subtile Fehler, die für einen normalen Betrachter schwer zu erkennen sind – wie ein falsch geschriebenes Wort, ein verzerrter Buchstabe oder ein Produkt, das seltsam aussieht. Bisherige KI-Prüfer waren wie Bewerter, die nur auf die Farben schauen, aber nicht merken, wenn der Text unleserlich ist oder das Produkt nicht zum Hintergrund passt.

Hier kommt E-comIQ-ZH ins Spiel. Es ist wie ein neuer, hochspezialisierter Prüfer, der genau das tut, was ein erfahrener menschlicher Experte tut.

Hier ist die einfache Erklärung der drei Hauptteile des Projekts:

1. Der Lehrbuch: E-comIQ-18k (Das Datenset)

Stellen Sie sich vor, Sie wollen einen neuen Prüfer ausbilden. Sie können ihm nicht einfach sagen „Das Bild ist schön". Sie brauchen ein riesiges Lehrbuch mit 18.000 Beispielen.

Was ist drin? Bilder von echten Produkten, von KI generierte Bilder und professionelle Designs.
Das Besondere: Bei jedem Bild haben echte Experten nicht nur eine Note gegeben (z. B. 4 von 5 Sternen), sondern auch geschrieben, warum.
- Beispiel: „Der Hintergrund ist toll (5 Punkte), aber das Wort 'Industrie' wurde falsch geschrieben, der Buchstabe 'd' sieht aus wie ein 'b' (nur 1 Punkt für Text)."
Warum ist das wichtig? Frühere KI-Modelle haben nur grobe Fehler gesehen. Dieses Lehrbuch lehrt die KI, feine Details zu erkennen – besonders bei chinesischen Schriftzeichen, die sehr komplex sind und leicht kaputt gehen können.

2. Der Schüler: E-comIQ-M (Das Modell)

Das ist die KI, die wir mit dem Lehrbuch trainieren.

Wie lernt sie? Zuerst liest sie das ganze Lehrbuch (Supervised Fine-Tuning). Sie lernt, dass ein Bild nicht nur „hübsch" sein muss, sondern dass der Text lesbar, das Produkt intakt und das Layout logisch sein muss.
Der Clou: Danach wird sie mit einer speziellen Methode (GRPO) weitertrainiert. Stellen Sie sich das vor wie einen Sparringspartner. Die KI schreibt eine Bewertung, der Trainer (die menschliche Logik) sagt: „Nein, das war zu streng für den Hintergrund, aber zu nachsichtig für den Text." Die KI passt sich an, bis sie fast genauso urteilt wie ein menschlicher Experte.
Das Ergebnis: Sie gibt nicht nur eine Note, sondern schreibt eine kleine Begründung (Chain-of-Thought), genau wie ein Mensch: „Ich gebe dem Text 1 Punkt, weil hier ein Strich fehlt."

3. Der Prüfstand: E-comIQ-Bench (Der Test)

Jetzt wollen wir wissen, ob unsere neue KI wirklich gut ist. Wir bauen einen Prüfstand, auf dem wir die besten KI-Bild-Generatoren der Welt gegeneinander antreten lassen.

Der Test: Wir geben den KI-Modellen (wie GPT-4o, Gemini, Flux) ein Produkt und eine Aufgabe: „Mach ein Werbefoto."
Die Bewertung: Unsere neue KI (E-comIQ-M) bewertet die Ergebnisse sofort und vergleicht sie mit menschlichen Bewertungen.
Das Ergebnis: Die Studie zeigt, dass die großen, allgemeinen KI-Modelle oft grobe Fehler übersehen (z. B. wenn ein Text verzerrt ist), während unser spezialisierter Prüfer diese Fehler sofort findet und die Bilder entsprechend niedrig bewertet.

Zusammenfassung in einer Analogie

Stellen Sie sich vor, Sie kaufen ein Auto.

Die alten KI-Prüfer sagen: „Wow, das Auto sieht glänzend und schön aus!" (Sie schauen nur auf den Lack).
E-comIQ-ZH ist wie ein Meistermechaniker. Er sagt: „Der Lack ist toll, aber der Motor (das Produkt) ist falsch montiert, und auf dem Tacho (dem Text) steht '100' statt '10', was gefährlich ist."

Warum ist das wichtig?
Für den E-Commerce ist es entscheidend, dass Werbung nicht nur hübsch aussieht, sondern funktioniert. Wenn der Text unleserlich ist oder das Produkt kaputt aussieht, kauft niemand. E-comIQ-ZH hilft Unternehmen, KI-generierte Werbung automatisch auf diese kritischen Fehler zu prüfen, bevor sie online gehen, und spart so Zeit und Geld.

Kurz gesagt: Die Forscher haben eine KI gebaut, die nicht nur „hübsch" sieht, sondern versteht, was eine gute Werbung ausmacht – genau wie ein erfahrener Mensch.

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

1. Der Lehrbuch: E-comIQ-18k (Das Datenset)

2. Der Schüler: E-comIQ-M (Das Modell)

3. Der Prüfstand: E-comIQ-Bench (Der Test)

Zusammenfassung in einer Analogie

1. Problemstellung

2. Methodik

A. Der Datensatz: E-comIQ-18k

B. Das Modell: E-comIQ-M

C. Der Benchmark: E-comIQ-Bench

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

1. Der Lehrbuch: E-comIQ-18k (Das Datenset)

2. Der Schüler: E-comIQ-M (Das Modell)

3. Der Prüfstand: E-comIQ-Bench (Der Test)

Zusammenfassung in einer Analogie

1. Problemstellung

2. Methodik

A. Der Datensatz: E-comIQ-18k

B. Das Modell: E-comIQ-M

C. Der Benchmark: E-comIQ-Bench

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation