CompBench: Benchmarking Complex Instruction-guided Image Editing

Bohan Jia, Wenxuan Huang, Yuntian Tang, Junbo Qiao, Jincheng Liao, Shaosheng Cao, Fei Zhao, Zhaopeng Feng, Zhouhong Gu, Zhenfei Yin, Lei Bai, Wanli Ouyang, Lin Chen, Fei Zhao, Yao Hu, Zihan Wang, Yuan

Veröffentlicht 2026-03-24

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr talentierten digitalen Maler, der Bilder nach deinen Anweisungen verändern kann. Bisher war dieser Maler aber eher wie ein Anfänger in einer ruhigen Werkstatt: Er konnte einfache Dinge tun, wie „Mach den Hund rot" oder „Tausche den Ball gegen einen Apfel aus". Aber wenn du ihn gebeten hättest, eine komplexe Szene zu verändern – zum Beispiel „Nimm den Tiger, der hinter dem Busch versteckt ist, weg, aber lass den Schatten des Baumes darauf liegen, und schiebe gleichzeitig die Giraffe so, dass sie den Löwen anschaut" – dann wäre er völlig überfordert gewesen. Er hätte entweder das Falsche verändert, den Hintergrund zerstört oder einfach nur verwirrt geguckt.

Genau dieses Problem wollen die Autoren des Papers CompBench lösen. Hier ist die Erklärung, wie sie es angehen, ganz einfach und mit ein paar Bildern im Kopf:

1. Das Problem: Der alte Test war zu leicht

Bisher gab es Tests (Benchmarks) für diese KI-Maler, die aber wie ein Kinderspielzeug-Parcours waren. Die Bilder waren einfach, die Anweisungen kurz und die Szenen leer.

Das Problem: Wenn ein Maler auf so einem leichten Parcours gut abschneidet, heißt das noch lange nicht, dass er im echten Leben (in einer vollen, chaotischen Stadt oder einem dichten Wald) zurechtkommt. Es ist wie ein Autofahrer, der nur auf einer geraden, leeren Straße geübt hat und dann in den dichten Stadtverkehr gesetzt wird. Er würde sofort panisch werden.

2. Die Lösung: CompBench – Der „Großstadt-Parcours"

Die Forscher haben CompBench erfunden. Das ist kein einfacher Test mehr, sondern ein großer, chaotischer, realistischer Parcours.

Was ist neu? Statt leerer Felder gibt es jetzt Bilder voller Details: viele Objekte, die sich überlappen (wie Menschen in einer Menschenmenge), versteckte Dinge und komplexe räumliche Beziehungen.
Die Anweisungen: Die Befehle sind jetzt wie echte Gespräche. Statt „Mach den Ball rot" heißt es: „Verschiebe den roten Ball so, dass er hinter dem blauen Auto liegt, aber nicht verdeckt wird, und ändere die Farbe des Autos zu Gelb."
Das Ziel: Wir wollen sehen, ob die KI wirklich versteht, was sie tun soll, und nicht nur zufällig etwas Richtiges macht.

3. Wie haben sie den Test gebaut? (Der menschliche Co-Pilot)

Sie haben nicht einfach nur Computer benutzt, um die Tests zu machen. Sie haben eine Mannschaft aus KI und Menschen zusammengestellt.

Die Idee: Stell dir vor, eine KI (ein sehr schlauer Assistent) schlägt vor, wie man ein Bild verändern könnte. Aber ein menschlicher Expert schaut sich das Ergebnis an und sagt: „Nein, das sieht nicht richtig aus, der Schatten ist falsch" oder „Die Anweisung war missverständlich."
Das Ergebnis: Nur die perfekten, menschlich geprüften Bilder und Anweisungen kamen in den Test. Das ist wie ein Qualitäts-Siegel für die schwierigsten Aufgaben.

4. Die vier Säulen der Komplexität

Um sicherzugehen, dass die KI wirklich alles kann, haben die Forscher die Aufgaben in vier Kategorien unterteilt, wie die vier Räder eines Autos:

Wo ist es? (Ort): „Stell den Stuhl links vom Tisch, aber nicht unter dem Fenster."
Wie sieht es aus? (Aussehen): „Mach den Hund pelziger und brauner."
Was tut es? (Bewegung): „Lass den Vogel fliegen, nicht stehen."
Was ist es? (Objekt): „Ersetze den Apfel durch eine Banane."
Erst wenn ein Modell alle vier Räder gleichzeitig drehen kann, besteht es den Test.

5. Was haben sie herausgefunden? (Die harte Wahrheit)

Als sie die aktuellen KI-Maler auf diesem neuen, harten Test geprüft haben, kam eine ernüchternde Nachricht ans Licht:

Die meisten fallen durch: Viele der besten Modelle, die auf den alten, leichten Tests glänzten, scheiterten hier kläglich. Sie verwechselten Objekte, veränderten den Hintergrund oder schafften es nicht, die räumliche Logik zu verstehen.
Der Gewinner: Ein paar neue Modelle (wie Bagel oder Qwen-Image-Edit) haben es besser gemacht. Der Trick? Sie nutzen eine Art Super-Gehirn (ein großes Sprachmodell), das nicht nur Bilder sieht, sondern auch denkt und versteht, bevor es malt.
Das Hauptproblem: Oft wissen die KIs genau, was sie tun sollen (der Plan), aber sie scheitern beim Umsetzen (die Ausführung). Es ist, als würde ein Architekt einen perfekten Plan zeichnen, aber der Bauarbeiter setzt die Ziegel falsch ein.

Fazit

CompBench ist wie ein neuer, strenger Fahrprüfungs-Parcours für KI-Künstler. Er zeigt uns, dass wir noch einen langen Weg vor uns haben, bevor KIs wirklich komplexe Bilder so gut manipulieren können wie ein menschlicher Künstler. Aber mit diesem neuen Maßstab wissen wir jetzt genau, wo die Schwachstellen liegen und wie wir die nächsten Generationen von KI besser machen können.

Kurz gesagt: Die alten Tests waren wie ein Spaziergang im Park. CompBench ist ein Marathon durch einen Sturm. Und die KI muss lernen, nicht nur zu laufen, sondern auch zu überleben.

CompBench: Benchmarking Complex Instruction-guided Image Editing

1. Das Problem: Der alte Test war zu leicht

2. Die Lösung: CompBench – Der „Großstadt-Parcours"

3. Wie haben sie den Test gebaut? (Der menschliche Co-Pilot)

4. Die vier Säulen der Komplexität

5. Was haben sie herausgefunden? (Die harte Wahrheit)

Fazit

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

CompBench: Benchmarking Complex Instruction-guided Image Editing

1. Das Problem: Der alte Test war zu leicht

2. Die Lösung: CompBench – Der „Großstadt-Parcours"

3. Wie haben sie den Test gebaut? (Der menschliche Co-Pilot)

4. Die vier Säulen der Komplexität

5. Was haben sie herausgefunden? (Die harte Wahrheit)

Fazit

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon