CompBench: Benchmarking Complex Instruction-guided Image Editing

Dit paper introduceert CompBench, een groot benchmark voor complexe instructiegeleide beeldbewerking dat, via een MLLM-menselijk samenwerkingsframework en een strategie voor instructiedecoupling, de beperkingen van huidige modellen blootlegt en inzicht biedt in de ontwikkeling van toekomstige systemen.

Bohan Jia, Wenxuan Huang, Yuntian Tang, Junbo Qiao, Jincheng Liao, Shaosheng Cao, Fei Zhao, Zhaopeng Feng, Zhouhong Gu, Zhenfei Yin, Lei Bai, Wanli Ouyang, Lin Chen, Fei Zhao, Yao Hu, Zihan Wang, Yuan
Gepubliceerd 2026-03-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale fotograaf bent die een magische pen heeft. Je kunt tegen een foto zeggen: "Verander de hond in een kat," en poef, het is gebeurd. Dit is wat huidige AI-foto-editors kunnen. Maar wat als je zegt: "Verplaats de hond naar de linkerkant, maar zorg dat hij onder de schaduw van de boom ligt, en laat de kat erbovenop springen terwijl hij naar de zon kijkt"?

Dat is waar de meeste AI's nu op vastlopen. Ze worden snel in de war bij complexe instructies.

Deze paper introduceert CompBench. Laten we dit uitleggen alsof we het bespreken in een koffiezaakje.

1. Het Probleem: De "Baby-voeding" van Foto's

Stel je voor dat je een kind wilt leren koken. Als je het alleen maar laat oefenen met het maken van boterhammen (eenvoudige taken), denk je misschien dat het een chef-kok is. Maar als je het vraagt om een ingewikkeld gerecht te maken met tien ingrediënten die tegelijkertijd moeten garen, faalt het.

Dit is precies wat er gebeurt met huidige AI-foto-editors. De tests die we nu gebruiken (de "benchmarks") zijn als die boterhammen. Ze zijn te simpel:

  • Ze hebben te weinig objecten op de foto.
  • De instructies zijn te simpel (bijv. "verander de kleur").
  • Ze missen de echte chaos en complexiteit van de echte wereld (zoals objecten die elkaar overlappen of verbergen).

Daardoor denken we dat AI's slim zijn, terwijl ze in de echte wereld nogal onhandig zijn.

2. De Oplossing: CompBench (De "Chef-kookwedstrijd")

De onderzoekers hebben CompBench bedacht. Dit is geen simpele test meer; het is een grote, moeilijke kookwedstrijd.

In plaats van boterhammen, geven ze de AI's een opdracht als:

"Verwijder de tijger die achter de struik zit, maar zorg dat de schaduw van de boom nog steeds op de grond valt, en voeg een vogel toe die op de schouder van de man links zit."

CompBench heeft drie superkrachten:

  1. Complexe Scènes: De foto's zijn druk, vol met objecten, en hebben veel details (zoals een echte drukke straat of een bos).
  2. Slimme Instructies: De opdrachten zijn niet alleen "verander dit", maar bevatten logica, ruimtelijk inzicht (links/rechts/achter) en actie (springen/draaien).
  3. Hoge Kwaliteit: Elke foto in deze test is handmatig gecontroleerd door experts. Er zijn geen "fouten" in de test zelf; als de AI faalt, is het echt de schuld van de AI, niet van de test.

3. Hoe hebben ze het gemaakt? (De "AI-Mens Team")

Ze hebben niet zomaar foto's geselecteerd. Ze hebben een samenwerking tussen mens en machine gebruikt:

  • De AI (de assistent): Kijkt naar een foto en bedenkt een moeilijke opdracht.
  • De Mens (de chef): Kijkt of de opdracht logisch is en of het resultaat eruitziet zoals bedoeld.
  • De "Decoupling"-strategie: Ze hebben de instructies ontrafeld in vier stukjes: Waar moet het gebeuren? Hoe moet het eruit zien? Wat moet er gebeuren (actie)? En wat is het object? Dit zorgt ervoor dat de AI niet in de war raakt.

4. Wat hebben ze ontdekt? (De Uitslag)

Toen ze de beste AI's van vandaag de dag op deze zware test lieten, was het resultaat verhelderend:

  • Niets is perfect: Geen enkele AI kon alle taken perfect doen. Het is alsof je een groep sporters laat racen; de ene is goed in hardlopen, de andere in zwemmen, maar niemand is de beste in alles.
  • De winnaars: Enkele nieuwe modellen (zoals Bagel en Qwen-Image-Edit) deden het het beste. Ze lijken een soort "brein" te hebben dat beter begrijpt wat er in de foto gebeurt.
  • De valkuil: Veel AI's begrijpen de tekst wel, maar kunnen de actie niet precies uitvoeren. Ze verplaatsen een object, maar laten de schaduw achter of verstoren de achtergrond. Dit noemen ze "Planner-Executor misalignement": het brein weet wat er moet gebeuren, maar de hand (de AI die de pixels tekent) is te onhandig.
  • De toekomst: Om echt goede foto's te maken, moeten AI's niet alleen tekst begrijpen, maar ook redeneren (logica) en ruimtelijk inzicht hebben (weten hoe licht en schaduwen werken).

Samenvattend

CompBench is de nieuwe "reality check" voor AI-foto-editors. Het is een test die laat zien dat we nog niet klaar zijn voor de echte wereld. Het is alsof we net beginnen met het bouwen van een auto die kan vliegen, maar we testen hem nog steeds op een vlakke parkeerplaats. Met CompBench duwen we de AI's eindelijk de lucht in, zodat we kunnen zien wie er echt kan vliegen en wie er neerstort.

Het is een belangrijke stap om AI's te helpen niet alleen "tekenen", maar echt te denken over wat ze doen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →