UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Dit paper introduceert UniGenBench++, een unificerend semantisch evaluatiekader voor tekst-naar-beeldgeneratie dat, dankzij een hiërarchische structuur van 600 prompts in meertalige en variabele lengtes, een verfijnde en robuuste beoordeling mogelijk maakt van modelprestaties via een geautomatiseerde pipeline.

Yibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

Gepubliceerd 2026-02-25
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superkrachtige chef-kok hebt die elke foto kan maken die je maar kunt beschrijven. Je zegt: "Maak een foto van een astronaut die op een draak van sterrenstof rijdt," en poef, daar is de foto. Maar hoe weet je of de chef-kok de opdracht écht goed heeft begrepen? Ziet de astronaut eruit alsof hij op de draak zit, of zit hij er gewoon naast? Is de draak echt van sterrenstof, of is het gewoon blauwe verf?

Dit is precies het probleem waar wetenschappers mee worstelen bij Text-to-Image (tekst-naar-beeld) modellen. Ze zijn geweldig, maar soms maken ze rare fouten die een mens direct ziet, maar een computer niet.

Deze paper introduceert UniGenBench++, een nieuwe, super-uitgebreide "keuring" of "examen" voor deze beeld-generators. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Examen: Geen meer "Vraag 1, vraag 2"

Vroeger waren de examens voor deze AI's vaak saai en simpel. Ze vroegen bijvoorbeeld alleen: "Zie je een hond?" of "Is de hond rood?". Dat is als een rijbewijsexamen waarbij je alleen moet kunnen parkeren, maar niet mag draaien of remmen.

UniGenBench++ is als een compleet rijbewijsexamen met 600 verschillende situaties:

  • Verschillende talen: Het examen is er in het Engels én het Nederlands (in de paper: Chinees). Want een AI die goed is in het Engels, is niet per se goed in het Chinees.
  • Korte vs. Lange teksten: Soms geef je een korte opdracht ("Een hond"), soms een hele gedetailleerde verhaal ("Een oude, bruine hond met een rode das die op een fiets zit in de regen"). De paper test of de AI het verhaal nog kan volgen als het lang wordt.
  • De "Testpunten": Dit is het slimme deel. Elke opdracht wordt niet met één cijfer beoordeeld, maar op 27 verschillende aspecten.
    • Stijl: Ziet het eruit als een olieverfschilderij?
    • Logica: Is het logisch dat de astronaut op de draak zit?
    • Details: Zijn de handen goed getekend? Is de tekst op het bordje leesbaar?

2. De Oefeningen: Van Creatief tot Logisch

De auteurs hebben een heel brede waaier aan opdrachten bedacht, verdeeld in 5 hoofdcategorieën:

  • Creatief Divergeren: Alles wat in je hoofd opkomt (bijv. een draak van sterrenstof).
  • Kunst: Schilderijen, foto's, beelden.
  • Illustratie: Verhalen vertellen met plaatjes.
  • Film & Verhaal: Sci-fi, animatie, realistische filmscènes.
  • Ontwerp: Reclames, logo's, game-ontwerpen.

Het doel is om te kijken of de AI niet alleen "mooie plaatjes" maakt, maar ook verstand heeft van de wereld. Kan hij begrijpen dat een mens niet door een muur kan lopen? Dat een glas water nat is? Dat een astronaut in de ruimte geen lucht kan ademen?

3. De Scheidsrechter: De "Super-Oefenmeester"

Hoe beoordeel je 600 foto's en 27 punten per foto? Dat is te veel werk voor mensen.
In plaats daarvan gebruiken ze een Super-AI (Gemini 2.5 Pro) als scheidsrechter.

  • Deze scheidsrechter kijkt naar de opdracht, de gegenereerde foto en een lijst met specifieke vragen (bijv. "Is de astronaut op de draak?").
  • Hij geeft niet alleen een "Ja/Nee", maar legt ook uit waarom. "Nee, de astronaut zweeft boven de draak, terwijl de opdracht zei dat hij erop moest zitten."
  • Dit maakt de beoordeling heel eerlijk en gedetailleerd.

4. De Resultaten: Wie is de beste?

De paper testte heel veel AI's, van de dure, gesloten systemen (zoals die van Google en OpenAI) tot de gratis, open-source modellen.

  • De winnaars: De duurste, gesloten systemen (zoals GPT-4o en Nano Banana Pro) doen het over het algemeen het beste. Ze zijn slim, logisch en begrijpen lange verhalen goed.
  • De open-source helden: Er zijn ook gratis modellen (zoals FLUX en Qwen) die heel goed meedoen. Ze zijn soms net zo goed als de dure modellen op het gebied van "mooie plaatjes", maar ze struikelen nog wel eens over logica en lange, complexe zinnen.
  • De zwakke plekken: Veel AI's vinden het moeilijk om:
    • Handen en voeten correct te tekenen.
    • Logische verbanden te begrijpen (bijv. "Als A groter is dan B, en B groter dan C, dan is A groter dan C").
    • Tekst in de afbeelding correct te schrijven (vaak wordt het onleesbaar).

5. Waarom is dit belangrijk?

Stel je voor dat je een AI wilt gebruiken om een reclamecampagne te maken of een game te ontwerpen. Je wilt niet dat de AI een auto tekent met drie wielen, of een mens met zes vingers.

UniGenBench++ is als een kwaliteitskeurmerk. Het helpt ontwikkelaars om precies te zien waar hun AI zwak is, zodat ze die kunnen verbeteren. Het zorgt ervoor dat we in de toekomst niet alleen "mooie" plaatjes krijgen, maar plaatjes die logisch, correct en betrouwbaar zijn.

Kortom: Dit is de nieuwe, super-uitgebreide "rijbewijstest" voor beeld-AI's, die zorgt dat ze niet alleen kunnen tekenen, maar ook echt begrijpen wat ze tekenen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →