MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een nieuw schilderij moet maken, maar in plaats van één foto als inspiratie, krijg je er drie of vier mee. De ene foto toont een wolf, de andere een man in een pak, en de derde een teddybeer. Je opdracht is: "Maak een foto van deze drie die samen in een museum staan."

Vroeger waren slimme kunstmatige intelligenties (AI) heel goed in het maken van plaatjes op basis van tekst, of het bewerken van één foto. Maar als je ze meerdere foto's gaf om te combineren, raakten ze vaak in de war. Ze vergeten wie de wolf precies was, zetten de beer op het verkeerde moment, of laten de man verdwijnen. Het was alsof je een orkest gaf met drie verschillende dirigenten die allemaal een ander liedje wilden spelen.

MICON-Bench: De Nieuwe Examenopdracht
De auteurs van dit paper hebben een nieuwe test ontwikkeld, genaamd MICON-Bench. Dit is als een streng examen voor AI-kunstenaars. In plaats van alleen te kijken of het plaatje er mooi uitziet, kijken ze of de AI echt begrijpt wat er moet gebeuren.

De test bestaat uit zes soorten opdrachten, zoals:

De Puzzel: Combineer verschillende voorwerpen uit verschillende foto's in één nieuw plaatje.
De Regisseur: Zorg dat de wolf links staat, de beer in het midden en de man rechts.
De Stijlverhuizer: Neem het uiterlijk van een koe uit foto A, maar geef het de stijl van een schilderij uit foto B en zet het in een kathedraal uit foto C.
Het Verhaal: Kijk naar een paar foto's en bedenk en teken wat er als volgende in het verhaal gebeurt.

Om te controleren of de AI het goed doet, gebruiken ze geen menselijke jury (die te langzaam is), maar een andere super-slimme AI die fungeert als de "Controleur". Deze Controleur kijkt naar specifieke checkpoints: "Is de wolf er nog? Is de beer op zijn plek? Lijkt het op een echt museum?" Zo krijgen ze een eerlijk cijfer.

DAR: De Slimme Dirigent
Het probleem is dat de beste AI's die we nu hebben, vaak niet weten waar ze naar moeten kijken. Ze kijken naar de hele foto, ook naar de achtergrond of naar dingen die niet belangrijk zijn. Dit noemen ze "hallucineren" (dromen van dingen die er niet zijn).

Om dit op te lossen, hebben de auteurs een nieuwe truc bedacht, genaamd DAR (Dynamic Attention Rebalancing).

Gebruik deze analogie:
Stel je voor dat de AI een student is die een examen maakt met drie boeken open voor zich. De student kijkt echter naar alles tegelijk: naar de tekst, maar ook naar de vlekken op de pagina, de foto's in de marge en de randen van het papier. Daardoor raakt hij in de war en maakt hij fouten.

DAR is als een slimme leraar die naast de student staat.
Deze leraar zegt: "Kijk niet naar die vlek op pagina 2! Kijk alleen naar de wolf op pagina 1 en de man op pagina 3."
DAR doet dit automatisch:

Het kijkt waar de AI nu naar "luistert" (de aandacht).
Het ziet dat de AI naar onbelangrijke dingen kijkt (zoals de lucht of de achtergrond).
Het versterkt de signalen van de belangrijke delen (de wolf, de man) en dempt de ruis van de onbelangrijke delen.

Het beste deel? Je hoeft de AI niet opnieuw te leren (geen extra training). Het is een "plug-and-play" trucje, alsof je een bril opzet die de scherpe randen van de wereld accentueert en de wazige randen wegfiltert.

Wat is het resultaat?
Toen ze deze truc toepasten op verschillende AI-modellen, zagen ze een enorme verbetering:

De AI's vergeten minder vaak voorwerpen.
De voorwerpen blijven eruitzien zoals in de originele foto's (de wolf blijft een wolf, geen hond).
De verhaaltjes worden logischer.

Samenvattend:
Dit paper introduceert een nieuwe manier om te testen of AI's goed kunnen werken met meerdere foto's tegelijk (MICON-Bench), en biedt een slimme oplossing (DAR) die ervoor zorgt dat de AI zich concentreert op de juiste dingen, net als een goede dirigent die zijn orkest weer op de juiste noot brengt. Hierdoor kunnen we in de toekomst veel betere en betrouwbaardere AI-kunstenaars krijgen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Recente vooruitgang in Unified Multimodal Models (UMMs) heeft indrukwekkende vaardigheden op het gebied van beeldbegrip en beeldgeneratie mogelijk gemaakt. Echter, hoewel modellen zoals Gemini-2.5-Flash-Image beginnen te tonen dat ze kunnen redeneren over meerdere gerelateerde afbeeldingen, blijft de huidige evaluatie van multi-image context generation (het genereren van een nieuwe afbeelding op basis van meerdere bronafbeeldingen) ontoereikend.

Bestaande benchmarks richten zich voornamelijk op tekst-naar-beeld generatie of bewerking van één enkele afbeelding. Ze missen de complexiteit van taken die vereisen dat modellen:

Informatie overdragen tussen meerdere bronnen (cross-image consistency).
Ruimtelijke en temporele samenhang handhaven.
Complexe visuele relaties redeneren (bijv. het behoud van objectidentiteit over verschillende referenties heen).

Zonder een gespecialiseerde benchmark is het moeilijk om fouten te diagnosticeren of methoden eerlijk te vergelijken in dit opkomende domein.

Methodologie

Het paper introduceert twee hoofdcomponenten: een nieuwe benchmark en een verbeterde inferentiemethode.

1. MICON-Bench (De Benchmark)

MICON-Bench is een uitgebreide benchmark suite ontworpen om de capaciteit van UMM's om contextuele afbeeldingen te genereren op basis van meerdere invoeren te evalueren.

Taken: De benchmark omvat zes diverse taken:
- Object Composition: Combineren van objecten met achtergronden.
- Spatial Composition: Objecten positioneren volgens specifieke ruimtelijke relaties (links, rechts, centraal).
- Attribute Disentanglement: Het scheiden en hercombineren van stijl, onderwerp en achtergrond uit drie verschillende bronnen.
- Component Transfer: Het overnemen van specifieke onderdelen (bijv. kleding, accessoires) van de ene afbeelding naar een ander onderwerp.
- FG/BG Composition: Het naadloos samenvoegen van voorgrond uit één afbeelding met de achtergrond van een andere.
- Story Generation: Het redeneren over causale verbanden en het genereren van het volgende logische beeld in een verhaal.
Dataset: De dataset bevat 1.043 cases met in totaal 2.518 afbeeldingen, variërend in het aantal referentieafbeeldingen (2 of 3).
Evaluatie Framework (Evaluation-by-Checkpoint): In plaats van alleen menselijke beoordeling of simpele metrics, gebruikt MICON-Bench een MLLM-gedreven verificatieframework.
- Voor elke taak worden specifieke "checkpoints" gedefinieerd (bijv. "Bevat de afbeelding alle gespecificeerde objecten?", "Komt de identiteit van het object overeen met de referentie?").
- Een Multimodal Large Language Model (MLLM) fungeert als verificateur en beoordeelt of de gegenereerde afbeelding aan deze checkpoints voldoet (Pass/Fail).
- De uiteindelijke score is het gemiddelde van deze binair beoordeelde checkpoints, wat een objectieve en schaalbare evaluatie mogelijk maakt.

2. Dynamic Attention Rebalancing (DAR)

Om de prestaties van bestaande modellen te verbeteren, stellen de auteurs DAR voor, een trainingsvrije, plug-and-play mechanisme voor tijdens de inferentie.

Het Probleem: Bestaande UMM's verdelen hun aandacht vaak uniform over alle referentieafbeeldingen, wat leidt tot irrelevante focus, visuele inconsistenties en hallucinaties.
De Oplossing: DAR analyseert de attentiekartels (attention maps) tussen query-tokens (ruis) en referentie-tokens.
- Het steunt een subset van query-tokens om de aandachtsscores te berekenen.
- Tokens met hoge relevantie (hoge attentiescore) krijgen een gewichtsfactor $>1$ , terwijl irrelevante tokens een factor $<1$ krijgen.
- Dit dynamisch herschalen van de aandacht (attention scaling) versterkt de focus op de juiste visuele elementen en onderdrukt afleidingen, zonder dat het model opnieuw getraind hoeft te worden.

Belangrijkste Bijdragen

MICON-Bench: De eerste uitgebreide benchmark die specifiek is ontworpen voor multi-image context generation, met een gestructureerde set van zes taken en een robuust, MLLM-gedreven evaluatieprotocol.
DAR (Dynamic Attention Rebalancing): Een innovatieve, trainingsvrije techniek die de aandachtstoewijzing in UMM's tijdens de inferentie optimaliseert, wat leidt tot betere identiteitsbehoud en ruimtelijke coherentie.
Uitgebreide Evaluatie: Een grondige analyse van state-of-the-art modellen (zowel gesloten als open-source), die de huidige beperkingen in multi-image redenering blootlegt en de effectiviteit van DAR bewijst.

Resultaten

De experimenten zijn uitgevoerd op diverse state-of-the-art modellen, waaronder BAGEL, OmniGen2, Nano-Banana en GPT-Image.

Benchmark Resultaten: Zelfs de beste modellen kampen met uitdagingen in multi-image taken. De scores variëren sterk per taak, waarbij complexe redenering (zoals Story Generation) en component transfer de grootste uitdagingen vormen.
Effectiviteit van DAR:
- Toepassing van DAR op open-source modellen (BAGEL en OmniGen2) resulteerde in consistente verbeteringen op bijna alle taken.
- Bijvoorbeeld, bij BAGEL steeg de gemiddelde score van 73.55 naar 76.31, met name sterke verbeteringen in FG/BG Composition en Component Transfer.
- Bij OmniGen2 steeg de gemiddelde score van 67.83 naar 69.21.
Generalisatie: DAR presteerde ook beter op andere benchmarks (OmniContext en XVerseBench), wat aantoont dat de methode robuust is en niet alleen werkt op de specifieke MICON-Bench taken.
Kwalitatieve Verbetering: Visualisaties tonen aan dat DAR hallucinaties reduceert, objectidentiteit behoudt en ruimtelijke relaties correcter implementeert in vergelijking met baselines.
Efficiëntie: De inferentie-tijd neemt slechts marginaal toe (ongeveer 5-10%), wat de methode zeer praktisch maakt voor real-world toepassingen.

Betekenis en Impact

Dit werk is van groot belang voor de ontwikkeling van de volgende generatie multimodale generatieve modellen.

Standaardisatie: MICON-Bench biedt een noodzakelijke standaard om de complexiteit van multi-image redenering te meten, wat eerder ontbrak.
Technologische Vooruitgang: DAR demonstreert dat significante prestatieverbeteringen mogelijk zijn zonder kostbare hertraining, door simpelweg de inferentie-mechanismen te optimaliseren.
Toekomstige Richting: Het paper markeert een verschuiving van enkelvoudige beeldgeneratie naar geïntegreerde, contextuele visuele creatie, wat essentieel is voor toepassingen zoals visuele storytelling, geavanceerde beeldbewerking en robuuste AI-assistenten.

Kortom, MICON-Bench en DAR vormen samen een fundament voor het begrijpen en verbeteren van hoe AI-systemen meerdere visuele contexten kunnen integreren en redeneren.

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

Probleemstelling

Methodologie

1. MICON-Bench (De Benchmark)

2. Dynamic Attention Rebalancing (DAR)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation