DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control

Deze paper introduceert DEIG, een nieuw framework dat door middel van een Instance Detail Extractor en een Detail Fusion Module complexe meervoudige objectgeneratie met fijnmazige semantische controle en verhoogde ruimtelijke consistentie mogelijk maakt.

Shiyan Du, Conghan Yue, Xinyu Cheng, Dongyu Zhang

Gepubliceerd 2026-02-23
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een heel drukke scène moet schilderen: een markt met mensen, dieren en voorwerpen. Je geeft je assistent (een AI) een lijst met instructies: "Hier staat een man in een geel shirt en blauwe broek, daar een vrouw met een rode hoed en groene jurk, en daar een paarse tas met witte stippen."

Helaas, de oude assistenten (de bestaande AI-modellen) waren niet zo goed in het volgen van zulke gedetailleerde instructies. Ze zouden misschien wel een man en een vrouw schilderen, maar de man had dan per ongeluk een rode hoed (die van de vrouw) en de vrouw droeg een geel shirt (van de man). Of ze vergeten de stippen op de tas. Ze verwarren de details en laten de instructies door elkaar lopen.

Dit paper introduceert DEIG, een slimme nieuwe assistent die precies weet wie wat moet doen, zonder dat de kleuren en details door elkaar lopen.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: De "Verkeerde Koffie"

Vroeger was het alsof je een groep vrienden in een café zette. Als je zei: "Jan drinkt koffie, Piet drinkt thee", dan hielden ze het soms niet vol. Jan kreeg ineens thee, of Piet kreeg koffie. De AI wist niet precies welke beschrijving bij welk persoon hoorde, vooral niet als de instructies lang en ingewikkeld waren (bijvoorbeeld: "een man in een geel shirt met een blauwe streep en een rode pet").

2. De Oplossing: DEIG (De Slimme Regisseur)

DEIG is als een regisseur die twee nieuwe hulpmiddelen heeft:

  • De "Detail-Vertaler" (IDE):
    Stel je voor dat de regisseur een vertaler heeft die de lange, ingewikkelde zinnen van de klant omzet in korte, duidelijke kaartjes voor elke acteur. In plaats van "een man in een geel shirt...", maakt deze vertaler een speciaal kaartje dat zegt: "Jij bent de man, jouw kleur is geel, jouw broek is blauw". Dit zorgt ervoor dat de AI precies weet wat er bedoeld wordt, zelfs als de zin heel lang is.
  • De "Onzichtbare Muur" (DFM):
    Dit is het belangrijkste trucje. Stel je voor dat elke acteur in de scène in een eigen glazen hokje staat. De regisseur zorgt ervoor dat de "gele shirt-instructie" alleen door het glas van de man gaat, en niet door het glas van de vrouw.
    In de AI-wereld noemen ze dit een masker. Het zorgt ervoor dat de "gele" kleur van de man niet per ongeluk op de vrouw terechtkomt. Het voorkomt dat de details "lekken" naar de verkeerde plek.

3. De Oefening: Een Nieuwe Test (DEIG-Bench)

Om te bewijzen dat hun nieuwe regisseur beter is dan de rest, hebben ze een nieuwe test ontwikkeld.

  • De oude tests waren makkelijk: "Teken een rode auto."
  • De nieuwe test (DEIG-Bench) is veel moeilijker: "Teken een vrouw met een rode hoed, een blauwe jurk en groene schoenen, naast een gele tas met paarse stippen."
    Ze hebben ook een speciale database gemaakt met heel gedetailleerde beschrijvingen, zodat de AI kan leren hoe mensen en objecten er echt uitzien met al die kleine details.

4. Het Resultaat: Perfecte Samenwerking

Wanneer ze DEIG laten proberen, gebeurt er magie:

  • De man krijgt precies het gele shirt en de blauwe broek die je vroeg.
  • De vrouw krijgt haar rode hoed en groene jurk.
  • De tas heeft de stippen.
  • Niets is verwisseld. Alles staat precies waar het moet staan.

Bovendien is DEIG zo slim dat het als een "plug-and-play" module werkt. Dat betekent dat je het niet hoeft te bouwen van de grond af. Je kunt het gewoon "inpluggen" in bestaande AI-systemen (zoals de populaire Stable Diffusion) en plotseling wordt die hele familie veel slimmer in het tekenen van complexe scènes.

Samenvatting in één zin

DEIG is als een super-georganiseerde chef-kok die zorgt dat elke gast op het feest precies het juiste gerecht krijgt, zonder dat de soep in de taart belandt, zelfs niet als het menu heel lang en ingewikkeld is.

Waarom is dit belangrijk?
Voor kunstenaars, ontwerpers en filmmakers betekent dit dat ze eindelijk complexe scènes kunnen laten maken door AI zonder dat ze urenlang moeten sleutelen aan foutjes. Het maakt creatief werk makkelijker en nauwkeuriger.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →