MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Het paper introduceert MIRA, een lichtgewicht multimodaal agent dat complexe beeldbewerkingsopdrachten succesvol uitvoert door een iteratieve cyclus van waarneming, redenering en actie te doorlopen, wat leidt tot een aanzienlijke verbetering in semantische consistentie en visuele kwaliteit ten opzichte van bestaande modellen.

Ziyun Zeng, Hang Hua, Jiebo Luo

Gepubliceerd 2026-02-26
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale schilder bent die een foto wilt aanpassen. Je zegt tegen de computer: "Maak de vloer van hout, verander de kast in bruin en zet de fornuis zwart."

In het verleden was het antwoord van de computer vaak een teleurstelling. De computer zou de vloer misschien wel hout maken, maar per ongeluk ook de kast bruin maken (terwijl die wit moest blijven) en het fornuis vergeten. Het was alsof je een opdracht gaf aan iemand die maar één zin tegelijk kan onthouden en dan direct doorwerkt zonder te kijken of het resultaat klopt.

MIRA is de oplossing voor dit probleem. Het is geen nieuwe "schilder" die zelf de verf op het doek brengt, maar een slimme regisseur die tussen jou en de schilder staat.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Regisseur in plaats van de Schilder

Stel je voor dat de huidige beeld-editing programma's (zoals Flux of Qwen) de schilders zijn. Ze zijn heel goed in het uitvoeren van een opdracht, maar ze zijn soms verward door complexe zinnen.

MIRA is de regisseur. In plaats van de schilder direct een lange, ingewikkelde opdracht te geven, breekt MIRA die opdracht op in kleine, simpele stapjes.

  • Stap 1: "Kijk naar de foto. Wat moet er nu gebeuren? Ah, de vloer. Zeg tegen de schilder: 'Maak de vloer van hout'."
  • Stap 2: De schilder doet het. MIRA kijkt naar het resultaat. "Hmm, de vloer is goed, maar de kast is per ongeluk ook bruin geworden. Dat was niet de bedoeling."
  • Stap 3: MIRA zegt tegen de schilder: "Wacht, corrigeer dat. Maak de kast weer wit."
  • Stap 4: De schilder doet het opnieuw. MIRA kijkt weer. "Perfect. Nu nog het fornuis zwart maken."

MIRA blijft dit doen, stap voor stap, tot de foto precies is zoals jij het wilde. Het is een cyclus van kijken, denken en doen.

2. De "Proef- en Fout"-methode (Iteratief Denken)

De meeste oude systemen werken als een automatische kassa: je gooit je boodschappen erin, en de kassa geeft direct een bonnetje zonder te controleren of je wel de juiste producten hebt. Als er een fout in zit, is die er voor altijd.

MIRA werkt als een kwaliteitscontroleur in een fabriek.

  • Hij maakt een product (een foto).
  • Hij kijkt er direct naar: "Ziet dit eruit zoals de klant wilde?"
  • Zo niet? Hij gooit het product niet weg, maar corrigeert het direct.
  • Hij kijkt weer. Is het nu goed? Zo ja, dan stopt hij.

Dit betekent dat MIRA fouten die de "schilder" maakt, direct opmerkt en herstelt. Als de schilder per ongeluk de koelkast bruin maakt terwijl die wit moet blijven, ziet MIRA dit en zegt: "Nee, doe de koelkast weer wit."

3. De Grote Verzameling Oefeningen (De Dataset)

Om MIRA zo slim te maken, hebben de onderzoekers hem niet zomaar geleerd. Ze hebben een enorme bibliotheek met 150.000 oefeningen gemaakt (de MIRA-EDITING dataset).
Stel je voor dat ze duizenden voorbeelden hebben gemaakt van:

  • Een ingewikkelde opdracht.
  • Hoe een mens die opdracht in kleine stukjes zou opsplitsen.
  • Hoe de foto eruitzag na elke kleine stap.
  • En hoe je een fout kon zien en corrigeren.

MIRA heeft deze bibliotheek bestudeerd en geleerd: "Als de gebruiker dit zegt, moet ik eerst dit doen, dan kijken, en pas dan het volgende doen."

4. Waarom is dit zo speciaal?

Vroeger moesten mensen betalen voor dure, gesloten systemen (zoals die van grote tech-bedrijven) om foto's goed aan te passen. Open-source systemen (gratis software) waren vaak niet slim genoeg voor moeilijke opdrachten.

MIRA is als een gratis upgrade die je op die gratis software kunt zetten. Het maakt de gratis systemen zo slim dat ze zelfs beter kunnen presteren dan de dure, betaalde systemen. Het is alsof je een gewone fiets krijgt met een elektrische motor erop: je rijdt nog steeds op je fiets, maar je komt veel verder en sneller.

Samenvattend

MIRA is een slimme tussenpersoon die complexe foto-opdrachten opbreekt in kleine, beheersbare stukjes. Hij kijkt na elke stap of het resultaat klopt, corrigeert fouten direct, en zorgt ervoor dat de uiteindelijke foto precies is zoals jij het in gedachten had. Het is de overgang van "een opdracht geven en hopen dat het lukt" naar "een gesprek voeren met de computer tot het perfect is."

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →