ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework

Deze paper introduceert ScaleEditor, een volledig open-source multi-agent framework dat de dataset ScaleEdit-12M genereert, waarmee kosteneffectieve en schaalbare training van multimodale modellen voor beeldbewerking mogelijk wordt gemaakt zonder afhankelijkheid van gesloten API's.

Guanzhou Chen, Erfei Cui, Changyao Tian, Danni Yang, Ganlin Yang, Yu Qiao, Hongsheng Li, Gen Luo, Hongjie Zhang

Gepubliceerd 2026-03-24
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die foto's wil aanpassen. Je wilt een auto in een foto veranderen in een paard, de achtergrond van een zandstrand naar een stadsstraat brengen, of tekst op een bordje veranderen. Dit heet "beeldbewerking op basis van instructies".

Vroeger was dit heel moeilijk voor computers. Ze konden de instructies vaak niet goed begrijpen of maakten rare, onnatuurlijke foto's. Om dit te verbeteren, hebben onderzoekers een enorm "trainingsboek" nodig met duizenden voorbeelden van: Hier is een foto, hier is de opdracht, en hier is het perfecte resultaat.

Het probleem? De beste voorbeelden werden tot nu toe gemaakt door dure, gesloten computersystemen (zoals die van grote tech-bedrijven). Dat kost veel geld en is niet voor iedereen beschikbaar.

Hier komt ScaleEdit-12M en ScaleEditor om de hoek kijken. Laten we uitleggen wat ze hebben gedaan, met een paar leuke vergelijkingen.

1. Het Probleem: De Dure Kookschool

Stel je voor dat je wilt leren koken. De beste koks werken in dure restaurants met gespecialiseerde apparatuur (de "gesloten systemen"). Om te leren, moet je die restaurants bezoeken, maar dat kost een fortuin.
Aan de andere kant zijn er openbare keukens (open-source modellen), maar daar zijn de recepten vaak saai, de ingrediënten beperkt, en de resultaten soms niet lekker. De onderzoekers vroegen zich af: "Kunnen we een eigen, gratis 'super-keuken' bouwen die net zo goed is als die dure restaurants, maar dan met slimme robots?"

2. De Oplossing: Het Team van Slimme Robots (Multi-Agent Framework)

In plaats van één robot die alles probeert te doen, hebben ze een heel team van gespecialiseerde robots opgezet, genaamd ScaleEditor. Dit team werkt als een goed georganiseerd productielijn:

  • De Verzamelaar (Bronverrijking):
    Eerst moet je ingrediënten verzamelen. De robots zoeken niet alleen in bestaande fotoalbums, maar gaan ook het internet op om de leukste, meest diverse foto's te vinden. Ze denken: "We hebben foto's van stranden nodig, maar ook van steden, dieren, en rare situaties." Ze maken zelfs nieuwe foto's die er echt uitzien, zodat ze genoeg materiaal hebben om mee te werken.
    Vergelijking: Het is alsof je niet alleen naar de supermarkt gaat, maar ook zelf een eigen tuin aanlegt en een fabriek opzet om verse groenten te telen.

  • De Chef-koks (Adaptieve Multi-Agent Synthese):
    Nu hebben ze de foto's, maar wat moeten ze ermee doen? Hier komt het slimme deel. Een "Router" (een soort chef) kijkt naar elke foto en zegt: "Deze foto is perfect om een paraplu toe te voegen, maar niet om de kleur van de lucht te veranderen."
    Vervolgens sturen ze de foto naar de juiste specialist:

    • De Tekst-specialist past teksten op borden aan.
    • De Kleur-specialist verandert de kleur van kleding.
    • De Redeneer-specialist denkt na over logische veranderingen (bijv. "Als ik een ei breek, moet het geel en vloeibaar zijn").
      Vergelijking: Het is als een restaurant waar elke kok alleen zijn eigen specialiteit doet. De ene kok is een meester in het snijden, de andere in het bakken. Samen maken ze een perfect gerecht.
  • De Kwaliteitscontroleurs (Task-Aware Quality Verification):
    Voordat een foto het "trainingsboek" in mag, wordt hij streng gecontroleerd. Een andere robot kijkt: "Zit de nieuwe paraplu er echt op? Is de schaduw natuurlijk? Begrijpt de foto wat er gevraagd werd?"
    Als het antwoord "nee" is, wordt de foto weggegooid. Alleen de perfecte foto's komen in het boek.
    Vergelijking: Het is alsof je een strikte keurmeester hebt die elke taart proeft. Als er een kruimel in zit, gaat de taart de prullenbak in. Alleen de perfecte taarten komen in de winkel.

3. Het Resultaat: Het Grootste Open Boek (ScaleEdit-12M)

Dit proces heeft geleid tot ScaleEdit-12M.

  • Grootte: Het bevat 12 miljoen voorbeelden. Dat is gigantisch! Ter vergelijking: andere gratis boeken hadden vaak maar 1 of 2 miljoen.
  • Diversiteit: Het dekt alles: van het veranderen van de kleding van een persoon tot het veranderen van het hele landschap, en zelfs het toevoegen van logische redeneringen.
  • Kwaliteit: Omdat de robots zo streng zijn geweest, is de kwaliteit net zo goed als die van de dure, gesloten systemen, maar dan gratis en openbaar.

4. Wat levert dit op?

De onderzoekers hebben dit boek gebruikt om twee slimme computers (genaamd UniWorld-V1 en Bagel) te trainen.
Het resultaat? Deze computers werden veel beter in het begrijpen en uitvoeren van instructies.

  • Ze konden nu veel natuurlijker foto's aanpassen.
  • Ze begrepen complexe opdrachten beter (bijv. "Maak het beeld als een Amerikaanse strip").
  • Ze presteerden net zo goed als de dure systemen van grote bedrijven.

Samenvatting in één zin

De onderzoekers hebben een slim team van gratis robots gebouwd dat samenwerkt om een enorm, hoogwaardig trainingsboek te maken, zodat elke computer in de wereld kan leren om foto's op een natuurlijke en creatieve manier aan te passen, zonder dat je daarvoor miljoenen euro's hoeft uit te geven.

Het bewijst dat je met slimme samenwerking (multi-agent) en open source technologie net zo goed kunt presteren als de dure, gesloten systemen van de grote tech-giganten.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →