ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework

Die Arbeit stellt ScaleEditor vor, ein vollständig open-source Multi-Agent-Framework zur kosteneffizienten Generierung des bisher größten Bildbearbeitungsdatensatzes ScaleEdit-12M, der durch Feinabstimmung multimodaler Modelle zu signifikanten Leistungssteigerungen in allgemeinen und wissensbasierten Bearbeitungsaufgaben führt.

Guanzhou Chen, Erfei Cui, Changyao Tian, Danni Yang, Ganlin Yang, Yu Qiao, Hongsheng Li, Gen Luo, Hongjie Zhang

Veröffentlicht 2026-03-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen digitalen Maler programmieren, der nicht nur Bilder sieht, sondern sie auch auf deine Wünsche hin verändert. Du sagst: „Mach den Himmel blauer" oder „Tausche die Katze gegen einen Hund aus", und der Computer erledigt das. Das klingt toll, aber um so einen Maler zu trainieren, braucht man Millionen von Beispielen: Ein Originalbild, eine Anweisung und das perfekte Ergebnis.

Bisher war das ein großes Problem. Die besten Beispiele kamen von teuren, geschlossenen Systemen (wie den großen KI-Riesen von Firmen), die man nicht einfach kopieren kann. Die offenen, kostenlosen Alternativen waren oft wie ein schlecht sortiertes Werkzeugkasten: voller Fehler, zu wenig Vielfalt oder einfach nur langweilig.

Hier kommt die neue Arbeit „ScaleEdit-12M" ins Spiel. Sie ist wie der Bau eines riesigen, automatisierten Lehrstabs für digitale Maler, der komplett aus kostenlosen Werkzeugen besteht.

Die drei genialen Schritte (Das „ScaleEditor"-Rezept)

Die Forscher haben ein System namens ScaleEditor entwickelt. Man kann es sich wie eine hochmoderne, dreistufige Fabrik vorstellen:

1. Die Materialbeschaffung (Der „Welt-Entdecker")
Statt nur ein paar alte Fotos aus einem Schrank zu nehmen, schicken die Forscher ihre KI auf eine virtuelle Weltreise.

  • Wie es funktioniert: Sie nutzen Suchmaschinen, um Bilder aus der echten Welt zu finden (wie ein Detektiv, der nach spezifischen Szenen sucht), und lassen andere KIs neue Bilder generieren, die wie echte Fotos aussehen.
  • Das Ergebnis: Ein riesiger Fundus von über 10 Millionen einzigartigen Bildern, von Strandlandschaften bis zu städtischen Szenen. Es ist, als würde man den gesamten Inhalt des Internets in einen riesigen, organisierten Vorratsraum packen.

2. Die Werkstatt mit Spezialisten (Der „Multi-Agenten-Team")
Jetzt haben sie das Material, aber sie brauchen jemanden, der die Bilder bearbeitet und die Anweisungen schreibt. Früher gab es nur einen einzigen, starren Roboter, der immer das Gleiche tat.

  • Die neue Idee: Sie haben ein Team aus 24 verschiedenen KI-Spezialisten (Agenten) zusammengestellt.
    • Ein Spezialist ist gut darin, Text auf Schildern zu ändern.
    • Ein anderer ist ein Meister darin, Materialien zu tauschen (z. B. Stein zu Glas).
    • Ein Dritter ist ein Logik-Experte, der komplexe Anweisungen versteht („Mach den Himmel so, als würde es gleich regnen").
  • Der Router: Ein intelligenter „Vorgesetzter" (Router) schaut sich jedes Bild an und sagt: „Du, Text-Spezialist, komm mal her! Und du, Material-Experte, du bist dran!" So wird jedes Bild genau so bearbeitet, wie es am besten passt. Das ist wie ein Restaurant, in dem jeder Koch nur die Gerichte zubereitet, für die er der Beste ist.

3. Die Qualitätskontrolle (Der „Strenge Kritiker")
In einer normalen Fabrik würde man vielleicht einfach alles durchlassen. Hier nicht.

  • Der Prüfer: Eine sehr starke KI (Qwen2.5-VL) schaut sich jedes Ergebnis an. Sie fragt sich: „Hat das Bild wirklich das getan, was gesagt wurde? Sieht es natürlich aus? Sind keine seltsamen Artefakte entstanden?"
  • Die Regel: Nur die absolut perfekten Beispiele (die eine 3 von 3 Punkten bekommen) dürfen in den Datensatz. Alles andere wird aussortiert. Das ist wie ein strenger Koch, der nur die perfekten Gerichte auf die Speisekarte setzt und den Rest in den Müll wirft.

Das Ergebnis: ScaleEdit-12M

Am Ende haben sie ScaleEdit-12M geschaffen. Das ist der größte Datensatz seiner Art, der je von einer offenen Gemeinschaft erstellt wurde.

  • Größe: 12 Millionen Bild-Anweisung-Paare.
  • Vielfalt: Es deckt 23 verschiedene Arten von Bearbeitungen ab, von einfachen Farbänderungen bis hin zu komplexen logischen Aufgaben.

Warum ist das wichtig? (Der Test)

Um zu beweisen, dass ihre Methode funktioniert, haben sie zwei bekannte KI-Modelle (UniWorld-V1 und Bagel) mit diesen neuen Daten trainiert.

  • Das Ergebnis: Die Modelle wurden deutlich besser. Auf manchen Tests verbesserten sie sich um bis zu 150 %!
  • Der Vergleich: Die Modelle, die mit ihren kostenlosen Daten trainiert wurden, waren genauso gut (oder sogar besser) als Modelle, die mit teuren, kommerziellen Daten trainiert wurden.

Fazit in einem Satz

Die Forscher haben gezeigt, dass man mit einem cleveren Team aus KI-Agenten und strengen Qualitätsprüfern eine riesige, hochwertige „Schule" für Bildbearbeitung bauen kann – komplett kostenlos und ohne auf teure Firmen-APIs angewiesen zu sein. Es ist der Beweis, dass Open-Source-Intelligenz jetzt kommerzielle Qualität erreichen kann, wenn man die richtigen Werkzeuge und Prozesse nutzt.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →