FireRed-Image-Edit-1.0 Technical Report

Der Bericht stellt FireRed-Image-Edit vor, ein diffusion-basiertes Transformer-Modell für instruktionsgesteuerte Bildbearbeitung, das durch eine optimierte Datenkurierung, einen mehrstufigen Trainingsprozess und neuartige Techniken zur Stabilisierung sowie durch die Einführung des umfassenden REDEdit-Bench-Tests benchmarks den State-of-the-Art in diesem Bereich erreicht.

Super Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo

Veröffentlicht 2026-02-23
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen magischen Bildhauer, der nicht nur aus Stein, sondern aus Licht und Pixeln arbeitet. Dieser Bildhauer heißt FireRed-Image-Edit.

Bisher waren solche magischen Werkzeuge entweder wie verschlossene Black-Boxen (nur große Firmen durften sie benutzen) oder wie riesige, unförmige Elefanten, die so viel Strom fraßen, dass sie kaum noch beweglich waren. Das Team von Xiaohongshu (einer chinesischen Social-Media-Plattform) hat sich gedacht: „Warum müssen wir Elefanten züchten, wenn wir auch einen schlauen, präzisen Handwerker bauen können?"

Hier ist die Geschichte von FireRed, einfach erklärt:

1. Das riesige Kochbuch (Die Daten)

Ein Bildhauer kann nur gut arbeiten, wenn er viele Beispiele gesehen hat. Die Forscher haben ein Kochbuch mit 1,6 Milliarden Rezepten zusammengestellt.

  • Das Problem: Viele dieser Rezepte waren verdorben, doppelte Kopien oder einfach nur Müll.
  • Die Lösung: Sie haben einen extrem strengen „Qualitäts-Filter" entwickelt. Stell dir das wie eine Super-Haushälterin vor, die jedes einzelne Rezept prüft. Sie wirft alles weg, was unscharf ist, Wasserzeichen hat oder künstlich aussieht.
  • Das Ergebnis: Am Ende blieben über 100 Millionen hochwertige Rezepte übrig. Das Besondere: Das Kochbuch ist perfekt ausbalanciert. Es gibt genauso viele Rezepte für das Erstellen neuer Bilder (wie „Mache ein Foto von einer Katze") wie für das Ändern bestehender Bilder (wie „Mache aus der Katze einen Tiger").

2. Der schlaue Assistent (Das Training)

Stell dir vor, du möchtest einem Schüler beibringen, Bilder zu bearbeiten. Wenn du ihm 1000 Bilder gleichzeitig zeigst, die alle unterschiedlich groß sind, wird er verwirrt.

  • Der „Eimer"-Trick: FireRed nutzt einen cleveren Trick namens „Bucket Sampler". Stell dir vor, du sortierst deine Bilder nicht nach Größe, sondern packst sie in Eimer, die genau passen. So muss der Computer nicht ständig Lücken mit weißem Platz füllen (was Zeit und Energie verschwendet).
  • Der Durcheinander-Test: Um den Schüler wirklich schlau zu machen, werfen die Forscher die Bilder und die Anweisungen durcheinander. „Hier ist Bild A, hier ist Bild B, und die Anweisung sagt: 'Nimm Bild B'." Der Schüler lernt dadurch, dass die Reihenfolge egal ist, solange er den Inhalt versteht. Das macht ihn robuster gegen chaotische Befehle.

3. Der Lehrer, der nicht schreit (Die Optimierung)

Beim Lernen gibt es zwei Arten, Fehler zu korrigieren:

  1. Der alte Weg: „Das ist falsch! Mach es nicht!" (Das führt oft dazu, dass der Schüler Angst hat, irgendetwas zu tun).
  2. Der FireRed-Weg: „Das ist gut! Mach das noch öfter!" (Positive Verstärkung).
    FireRed nutzt eine Methode, die den Fokus darauf legt, die guten Ergebnisse zu belohnen, statt nur die schlechten zu bestrafen. Das macht den Lernprozess stabiler und verhindert, dass das Modell „verrückt" wird.

Zudem gibt es einen speziellen Trick für Text in Bildern. Wenn du einen Schild im Bild ändern willst, muss nicht nur der Text stimmen, sondern auch die Schriftart und die Position. FireRed hat einen „Layout-Prüfer" eingebaut, der sicherstellt, dass das Wort „Café" nicht plötzlich riesig und schief auf dem Bild steht, sondern genau dort sitzt, wo es hingehört.

4. Der neue Prüfstein (Der Benchmark)

Bisher gab es keine einheitliche Art, zu sagen, ob ein Bildbearbeitungs-Tool wirklich gut ist. Manche Tests waren zu einfach.

  • REDEdit-Bench: Das Team hat einen neuen, fairen Prüfstein gebaut. Stell dir das wie eine Olympiade für Bildbearbeitung vor. Es gibt 15 verschiedene Disziplinen: Von „Mache das Foto schöner" bis „Ändere den Text auf dem Plakat" oder „Ziehe dem Model ein anderes Kleid an".
  • FireRed hat bei dieser Olympiade nicht nur mitgemacht, sondern gegen die besten kommerziellen und Open-Source-Modelle gewonnen.

Warum ist das wichtig?

Früher musste man für solche Aufgaben riesige, teure Supercomputer nutzen, die nur große Firmen sich leisten konnten. FireRed zeigt, dass man durch kluge Organisation, saubere Daten und intelligente Tricks genauso gute (oder sogar bessere) Ergebnisse erzielen kann, ohne einen Elefanten zu füttern.

Zusammengefasst: FireRed ist wie ein hochqualifizierter, digitaler Handwerker, der mit einem riesigen, sauberen Werkzeugkasten und einem perfekten Lernplan arbeitet. Er versteht, was du willst, verändert nur das, was du ändern möchtest, und lässt den Rest des Bildes unberührt – alles ohne den riesigen Energieverbrauch der alten Riesenmodelle.

Und das Beste: Das Team hat die Baupläne (den Code) und das Werkzeug (das Modell) für alle kostenlos verfügbar gemacht, damit jeder damit kreativ sein kann.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →