InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Die Arbeit stellt InEdit-Bench vor, das erste Benchmark zur Evaluierung der Fähigkeit multimodaler Generativmodelle, logisch kohärente Zwischenschritte bei komplexen Bildbearbeitungsaufgaben zu planen, und zeigt dabei erhebliche Defizite bestehender Modelle auf.

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang, Zenghui Xiong, Yifan Ding, Aoxiang Ping, Xiang Li, Tong Guo, Yao Mao

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Freund erklären, wie man ein Haus baut.

Die meisten aktuellen KI-Modelle für Bildbearbeitung sind wie ein Zauberstab: Du sagst „Baue ein Haus", und Zack – da steht es. Das ist beeindruckend, aber es ist nur ein Ergebnis. Die KI weiß nicht wirklich, wie sie vom leeren Grundstück zum fertigen Haus gekommen ist. Sie hat die Baupläne, den Zementmischen und das Mauern nicht wirklich verstanden; sie hat einfach das Endergebnis aus dem Hut gezaubert.

Das Problem: Wenn du der KI sagst „Baue das Haus, aber zeig mir auch den Weg dorthin", stolpern die meisten Modelle. Sie können den Zwischenweg nicht logisch nachvollziehen.

Hier kommt InEdit-Bench ins Spiel.

Was ist InEdit-Bench? (Der neue Fahrprüf-Test)

Stell dir InEdit-Bench nicht als Test vor, bei dem man nur schaut, ob das Auto am Ziel ankommt. Es ist eher wie ein Fahrprüf-Test für den gesamten Weg.

Die Forscher haben eine neue „Prüfungsstrecke" für KI-Modelle entwickelt. Die Aufgabe ist nicht mehr: „Mach das Bild rot."
Die neue Aufgabe lautet: „Zeig mir Schritt für Schritt, wie sich das Bild von A nach B verändert, und zwar so, dass jeder Schritt logisch und physikalisch sinnvoll ist."

Die KI muss also nicht nur das Zielbild malen, sondern eine Reihe von Bildern (ein Film) erstellen, die den Übergang zeigen.

Die vier Prüfungs-Kategorien

Die Prüfstrecke ist in vier verschiedene Geländearten unterteilt, um die KI auf die Probe zu stellen:

  1. Der Baustellen-Check (Zustandsübergang):
    • Beispiel: Von einem Haufen loser Lego-Steine zu einem fertigen Schloss.
    • Die Herausforderung: Die KI muss verstehen, dass man erst das Fundament bauen muss, dann die Wände und erst zum Schluss das Dach. Sie darf nicht einfach das Dach auf den Haufen werfen.
  2. Der Fluss-Check (Dynamischer Prozess):
    • Beispiel: Wie ein Spinnennetz gewebt wird oder wie ein Gebäude abgerissen wird.
    • Die Herausforderung: Hier geht es um fließende Bewegungen. Die KI muss verstehen, dass sich Dinge langsam verändern und nicht einfach springen.
  3. Der Kalender-Check (Zeitliche Abfolge):
    • Beispiel: Wie eine Blume blüht oder wie eine Wüste wächst.
    • Die Herausforderung: Die KI muss das Konzept der Zeit verstehen. Eine Blume blüht nicht in einer Sekunde; sie braucht Tage.
  4. Der Wissenschafts-Check (Wissenschaftliche Simulation):
    • Beispiel: Wie sich Chemikalien mischen oder wie eine Zelle sich teilt.
    • Die Herausforderung: Hier darf die KI keine Fehler gegen die Gesetze der Physik oder Chemie machen. Wenn sich zwei Stoffe mischen, muss das Ergebnis chemisch korrekt sein.

Wie wird bewertet? (Der strenge Prüfer)

Früher haben Forscher nur geschaut: „Sieht das Endergebnis gut aus?"
Bei InEdit-Bench schaut ein KI-Prüfer (ein sehr schlauer Algorithmus) genau hin:

  • Logik: Ist Schritt 3 wirklich eine logische Folge von Schritt 2? Oder springt die KI einfach von A nach C?
  • Wissenschaft: Passt das, was wir sehen, zu den Naturgesetzen? (Z.B. fließt Wasser wirklich bergab?)
  • Konsistenz: Sieht das Haus in Schritt 1 noch ähnlich aus wie in Schritt 5, bevor es fertig ist?

Was haben sie herausgefunden? (Die schlechten Noten)

Die Forscher haben 14 verschiedene KI-Modelle (sowohl die bekannten teuren Firmen-KIs als auch die kostenlosen Open-Source-Modelle) auf dieser Strecke getestet.

Das Ergebnis war ernüchternd:

  • Die meisten KIs sind wie Schüler, die nur die Lösung auswendig gelernt haben, aber den Rechenweg nicht verstehen.
  • Sie schaffen es oft, das Endergebnis halbwegs gut zu malen, aber der Weg dorthin ist chaotisch.
  • Viele Modelle springen Schritte über, machen logische Fehler (z.B. ein Haus hat erst das Dach, dann die Wände) oder verstehen wissenschaftliche Prozesse gar nicht.
  • Selbst die besten Modelle erreichten nur eine „Bestehensquote" von etwa 16 %. Das bedeutet: In 84 % der Fälle hat die KI den logischen Weg nicht richtig verstanden.

Warum ist das wichtig?

Bisher haben wir KIs trainiert, wie ein Koch, der nur das fertige Gericht serviert.
Mit InEdit-Bench wollen wir KIs trainieren, die wie ein Koch-Student sind, der den gesamten Prozess versteht: vom Schneiden der Zwiebeln bis zum Anrichten.

Wenn wir KIs beibringen, diese Zwischenwege zu verstehen, können wir sie in Zukunft für viel komplexere Aufgaben einsetzen:

  • Nicht nur Bilder bearbeiten, sondern Probleme lösen.
  • Nicht nur Bilder generieren, sondern wissenschaftliche Prozesse simulieren.
  • Echte kreative Planung statt nur Zufallsgenerierung.

Zusammenfassend: InEdit-Bench ist wie ein neuer, sehr strenger Führerschein-Test für Bild-KIs. Er zeigt uns, dass die meisten KIs zwar gut darin sind, das Ziel zu erreichen, aber noch viel lernen müssen, um den Weg dorthin logisch und intelligent zu planen.