InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Freund erklären, wie man ein Haus baut.

Die meisten aktuellen KI-Modelle für Bildbearbeitung sind wie ein Zauberstab: Du sagst „Baue ein Haus", und Zack – da steht es. Das ist beeindruckend, aber es ist nur ein Ergebnis. Die KI weiß nicht wirklich, wie sie vom leeren Grundstück zum fertigen Haus gekommen ist. Sie hat die Baupläne, den Zementmischen und das Mauern nicht wirklich verstanden; sie hat einfach das Endergebnis aus dem Hut gezaubert.

Das Problem: Wenn du der KI sagst „Baue das Haus, aber zeig mir auch den Weg dorthin", stolpern die meisten Modelle. Sie können den Zwischenweg nicht logisch nachvollziehen.

Hier kommt InEdit-Bench ins Spiel.

Was ist InEdit-Bench? (Der neue Fahrprüf-Test)

Stell dir InEdit-Bench nicht als Test vor, bei dem man nur schaut, ob das Auto am Ziel ankommt. Es ist eher wie ein Fahrprüf-Test für den gesamten Weg.

Die Forscher haben eine neue „Prüfungsstrecke" für KI-Modelle entwickelt. Die Aufgabe ist nicht mehr: „Mach das Bild rot."
Die neue Aufgabe lautet: „Zeig mir Schritt für Schritt, wie sich das Bild von A nach B verändert, und zwar so, dass jeder Schritt logisch und physikalisch sinnvoll ist."

Die KI muss also nicht nur das Zielbild malen, sondern eine Reihe von Bildern (ein Film) erstellen, die den Übergang zeigen.

Die vier Prüfungs-Kategorien

Die Prüfstrecke ist in vier verschiedene Geländearten unterteilt, um die KI auf die Probe zu stellen:

Der Baustellen-Check (Zustandsübergang):
- Beispiel: Von einem Haufen loser Lego-Steine zu einem fertigen Schloss.
- Die Herausforderung: Die KI muss verstehen, dass man erst das Fundament bauen muss, dann die Wände und erst zum Schluss das Dach. Sie darf nicht einfach das Dach auf den Haufen werfen.
Der Fluss-Check (Dynamischer Prozess):
- Beispiel: Wie ein Spinnennetz gewebt wird oder wie ein Gebäude abgerissen wird.
- Die Herausforderung: Hier geht es um fließende Bewegungen. Die KI muss verstehen, dass sich Dinge langsam verändern und nicht einfach springen.
Der Kalender-Check (Zeitliche Abfolge):
- Beispiel: Wie eine Blume blüht oder wie eine Wüste wächst.
- Die Herausforderung: Die KI muss das Konzept der Zeit verstehen. Eine Blume blüht nicht in einer Sekunde; sie braucht Tage.
Der Wissenschafts-Check (Wissenschaftliche Simulation):
- Beispiel: Wie sich Chemikalien mischen oder wie eine Zelle sich teilt.
- Die Herausforderung: Hier darf die KI keine Fehler gegen die Gesetze der Physik oder Chemie machen. Wenn sich zwei Stoffe mischen, muss das Ergebnis chemisch korrekt sein.

Wie wird bewertet? (Der strenge Prüfer)

Früher haben Forscher nur geschaut: „Sieht das Endergebnis gut aus?"
Bei InEdit-Bench schaut ein KI-Prüfer (ein sehr schlauer Algorithmus) genau hin:

Logik: Ist Schritt 3 wirklich eine logische Folge von Schritt 2? Oder springt die KI einfach von A nach C?
Wissenschaft: Passt das, was wir sehen, zu den Naturgesetzen? (Z.B. fließt Wasser wirklich bergab?)
Konsistenz: Sieht das Haus in Schritt 1 noch ähnlich aus wie in Schritt 5, bevor es fertig ist?

Was haben sie herausgefunden? (Die schlechten Noten)

Die Forscher haben 14 verschiedene KI-Modelle (sowohl die bekannten teuren Firmen-KIs als auch die kostenlosen Open-Source-Modelle) auf dieser Strecke getestet.

Das Ergebnis war ernüchternd:

Die meisten KIs sind wie Schüler, die nur die Lösung auswendig gelernt haben, aber den Rechenweg nicht verstehen.
Sie schaffen es oft, das Endergebnis halbwegs gut zu malen, aber der Weg dorthin ist chaotisch.
Viele Modelle springen Schritte über, machen logische Fehler (z.B. ein Haus hat erst das Dach, dann die Wände) oder verstehen wissenschaftliche Prozesse gar nicht.
Selbst die besten Modelle erreichten nur eine „Bestehensquote" von etwa 16 %. Das bedeutet: In 84 % der Fälle hat die KI den logischen Weg nicht richtig verstanden.

Warum ist das wichtig?

Bisher haben wir KIs trainiert, wie ein Koch, der nur das fertige Gericht serviert.
Mit InEdit-Bench wollen wir KIs trainieren, die wie ein Koch-Student sind, der den gesamten Prozess versteht: vom Schneiden der Zwiebeln bis zum Anrichten.

Wenn wir KIs beibringen, diese Zwischenwege zu verstehen, können wir sie in Zukunft für viel komplexere Aufgaben einsetzen:

Nicht nur Bilder bearbeiten, sondern Probleme lösen.
Nicht nur Bilder generieren, sondern wissenschaftliche Prozesse simulieren.
Echte kreative Planung statt nur Zufallsgenerierung.

Zusammenfassend: InEdit-Bench ist wie ein neuer, sehr strenger Führerschein-Test für Bild-KIs. Er zeigt uns, dass die meisten KIs zwar gut darin sind, das Ziel zu erreichen, aber noch viel lernen müssen, um den Weg dorthin logisch und intelligent zu planen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale generative Modelle haben in den letzten Jahren erhebliche Fortschritte bei der statischen Bildbearbeitung (z. B. einmalige Änderungen oder Bildgenerierung) erzielt. Es fehlt ihnen jedoch an der Fähigkeit, dynamische, mehrstufige logische Pfade zu modellieren.

Die Lücke: Bisherige Benchmarks bewerten meist nur das Endergebnis einer Bearbeitung. Sie ignorieren jedoch die „Zwischenstationen" (Intermediate Logical Pathways), die notwendig sind, um von einem Anfangszustand zu einem Endzustand zu gelangen.
Die Herausforderung: Ein Modell muss nicht nur wissen, was das Ziel ist, sondern auch wie der kausale und logische Übergang zwischen Start und Ziel abläuft (z. B. physikalische Gesetze, zeitliche Abfolgen oder logische Abhängigkeiten bei Montageprozessen). Aktuelle Modelle scheitern oft an der Konsistenz und Plausibilität dieser Zwischenschritte.

2. Methodik: InEdit-Bench

Um diese Fähigkeiten systematisch zu messen, stellen die Autoren InEdit-Bench vor, den ersten Benchmark, der sich speziell auf die Generierung und Bewertung von intermediären logischen Pfaden konzentriert.

Datensatz-Aufbau:

Umfang: 237 sorgfältig hand-annotierte Testfälle.
Kategorien: Die Aufgaben sind in vier fundamentale Domänen unterteilt, die 16 Sub-Aufgaben umfassen:
1. Zustandsübergang (State Transition): Diskrete Änderungen (z. B. Montage, Dekoration, Layout-Organisation, Verformung).
2. Dynamischer Prozess (Dynamic Process): Kontinuierliche Transformationen (z. B. Biologie/Natur, koordinierte Bewegung, Alltagsinteraktionen, mechanische Operationen, plötzliche Ereignisse).
3. Zeitliche Sequenz (Temporal Sequence): Evolution über die Zeit (z. B. Umweltveränderungen, Wachstum/Verfall, physikalische Transformationen, Zeitmessung).
4. Wissenschaftliche Simulation: Strikte Einhaltung physikalischer, chemischer oder biologischer Gesetze (z. B. Diffusion, chemische Reaktionen, Zellteilung).
Format: Eingabe sind Start- und Endbilder mit einem Text-Prompt. Die Modelle müssen eine Folge von Bildern generieren, die in einem Gitter (N-Grids) dargestellt wird, wobei jedes Gitter einen logischen Zwischenschritt repräsentiert.

Bewertungsmetriken (6 Dimensionen):
Anstatt nur das Endergebnis zu bewerten, nutzt InEdit-Bench einen mehrdimensionalen Ansatz, der durch ein Large Multimodal Model (LMM, hier GPT-4o) als „Judge" automatisiert wird:

Visuelle Qualität (Basis):
- Appearance Consistency: Konsistenz des Stils über alle Stufen.
- Perceptual Quality: Realismus und Freiheit von Artefakten.
- Semantic Consistency: Übereinstimmung mit dem Bearbeitungsauftrag.
Prozess-orientierte Metriken (Neu & Kernstück):
- Logical Coherence: Sind die Übergänge zwischen benachbarten Stufen logisch und natürlich? (Keine Sprünge, Regressionen oder Redundanzen).
- Scientific Plausibility: Einhaltung wissenschaftlicher Gesetze (geprüft anhand von Wissens-Checklisten).
- Process Plausibility: Fähigkeit des Modells, verschiedene mögliche Pfade zum selben Ziel zu unterscheiden und spezifische Pfad-Constraints einzuhalten.

3. Hauptbeiträge

Einführung von InEdit-Bench: Der erste Benchmark für mehrstufige Bildbearbeitung und dynamisches Reasoning, der den Fokus von statischen Ergebnissen auf den Prozess verlagert.
Detaillierter Datensatz und Protokoll: Erstellung eines annotierten Testsets mit 4 Domänen und 16 Sub-Aufgaben sowie die Definition eines sechsdimensionalen Evaluierungsrahmens.
Umfassende Analyse: Eine systematische Bewertung von 14 repräsentativen Modellen (sowohl proprietär als auch Open-Source), die signifikante Defizite in diesem Bereich aufdeckt.

4. Ergebnisse

Die Evaluation von 14 Modellen (darunter GPT-Image-1, Nano-Banana, Qwen-Image-Edit, OmniGen, Emu, InstructPix2Pix) ergab folgende Erkenntnisse:

Allgemeine Schwäche: Die meisten Modelle zeigen erhebliche Mängel beim mehrstufigen Editing und dynamischen Reasoning. Die „Accuracy" (Anteil an perfekten Samples, bei denen alle Metriken maximal sind) liegt selbst beim besten Modell (GPT-Image-1) nur bei 16,75 %. Die meisten Open-Source-Modelle liegen unter 1 %.
Leistungsunterschiede:
- Proprietäre Modelle (insb. GPT-Image-1 und Nano-Banana) schneiden deutlich besser ab, insbesondere bei logischer Kohärenz und semantischer Konsistenz.
- Open-Source-Modelle (z. B. Qwen-Image-Edit, Bagel) zeigen Potenzial in spezifischen Dimensionen, hinken aber in der Gesamtkonsistenz und beim Verständnis komplexer logischer Pfade hinterher. Viele Open-Source-Modelle erreichen in den Kategorien „Semantische Konsistenz" und „Logische Kohärenz" fast Nullpunkte.
Aufgabenkomplexität: Die Leistung nimmt mit steigender Komplexität ab. Modelle schneiden bei kontinuierlichen Prozessen (dynamische Prozesse) besser ab als bei diskreten Zustandsübergängen oder wissenschaftlichen Simulationen, die tiefes kausales Verständnis erfordern.
Validität: Die automatische Bewertung durch LMMs korreliert stark mit menschlichen Bewertungen (Pearson-Korrelation $r = 0,96$ ), was die Zuverlässigkeit des Benchmarks bestätigt.

5. Bedeutung und Ausblick

InEdit-Bench markiert einen Paradigmenwechsel in der Forschung zur Bildbearbeitung:

Fokusverschiebung: Weg von reinen „Ein-Schritt"-Ergebnissen hin zu Modellen, die prozedurales Denken und kausales Verständnis beherrschen.
Richtungsweisend: Der Benchmark identifiziert klar, dass aktuelle Modelle Schwierigkeiten haben, langfristige Abhängigkeiten und mehrstufige Kausalitäten zu erfassen.
Zukunft: Die Ergebnisse dienen als Leitfaden für die Weiterentwicklung multimodaler Modelle, die nicht nur Bilder manipulieren, sondern komplexe visuelle Szenarien logisch durchdringen und schrittweise transformieren können.

Zusammenfassend zeigt das Paper, dass die nächste Generation intelligenter Bildbearbeitungssysteme nicht nur besser „malen", sondern auch besser „denken" muss, um realistische und logisch konsistente Transformationsprozesse zu generieren.

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Was ist InEdit-Bench? (Der neue Fahrprüf-Test)

Die vier Prüfungs-Kategorien

Wie wird bewertet? (Der strenge Prüfer)

Was haben sie herausgefunden? (Die schlechten Noten)

Warum ist das wichtig?

1. Problemstellung

2. Methodik: InEdit-Bench

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach