DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Die Arbeit stellt DLEBench vor, den ersten Benchmark zur systematischen Evaluierung der Fähigkeit von instruktionsbasierten Bildbearbeitungsmodellen, kleine Objekte präzise zu bearbeiten, und führt ein neues Bewertungsprotokoll ein, um die Lücke zwischen maschinellen und menschlichen Urteilen zu schließen.

Shibo Hong, Boxian Ai, Jun Kuang, Wei Wang, FengJiao Chen, Zhongyuan Peng, Chenhao Huang, Yixin Cao

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr cleveren digitalen Maler, dem Sie sagen: „Mach den kleinen roten Ball in der Ecke blau." Ein normaler Maler würde sofort den Ball finden und ihn umfärben. Aber was, wenn dieser digitale Maler so sehr auf das große Bild achtet, dass er den winzigen Ball gar nicht sieht? Stattdessen färbt er vielleicht den großen roten Teppich daneben blau oder verwechselt den Ball mit einem anderen Objekt.

Genau dieses Problem untersucht die Forschungsarbeit DLEBench. Hier ist eine einfache Erklärung, was die Autoren getan haben, ohne den akademischen Jargon:

1. Das Problem: Die „Nadel im Heuhaufen"-Situation

Bisher waren die Tests für KI-Bildbearbeitung wie ein Spiel, bei dem man nur große, offensichtliche Dinge ändern musste (z. B. „Tausche den ganzen Himmel aus"). Die KIs waren darin sehr gut. Aber im echten Leben wollen wir oft kleine Details korrigieren: Ein falsches Schild auf einem Gebäude, die Farbe eines kleinen Schmuckstücks oder ein winziger Fehler in einem Foto.

Die Autoren sagen: „Unsere KIs sind wie Riesen, die versuchen, eine Perle aufzuheben. Sie sehen die Perle nicht, weil sie zu groß sind, oder sie zerquetschen sie versehentlich." Die aktuellen KIs scheitern oft daran, diese kleinen Objekte genau zu lokalisieren.

2. Die Lösung: Ein neuer Prüfstand (DLEBench)

Um das zu messen, haben die Forscher einen neuen Test entwickelt, den sie DLEBench nennen.

  • Der Aufbau: Sie haben fast 1.900 Bilder gesammelt, auf denen das Objekt, das geändert werden soll, winzig ist (nur 1% bis 10% der Bildfläche).
  • Die Aufgaben: Die KI muss Dinge tun wie: „Ändere die Farbe des kleinen grünen Schals", „Entferne den kleinen Vogel" oder „Ändere die Schrift auf dem kleinen Schild".
  • Die Besonderheit: Viele dieser Objekte sind teilweise verdeckt oder liegen in einem chaotischen Hintergrund. Das ist wie ein Suchspiel, bei dem man die Nadel im Heuhaufen finden muss, bevor man sie umfärben kann.

3. Das neue Bewertungssystem: Der „Zwei-Modus-Prüfer"

Das war die größte Herausforderung: Wie bewertet man, ob die KI das kleine Objekt richtig bearbeitet hat?

  • Das alte Problem: Früher haben andere KIs (die als Richter fungieren) die Bilder bewertet. Aber diese „KI-Richter" waren oft blind für winzige Details. Sie sagten: „Alles sieht gut aus!", obwohl die KI den falschen Gegenstand geändert hatte. Das ist wie ein Schiedsrichter, der nicht sieht, ob der Ball über die Linie war.
  • Die neue Methode: Die Autoren haben zwei neue Wege entwickelt, um die Ergebnisse zu prüfen:
    1. Der Werkzeug-Modus (Tool-driven): Die KI bekommt spezielle Werkzeuge wie eine Lupe oder einen Vergleichs-Scanner. Sie muss aktiv nach dem Objekt suchen, es heranzoomen und dann entscheiden. Das zwingt die KI, genauer hinzusehen.
    2. Der Oracle-Modus (Oracle-guided): Hier helfen die Menschen. Sie haben dem System bereits gesagt: „Hier ist das kleine Objekt." Die KI muss sich dann nur noch darauf konzentrieren, ob die Bearbeitung an diesem Ort korrekt war, ohne erst suchen zu müssen.

4. Was haben sie herausgefunden?

Als sie 10 verschiedene KI-Modelle (sowohl kostenlose als auch teure, geschlossene Modelle) getestet haben, war das Ergebnis ernüchternd:

  • Die KIs sind bei kleinen Dingen noch sehr schlecht. Selbst die besten Modelle scheitern oft daran, das richtige kleine Objekt zu finden.
  • Verwechslungsgefahr: Oft ändern die KIs das falsche Objekt (z. B. den Schal der falschen Person).
  • Übertreibung: Manchmal finden sie das Objekt, ändern aber zu viel (z. B. färben sie nicht nur den Schal, sondern auch das Gesicht der Person).
  • Überraschung: Ein offenes, kostenloses Modell (Bagel-Think) hat in manchen Fällen besser abgeschnitten als ein teures, geschlossenes Modell (GPT-Image-1). Das zeigt, dass Größe und Preis nicht immer die beste Leistung bei kleinen Details garantieren.

Fazit

Diese Arbeit ist wie ein neuer, sehr strenger Lehrer für KI-Künstler. Er sagt: „Es reicht nicht, große Bilder zu bearbeiten. Wenn ihr wirklich nützlich sein wollt, müsst ihr lernen, auch die kleinsten Details präzise zu handhaben."

Der Test (DLEBench) und die neuen Bewertungsmethoden sind jetzt frei verfügbar, damit Forscher ihre KIs trainieren können, diese „Nadel im Heuhaufen"-Probleme endlich zu lösen. Das Ziel ist, dass wir in Zukunft KI nutzen können, um nicht nur ganze Bilder neu zu malen, sondern um winzige Fehler in Fotos oder Kunstwerken perfekt zu korrigieren.