InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

Die Arbeit stellt InterCoG vor, ein neuartiges Text-Bild-Rahmenwerk mit verflochtener Chain-of-Grounding-Reasoning, das durch eine sequenzielle Kombination aus textbasiertem Positionsverständnis, visueller Verankerung und Beschreibungsumformulierung präzise Bildbearbeitungen in komplexen Szenen ermöglicht, unterstützt durch das neue GroundEdit-45K-Datenset und entsprechende Evaluierungsmethoden.

Yecong Wan, Fan Li, Chunwei Wang, Hao Wu, Mingwen Shao, Wangmeng Zuo

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest ein Foto bearbeiten, auf dem eine große Gruppe von Menschen zu sehen ist. Du sagst einfach: „Ändere das Hemd der Frau in der Mitte in Grün."

Ein herkömmlicher KI-Modell würde wahrscheinlich raten. Es könnte das Hemd der falschen Frau ändern, oder es könnte versehentlich auch die Bäume im Hintergrund grün färben. Es versteht zwar das Wort „Frau", aber es weiß nicht genau, welche Frau du meinst, besonders wenn es viele gibt.

Die Forscher haben mit InterCoG eine neue Lösung entwickelt. Man kann sich das wie einen sehr sorgfältigen Detektiv vorstellen, der nicht einfach nur schaut, sondern erst nachdenkt, dann sucht und erst dann handelt.

Hier ist die Erklärung, wie InterCoG funktioniert, in einfachen Bildern:

1. Das Problem: Der „Raten"-Effekt

Bisherige KI-Modelle sind wie jemand, der durch eine dicke Nebelwand schaut. Wenn du sagst „die Frau links von dem Kind", versucht die KI, das zu erraten. Oft greift sie daneben, weil sie die räumlichen Beziehungen (links, rechts, zwischen) nicht wirklich versteht, sondern nur statistisch errät.

2. Die Lösung: InterCoG – Der dreistufige Detektiv

InterCoG macht etwas ganz anderes. Es nutzt eine Technik namens „Interleaved Chain-of-Grounding" (verflochtene Kette des Verankerens). Stell dir das wie einen dreistufigen Prozess vor:

Schritt 1: Die Text-Detektivarbeit (Das „Warum" und „Wo")

Bevor die KI überhaupt anfängt, das Bild zu ändern, schreibt sie erst einen Gedankenbericht.

  • Analogie: Stell dir vor, du bist ein Architekt, der ein Haus umgestalten will. Bevor du einen Hammer schwingst, zeichnest du erst auf ein Blatt Papier: „Ich suche die Frau. Sie steht zwischen zwei Kindern. Sie hält die Hand des Kindes rechts. Sie ist die zentrale Figur."
  • Die KI nutzt ihre Text-Kenntnisse, um die Szene zu analysieren und sich genau zu überlegen: „Aha, die gesuchte Person ist nicht irgendeine Frau, sondern diese spezifische Frau mit diesen Eigenschaften."

Schritt 2: Die visuelle Markierung (Das „Zeigen")

Nachdem die KI im Text genau weiß, wen sie sucht, zeigt sie es auf dem Bild.

  • Analogie: Der Detektiv nimmt einen roten Stift und malt einen Kasten (Bounding Box) um die Frau und legt eine transparente Maske darüber. Er sagt quasi: „Schau her! Hier ist die Frau! Nicht dort, nicht dort, sondern genau hier!"
  • Das ist der entscheidende Moment: Die KI „verankert" ihre Idee im Bild. Sie sieht jetzt nicht mehr nur Pixel, sondern weiß genau, welcher Bereich zu ihr gehört.

Schritt 3: Der präzise Eingriff (Das „Tun")

Erst jetzt, wenn sie weiß, was sie will (Text) und wo es ist (Bild), führt sie die Änderung durch.

  • Analogie: Jetzt erst nimmt der Architekt den Pinsel und malt nur das Hemd der Frau, die im roten Kasten liegt, grün an. Da er genau weiß, wo die Grenze ist, wird das Hemd des Kindes daneben nicht versehentlich auch grün.

3. Warum ist das so besonders?

Die Forscher haben zwei spezielle Werkzeuge entwickelt, um diesen Prozess zu trainieren:

  • Der „Spiegel-Test" (Rekonstruktion): Die KI wird gezwungen, die Maske (den roten Kasten) immer wieder neu zu zeichnen. Wenn sie die Frau falsch lokalisiert, sieht sie das sofort und lernt daraus. Das ist wie ein Schüler, der eine Landkarte zeichnet und dann prüft, ob er die Städte richtig eingezeichnet hat, bevor er die Reise antritt.
  • Der „Gedanken-Check" (Alignment): Die KI wird darauf trainiert, dass ihre Gedanken (Schritt 1) und ihre Handlungen (Schritt 3) übereinstimmen müssen. Wenn sie im Text sagt „Ich ändere die Frau in der Mitte", aber dann die Frau am Rand ändert, wird sie „bestraft". Das sorgt dafür, dass sie nicht abkürzt.

4. Das Ergebnis: GroundEdit

Um diesen Detektiv zu trainieren, haben die Forscher eine riesige Bibliothek (GroundEdit-45K) mit 45.000 Beispielen erstellt. In jedem Beispiel wurde nicht nur das Bild bearbeitet, sondern auch der ganze Denkprozess (der Textbericht und die rote Markierung) festgehalten.

Zusammenfassend:
Früher haben KI-Modelle beim Bildbearbeiten oft „gezwitschert" und geraten. InterCoG hingegen denkt erst nach, zeigt genau mit dem Finger auf das Ziel und führt dann die Änderung durch. Es ist der Unterschied zwischen jemandem, der im Dunkeln nach einem Schalter tastet, und jemandem, der erst das Licht anmacht, den Schalter findet und ihn dann drückt.

Das Ergebnis sind Bilder, die genau so bearbeitet werden, wie man es sich vorstellt, selbst in sehr chaotischen Szenen mit vielen Menschen und Objekten.