Referring Layer Decomposition

Die Arbeit stellt die neue Aufgabe der „Referring Layer Decomposition" (RLD) vor, die durch den großen Datensatz RefLade und das Basismodell RefLayer ermöglicht, aus einzelnen RGB-Bildern unter Verwendung flexibler Benutzeranweisungen präzise, objektbewusste RGBA-Ebenen zu generieren.

Fangyi Chen, Yaojie Shen, Lu Xu, Ye Yuan, Shu Zhang, Yulei Niu, Longyin Wen

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🎨 Das magische Bild-Entschichtung: Wie man aus einem Foto einzelne Teile „herauszaubert"

Stell dir vor, du hast ein fertiges Gemälde oder ein Foto. Normalerweise ist das Bild wie ein einziger, flacher Kuchen: Du kannst nicht einfach die Schicht mit dem Hund herausnehmen, ohne den Hintergrund zu beschädigen. Wenn du den Hund verschieben willst, musst du das ganze Bild neu malen.

Die Forscher von ByteDance haben jetzt eine neue Methode entwickelt, die dieses Problem löst. Sie nennen es Referring Layer Decomposition (RLD).

1. Das Problem: Der flache Kuchen vs. der Schichtkuchen

Bisherige KI-Modelle sehen ein Bild als einen einzigen Haufen Pixel. Wenn du sagst: „Mach den Hund größer", versucht die KI, den Hund neu zu malen, aber sie weiß nicht genau, wo der Hund aufhört und der Baum dahinter anfängt. Es ist, als würdest du versuchen, eine Schicht Sahne von einem festgebackenen Kuchen zu heben, ohne den Rest zu zerstören.

Die neue Idee ist, das Bild in transparente Folien (Layer) zu zerlegen – genau wie in Photoshop.

  • Eine Folie hat nur den Hund (inklusive des Teils, der hinter dem Baum versteckt ist).
  • Eine andere Folie hat nur den Baum.
  • Eine dritte hat den Himmel.

Wenn du den Hund jetzt verschieben willst, nimmst du einfach die Hund-Folie und legst sie woanders hin. Der Hintergrund bleibt unberührt.

2. Die Lösung: Ein neuer Zaubertrick (RLD)

Die Forscher haben eine Aufgabe definiert, bei der die KI ein normales Foto nimmt und eine bestimmte Folie daraus extrahiert, basierend auf deinem Wunsch.

  • Der Trick: Du kannst der KI sagen: „Hole mir den braunen Hund" (Text) oder einfach einen Punkt auf den Hund setzen (Raum-Input).
  • Das Ergebnis: Die KI gibt dir nicht nur den sichtbaren Hund, sondern den kompletten Hund – auch den Teil, der im Originalbild hinter dem Zaun versteckt war. Sie „erfindet" den fehlenden Teil logisch und fügt ihn nahtlos ein.

3. Der riesige Trainings-Atlas (RefLade)

Damit die KI das lernen kann, braucht sie Millionen von Beispielen. Aber niemand hat 1 Million Fotos, bei denen man schon weiß, wie die versteckten Teile aussehen.

Also bauten die Forscher eine automatische Fabrik (Data Engine):

  • Sie nehmen normale Fotos.
  • Eine KI schaut sich das Bild an und sagt: „Da ist ein Hund, der hinter einem Auto steht."
  • Eine andere KI „malt" den versteckten Teil des Hundes nach (Inpainting).
  • Sie schneiden das Ergebnis in eine transparente Folie.
  • Sie fügen eine Beschreibung hinzu: „Der braune Hund".

Das Ergebnis ist RefLade: Ein riesiges Datenset mit 1,11 Millionen solchen Bild-Folie-Paaren. Es ist wie ein riesiges Lehrbuch, in dem die KI gelernt hat, wie man unsichtbare Teile von Objekten rekonstruiert.

4. Der Schüler (RefLayer)

Auf Basis dieses riesigen Lehrbuchs haben sie ein neues Modell namens RefLayer gebaut.

  • Wie es funktioniert: Es ist wie ein sehr geschickter Assistent. Du gibst ihm ein Foto und sagst: „Zeig mir nur die rote Jacke."
  • Die Leistung: Der Assistent schneidet die rote Jacke perfekt aus dem Bild, inklusive des Teils, der unter dem Arm versteckt war, und gibt dir eine transparente Datei, die du überall hinsetzen kannst.

5. Warum ist das so wichtig?

Stell dir vor, du willst ein Foto von einem Urlaub bearbeiten, aber du hast nur ein altes Bild.

  • Früher: Du musstest das ganze Bild neu generieren, und der Himmel sah vielleicht anders aus oder das Auto war woanders.
  • Jetzt: Mit dieser Technik kannst du den Hund aus dem Bild nehmen, ihn auf einen anderen Strand setzen, und der Hund sieht immer noch genau so aus, als wäre er dort immer gewesen. Du kannst Objekte verschieben, entfernen oder neu kombinieren, ohne den Rest des Bildes zu zerstören.

Zusammenfassung in einem Satz

Die Forscher haben eine neue Art von KI-Brille erfunden, die es uns erlaubt, ein fertiges Foto in seine einzelnen, durchsichtigen Schichten zu zerlegen – inklusive der Teile, die im Originalbild versteckt waren – und diese Schichten dann ganz einfach neu zu arrangieren, als wären sie Legosteine.

Das Ziel: Bilder nicht mehr als starre Flächen zu sehen, sondern als flexible, bearbeitbare Objekte, die man mit einem einfachen Wort oder einem Klick steuern kann.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →