Coherent and Multi-modality Image Inpainting via Latent Space Optimization

Dit paper introduceert PILOT, een nieuwe optimalisatiebenadering die bestaande diffusiemodellen gebruikt om coherent en multi-modale beeldinpainting te genereren door middel van latente ruimte-optimalisatie, zonder dat verdere fine-tuning nodig is.

Lingzhi Pan, Tong Zhang, Bingyuan Chen, Qi Zhou, Wei Ke, Sabine Süsstrunk, Mathieu Salzmann

Gepubliceerd 2026-02-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een oude foto hebt met een groot gat erin, of dat je een schilderij wilt maken maar een stukje canvas mist. Vroeger probeerden computers dit gat op te vullen door te raden wat er zou kunnen staan, maar dat resulteerde vaak in rare, onscherpe vlekken die niet bij de rest van de foto pasten.

Deze paper introduceert een nieuwe methode genaamd PILOT. De naam is geen toeval: het staat voor inPainting vIa Latent OpTimization. Laten we uitleggen wat dit betekent, zonder de ingewikkelde wiskunde.

Het Probleem: De "Blindeman" aan het Bestuur

Stel je voor dat een kunstenaar (de computer) een schilderij moet maken.

  • De oude manier (Fine-tuning): De kunstenaar moet eerst maandenlang extra lessen volgen met specifieke voorbeelden voordat hij aan de slag kan. Dit is traag, duur en als je iets anders wilt schilderen, moet hij opnieuw leren.
  • De tweede manier (Samenvoegen): De kunstenaar neemt een stukje van de bestaande foto en plakt er een nieuw stukje bij. Het probleem? De randen kloppen niet. De kleuren lopen door elkaar en het nieuwe stukje lijkt niet op de oude foto. Het is alsof je een nieuwe deur in een oud huis probeert te plakken, maar de kozijnen passen niet.

De Oplossing: PILOT als De Slimme Regisseur

PILOT doet iets heel anders. Het gebruikt een kunstenaar die al een meester is (een groot, vooraf getraind model) en zegt: "Je hoeft niet te leren, je hoeft alleen maar even bij te sturen terwijl je schildert."

Hier is hoe het werkt, met een paar creatieve vergelijkingen:

1. Het "Gidsen" tijdens het Schilderen (Latent Space Optimization)

In plaats van het schilderij in één keer te maken, schildert de computer het stap voor stap, van een wazige vlek naar een scherp beeld.

  • De Analogie: Stel je voor dat je een foto van een berg probeert te tekenen, maar je hebt een gat in het papier waar de bergtop moet komen.
  • PILOT's truc: Terwijl de computer de berg tekent, kijkt hij constant naar de rest van het landschap (de achtergrond) en naar wat jij wilt (bijvoorbeeld: "een rode bergtop").
  • De "Zemantische Centralisatie": Dit is als een onzichtbare magneet. Hij trekt alle ideeën over de "rode berg" naar het gat in het papier en duwt ze weg uit de rest van de foto. Zo voorkomt hij dat er per ongeluk een rode berg in de lucht of in de zee verschijnt.
  • De "Achtergrondbehoud": Dit is als een onzichtbare muur. Hij zorgt ervoor dat de computer de bestaande foto (de achtergrond) niet per ongeluk herschildert. De oude boom links blijft een oude boom, alleen het gat wordt opgevuld.

2. De "Tijdsbesparing" (De Coherentie-Schaal)

Soms wil je snel een idee zien, soms wil je een perfect schilderij.

  • De Analogie: Stel je voor dat je een cake bakt. De eerste 10 minuten zijn cruciaal om de vorm te geven (de structuur). De laatste 10 minuten zijn voor het glazuur en de details.
  • PILOT heeft een knop (genaamd γ).
    • Als je de knop op "snel" zet, stopt de computer met het bijsturen na de eerste 10 minuten. De cake heeft de juiste vorm, maar misschien niet de allerbeste details.
    • Als je de knop op "kwaliteit" zet, blijft de computer bijsturen tot het einde. De cake wordt perfect, maar het duurt iets langer.
    • Dit zorgt ervoor dat je binnen 10 seconden al een prachtig resultaat hebt op je computer.

3. Alles Werkt Samen (Multi-modality)

Het mooie van PILOT is dat het niet alleen luistert naar tekst.

  • Je kunt zeggen: "Maak een hond." (Tekst)
  • Je kunt een tekening van een hond laten zien. (Afbeelding)
  • Je kunt met een potje op het scherm krabbelen waar de hond moet staan. (Scribbles)
  • PILOT luistert naar alles tegelijk en zorgt dat de hond eruitziet zoals jij wilt, op de plek waar jij wilt, zonder dat de rest van de foto verandert.

Waarom is dit zo speciaal?

Vroeger was het alsof je een puzzel probeerde te maken waarbij je de stukjes moest herschrijven. PILOT is alsof je een meester-puzzelaar bent die de stukjes precies op de juiste plek legt, terwijl hij zorgt dat de randen perfect aansluiten.

Kortom: PILOT is een slimme regisseur die tijdens het maken van een afbeelding continu bijstuurt. Hij zorgt ervoor dat het nieuwe stukje (het gat) perfect past bij de oude foto, precies doet wat jij vraagt, en dat alles binnen een paar seconden klaar is. Het is alsof je een magische pen hebt die nooit een fout maakt en altijd luistert naar je wensen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →