Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing

Deze paper introduceert Score-Guided Proximal Projection (SGPP), een unified geometrisch framework dat de kloof tussen deterministische optimalisatie en stochastische sampling overbrugt om Rectified Flow-modellen effectief te sturen voor taken zoals semantische bewerking en beeldherstel, terwijl het bestaande methoden als een speciaal geval omvat en een trainingsvrije afweging biedt tussen identiteitsbehoud en generatieve vrijheid.

Vansh Bansal, James G Scott

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstwerk hebt gemaakt (een foto van een kat), maar je wilt dat het eruitziet als een leeuw, terwijl je de originele houding en achtergrond wilt behouden. Of stel je voor dat je een oude, beschadigde foto hebt die je wilt repareren zonder dat het eruitziet alsof je het hebt nagemaakt.

Dit is het probleem waar kunstmatige intelligentie (AI) vaak tegenaan loopt. De nieuwe generatie AI-modellen (zoals "Rectified Flow") kan prachtige beelden maken, maar ze zijn lastig te sturen. Ze zijn als een auto die perfect rechte lijnen rijdt, maar als je de stuurknuppel wilt gebruiken om een bocht te maken, blijft de auto soms vastzitten in de oude route.

Deze paper introduceert een nieuwe methode genaamd SGPP (Score-Guided Proximal Projection). Laten we dit uitleggen met een paar simpele metaforen.

1. Het Probleem: De "Vaste Route" vs. De "Wilde Gok"

Stel je voor dat je een AI-model hebt dat beelden leert maken. Het heeft een ideale route bedacht om van een willekeurige vlek (ruis) naar een mooi beeld te gaan.

  • Methode A (De "Stijve" Inversie):
    Stel je voor dat je een touw hebt dat de AI van het begin tot het einde van de route vasthoudt. Als je de AI wilt sturen om een kat in een leeuw te veranderen, trek je aan dat touw. Het probleem? Het touw is te strak. De AI kan niet uit de oude lijn stappen. Het resultaat is een kat die eruitziet als een leeuw, maar nog steeds precies de vorm van de kat heeft. Dit noemen de auteurs "geometrisch vergrendelen". Je kunt de AI niet genoeg veranderen.

  • Methode B (De "Wilde" Gok):
    Andere methoden proberen de AI los te laten en te laten gokken wat er mogelijk is. Dit werkt soms goed, maar het is als een dronken man die probeert een rechte lijn te lopen. Het is onstabiel, berekent alles te langzaam en de AI raakt vaak de "goede weg" kwijt, waardoor het beeld vervormd of onherkenbaar wordt.

2. De Oplossing: SGPP (De Elastische Veer)

De auteurs van deze paper zeggen: "Waarom kiezen we voor een strak touw of een losse man? Laten we een elastische veer gebruiken."

SGPP introduceert een nieuw concept: Proximal Projection.
Stel je voor dat je een elastiek hebt dat de AI vasthoudt aan de originele foto (de "referentie"), maar dat elastiek is niet stijf. Het heeft een beetje speling (in de paper "proximal variance" genoemd).

  • De Veer: Als de AI probeert iets te doen dat te ver weg is van de originele foto (bijvoorbeeld de vorm van de kat volledig veranderen), trekt de veer hem terug.
  • De Speling: Maar omdat de veer elastisch is, kan de AI wel een beetje "wijken" om nieuwe details toe te voegen (zoals een leeuwenmanen), zolang het maar binnen een redelijke afstand blijft.

3. Hoe werkt het in de praktijk?

De paper gebruikt wiskunde om te bewijzen dat deze "veer" twee dingen doet die cruciaal zijn:

  1. Het "Aanvatten" van de Goede Weg:
    De AI-modellen hebben een "landkaart" van alle mogelijke mooie beelden (een zogenaamd manifold). Als je een beschadigde foto of een rare invoer hebt, ligt deze vaak niet op die kaart.
    De SGPP-methode zorgt ervoor dat de AI automatisch wordt "getrokken" naar de dichtstbijzijnde plek op die kaart. Het is alsof je een bal op een helling rolt; de bal rolt vanzelf naar de laagste punt (de veilige, mooie plek), zelfs als je hem ergens anders begint. Dit voorkomt dat het beeld "kapot" wordt.

  2. De Balans tussen "Zoals het Oude" en "Nieuw":
    De methode heeft een knop (de "variance" of speling).

    • Knop op 0 (Strak): De AI doet precies wat je zegt, maar verandert niets. Het is een perfecte kopie.
    • Knop op 1 (Lekker los): De AI mag alles veranderen, maar het blijft wel op de goede "kaart" van mooie beelden.
    • Knop ergens tussenin: Dit is de magische zone. Je kunt een kat in een leeuw veranderen, maar de AI onthoudt nog steeds dat het een kat was (dezelfde houding, dezelfde achtergrond).

4. Waarom is dit zo speciaal?

Vroeger moesten mensen kiezen tussen:

  • Stabiel maar saai: De foto blijft precies hetzelfde, alleen de kleur verandert.
  • Leuk maar instabiel: De foto verandert veel, maar wordt vaak wazig of onherkenbaar.

Met SGPP krijgen we het beste van beide werelden. Het is alsof je een GPS hebt die je niet dwingt om exact dezelfde straat te nemen (zoals de oude methoden), maar die je wel waarschuwt als je de weg volledig kwijtraakt. Het laat je een omweg maken voor een mooi uitzicht (de leeuw), maar zorgt ervoor dat je weer op de hoofdweg uitkomt.

Kortom:
Deze paper biedt een slimme, wiskundige manier om AI-kunst te sturen. Het gebruikt een "elastische" kracht die de AI helpt om nieuwe dingen te bedenken (zoals een leeuw), terwijl het tegelijkertijd zorgt dat de basisstructuur (de kat) niet volledig verdwijnt. Het is de perfecte balans tussen trouw aan het origineel en creativiteit.