GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een magische kunstenaar hebt die op basis van je beschrijvingen prachtige schilderijen maakt. Je zegt: "Teken een zwarte auto." En poef, hij maakt er één. Maar als je het nog eens vraagt, maakt hij er weer één die er bijna precies hetzelfde uitziet. Misschien staat de auto net iets anders, maar de achtergrond, de belichting en de stijl zijn steeds hetzelfde.

Dit is het probleem met moderne AI-kunstenaars: ze zijn heel goed in het volgen van instructies, maar ze zijn saai als het gaat om variatie. Ze maken steeds dezelfde "standaardversie" van een idee.

Deze paper introduceert een nieuwe methode, genaamd GASS, om deze kunstenaars creatiever en diverser te maken, zonder hun kwaliteit te verpesten. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Eenzame" Kunstenaar

Stel je voor dat de AI in een enorme, ronde ruimte woont (een wiskundige ruimte die we een "hypersfeer" noemen). Elke afbeelding die de AI maakt, is een punt in deze ruimte.

Als je zegt "zwarte auto", bepaalt dat één richting in de ruimte (de tekst-richting).
Maar er zijn nog duizenden andere dingen die niet zijn vastgelegd: Is de auto in de sneeuw of in de zon? Is het een oude of een nieuwe auto? Is de achtergrond een stad of een bos?

Helaas blijft de AI vaak hangen in één klein hoekje van die ruimte. Ze vergeten de "achtergrond-richting" en de "stijl-richting" te verkennen.

2. De Oplossing: GASS (De GPS voor Variatie)

De auteurs van dit paper hebben een slimme manier bedacht om de AI te dwingen de ruimte beter te verkennen. Ze noemen het GASS (Geometry-Aware Spherical Sampling).

Stel je voor dat je de AI een kaart geeft met twee specifieke pijlen:

Pijl A (De Opdracht): Dit wijst naar wat je hebt gevraagd (de zwarte auto). Hier mag de AI variëren, maar hij moet wel een auto blijven.
Pijl B (De Vrijheid): Dit is een pijl die haaks (90 graden) op Pijl A staat. Dit vertegenwoordigt alles wat niet in je opdracht staat: de achtergrond, het weer, de sfeer.

Hoe werkt het?
In plaats van de AI willekeurig te laten dwalen (wat vaak leidt tot rare, onherkenbare beelden), gebruikt GASS deze twee pijlen als een kompas:

Ze duwen de AI een beetje verder langs Pijl A (zodat de auto's er anders uitzien, misschien van een andere hoek).
Ze duwen de AI ook een stukje verder langs Pijl B (zodat de achtergronden en stijlen echt verschillend worden).

Het is alsof je de AI zegt: "Blijf een auto tekenen, maar probeer deze keer eens een auto in de sneeuw, en de volgende keer in de woestijn, en daarnaast ook eens een auto in een futuristische stad."

3. Waarom is dit zo slim?

Vroeger probeerden andere methoden gewoon "meer chaos" te creëren. Ze zeiden: "Maak alles zo verschillend mogelijk!" Maar dat leidde vaak tot beelden die niet meer leken op wat je had gevraagd, of die er wazig uitzagen.

GASS is slimmer omdat het ontkoppelt (disentangles):

Het houdt de betekenis (de auto) strak vast.
Het laat de details (de achtergrond) vrij zweven.

Dit zorgt ervoor dat je een hele reeks unieke foto's krijgt van "een zwarte auto", waarbij elke foto een heel ander verhaal vertelt, maar ze zijn allemaal nog steeds een perfecte zwarte auto.

4. Het Resultaat

In de proeven hebben ze getoond dat GASS werkt met verschillende soorten AI-modellen.

Vroeger: Je kreeg 10 foto's van een zwarte auto, en ze leken allemaal op elkaar (zelfde achtergrond, zelfde licht).
Met GASS: Je krijgt 10 foto's van een zwarte auto. De ene staat in de regen, de andere in de zon, de ene is een sportwagen, de andere een oldtimer, en de achtergronden zijn allemaal uniek.

Samenvattend

Dit paper is als het geven van een nieuwe set instructies aan een creatieve robot. In plaats van te zeggen "Maak iets anders", zegt GASS: "Blijf trouw aan je opdracht, maar durf te variëren in de dingen die ik niet heb gezegd." Zo krijg je niet alleen meer keuze, maar ook eerlijkere en minder vooroordelende beelden, omdat de AI niet blijft hangen in één enkel stereotiep beeld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Moderne modellen voor tekst-naar-afbeelding (T2I) generatie, zoals diffusion-modellen en flow-based modellen, hebben aanzienlijke vooruitgang geboekt op het gebied van beeldkwaliteit en semantische uitlijning met de tekstprompt. Desondanks kampen ze met een significant tekort aan diversiteit: bij een vaste tekstprompt genereren ze vaak zeer vergelijkbare beelden.

Dit gebrek aan diversiteit beperkt niet alleen de creatieve keuzevrijheid van gebruikers, maar versterkt ook maatschappelijke vooroordelen door nauwe visuele stereotypen te bevestigen (bijv. wat betreft geslacht of etniciteit). Bestaande methoden om diversiteit te verhogen, vertrouwen voornamelijk op entropie-maximalisatie (het maximaliseren van de ongelijkheid tussen samples). Deze aanpak mist echter nuance: ze onderscheiden niet tussen variatie die direct door de prompt wordt bepaald (bijv. het object zelf) en variatie die onafhankelijk is van de prompt (bijv. achtergrond, belichting, stijl).

Methodologie: GASS

De auteurs introduceren GASS (Geometry-Aware Spherical Sampling), een methode die diversiteit benadert vanuit een geometrisch perspectief binnen de CLIP-embeddingsruimte. De kern van de methode bestaat uit drie fasen:

1. Geometrische Decompositie van Diversiteit

In plaats van diversiteit als één scalar te meten, ontleden de auteurs de variatie in een batch gegenereerde beelden in twee orthogonale componenten binnen de CLIP-hypersfeer:

Prompt-afhankelijke variatie ( $D_{dep}$ ): De variatie die samenhangt met de tekstprompt. Dit wordt gemeten door de projectie van de afbeeldings-embeddings op de tekst-embedding ( $e_t$ ).
Prompt-onafhankelijke variatie ( $D_{ind}$ ): De variatie die niet door de tekst wordt opgelegd (bijv. achtergronden, camerahoeken). De auteurs identificeren een eenheidsvector ( $u_{ind}$ ) die orthogonaal is op $e_t$ en de grootste variatie in de resterende ruimte verklaart. Dit wordt gedaan via een gerandomiseerde zoekstrategie (Gram-Schmidt orthogonalisatie) om de dominante residu-richting te vinden.

2. Sferische Spreidingscore (SPP)

Op basis van deze decompositie definiëren ze een nieuwe metriek, de Spherical Spread Score (SPP), die de som is van de spreiding (max - min) van de projecties langs beide assen:
$SPP = D_{dep} + D_{ind}$
Experimenten tonen aan dat echte beelden (bijv. uit ImageNet) een aanzienlijk hogere SPP hebben dan gegenereerde beelden, wat aantoont dat T2I-modellen de "residuruimte" onvoldoende verkennen.

3. GASS Inference-Interventie

GASS grijpt in tijdens het generatieproces (inference) zonder het model opnieuw te hoeven trainen:

Latent Sferische Guidance: Tijdens het denoising-traject worden de voorspelde schone beelden omgezet naar CLIP-embeddings. Deze embeddings worden vervolgens "uitgebreid" langs de twee geïdentificeerde assen ( $e_t$ en $u_{ind}$ ) door willekeurige verschuivingen ( $\delta$ ) toe te voegen binnen een bepaald bereik.
Gradient-based Optimalisatie: Omdat CLIP geen decoder heeft om direct terug te gaan naar pixelruimte, gebruiken de auteurs de gradiënten van de bevroren CLIP-afbeeldingencoder. Ze minimaliseren een verliesfunctie ( $L_{SPP}$ ) die de afstand meet tussen de huidige geschatte embedding en de gewenste, uitgebreide embedding.
Iteratief Proces: De geoptimaliseerde beelden worden gebruikt om de volgende stap in het generatieproces te sturen, waardoor het traject wordt geleid naar een bredere geometrische dekking terwijl de semantische trouw behouden blijft.

Belangrijkste Bijdragen

Geometrisch Kader: Een nieuw raamwerk om prompt-afhankelijke en prompt-onafhankelijke diversiteit te ontkoppelen en te kwantificeren binnen de CLIP-hypersfeer.
GASS Methode: De eerste sampling-methode die expliciet de geometrische spreiding van gegenereerde embeddings uitbreidt langs orthogonale richtingen, waardoor zowel semantische variatie als achtergronddiversiteit wordt verhoogd zonder prompts aan te passen.
Controleerbaarheid: De methode biedt granulaire controle; gebruikers kunnen kiezen om alleen de prompt-afhankelijke as, alleen de prompt-onafhankelijke as, of beide uit te breiden.

Resultaten

De auteurs hebben GASS getest op diverse T2I-backbones (U-Net en DiT, diffusion en flow) en benchmarks (ImageNet en DrawBench), vergeleken met state-of-the-art methoden zoals Particle Guidance (PG), CADS, IG en SPELL.

Diversiteit: GASS behaalt de hoogste scores op diversiteitsmetrieken (zoals Vendi Score en de eigen SPP), vaak met een significante verbetering ten opzichte van bestaande methoden.
Kwaliteit en Uitlijning: In tegenstelling tot veel andere methoden die diversiteit ten koste gaan van kwaliteit, behoudt GASS een competitieve beeldkwaliteit (gemeten via ImageReward en FID) en semantische uitlijning (ClipScore).
Visuele Observaties: Qualitatieve resultaten tonen aan dat GASS niet alleen variatie in objectposities introduceert, maar ook aanzienlijk gedetailleerdere en diversere achtergronden genereert, terwijl andere methoden vaak vage of gesmoothde achtergronden produceren.
Efficiëntie: De methode is "sparse guidance", wat betekent dat het slechts op een subset van de sampling-steps wordt toegepast (bijv. 15-20 stappen), wat de rekentijd beperkt.

Betekenis en Impact

Dit werk is significant omdat het een fundamentele beperking van huidige T2I-models aanpakt: het onvermogen om de volledige ruimte van mogelijke interpretaties van een prompt te verkennen. Door diversiteit te benaderen als een geometrisch probleem in de embedding-ruimte, biedt GASS een ontkoppelde en controleerbare manier om creativiteit te verhogen.

Dit heeft belangrijke implicaties voor:

Creatieve Werkstromen: Gebruikers krijgen meer keuzevrijheid zonder de prompt te hoeven herformuleren.
Bias-vermindering: Door de prompt-onafhankelijke ruimte (zoals achtergronden en context) expliciet te diversifiëren, kan het model helpen om stereotypen te doorbreken die vaak in de trainingsdata verankerd zitten.
Toekomstig Onderzoek: Het paper opent de deur voor verdere geometrische manipulatie van generatieve modellen, niet alleen voor prompts, maar mogelijk ook voor multi-conditie inputs zoals lay-outs of referentieafbeeldingen.