Premier: Personalized Preference Modulation with Learnable User Embedding in Text-to-Image Generation

Each language version is independently generated for its own context, not a direct translation.

Premier: De "Geheime Recepten" voor Jouw Persoonlijke AI-Kunst

Stel je voor dat je een supergetalenteerde kunstenaar hebt die alles kan schilderen wat je maar bedenkt. Maar deze kunstenaar is een beetje als een robot die netjes, maar saai werkt. Als je zegt "teken een kat", tekent hij een standaard kat. Maar jij wilt misschien een kat die eruitziet alsof hij in een oude, stoffige bibliotheek heeft gewoond, of een kat met een specifieke, rare hoed die jij leuk vindt.

Helaas is het lastig om dit precies in woorden uit te leggen. Je kunt zeggen "een kat met een hoed", maar de AI snapt niet dat jij die specifieke hoed bedoelt die je gisteren op een foto zag.

Deze paper introduceert Premier, een slimme nieuwe manier om die AI-kunstenaar echt te leren wat jij mooi vindt, zonder dat je urenlang hoeft te praten.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. Geen Woorden, Maar Foto's (De "Voorbeeld-Album")

Normaal gesproken proberen andere methoden om te raden wat je wilt door naar je geschiedenis te kijken en te proberen dat in een lange tekst te vertalen. Dat is alsof je een kok vraagt om je favoriete gerecht te maken, maar je geeft hem alleen een lijstje met ingrediënten die hij zelf heeft bedacht. Het resultaat is vaak niet lekker.

Premier doet het anders: Je geeft de AI gewoon een paar foto's van dingen die jij leuk vindt (bijvoorbeeld foto's van katten in mandjes, of specifieke kleuren). De AI kijkt niet naar de tekst, maar kijkt naar de foto's en zegt: "Ah, ik zie een patroon! Deze gebruiker houdt van zachte kleuren en katten in mandjes."

2. De Leerbare "Geest" (De User Embedding)

In plaats van de AI te dwingen om alles in woorden te vertalen, creëert Premier een leerbaar "geest"-bestandje (een learnable embedding) voor jou.

De Analogie: Stel je voor dat elke gebruiker een unieke smaakpapil heeft. Premier maakt een digitale versie van jouw smaakpapil. Deze "smaakpapil" is een klein stukje code dat precies weet wat jij mooi vindt. Het is niet statisch; het groeit en verbetert naarmate de AI meer van jouw foto's ziet.

3. De "Regisseur" (De Preference Adapter)

Nu hebben we jouw "smaakpapil", maar hoe gebruiken we die? De AI moet nog steeds luisteren naar wat je zegt ("teken een kat").

Premier gebruikt een slimme regisseur (de preference adapter).

Hoe het werkt: De regisseur neemt jouw tekst ("teken een kat") en jouw "smaakpapil" en zegt tegen de AI: "Oké, we gaan een kat tekenen, maar jouw stijl moet er overheen."
De Magie: De regisseur past dit niet alleen op het hele plaatje toe, maar op elk klein woordje in je zin. Als je zegt "rode kat", past de regisseur jouw specifieke tint rood toe op dat woordje. Dit zorgt voor een heel fijn en precies resultaat.

4. Het "Niet-Verwarren" Spel (De Dispersion Loss)

Er is een klein probleem: als de AI te veel verschillende gebruikers heeft, kan het zijn dat jouw "smaakpapil" en die van je buurman gaan lijken. De AI zou dan voor jou en je buurman exact dezelfde katten kunnen tekenen.

Om dit te voorkomen, gebruikt Premier een trucje genaamd Dispersion Loss.

De Analogie: Stel je voor dat je een klaslokaal hebt met veel leerlingen. De leraar (de AI) zorgt ervoor dat elke leerling op een andere plek in de kamer staat. Ze mogen niet op elkaar gaan staan.
Het Effect: Deze "ruimte" zorgt ervoor dat jouw stijl echt uniek blijft. De AI leert: "Jouw stijl is hier, en die van de ander is daar." Hierdoor worden de verschillen tussen gebruikers veel duidelijker.

5. Wat als je nog geen foto's hebt? (De "Koude Start")

Soms heb je net een nieuw account en heb je nog maar 1 of 2 foto's. Dan is het moeilijk om een goede "smaakpapil" te maken; de AI zou kunnen gaan gissen.

Premier heeft een slimme oplossing: Lineaire Combinatie.

De Analogie: Stel je voor dat je een nieuw restaurant opent, maar je hebt nog geen eigen receptenboek. Je kijkt dan naar de recepten van de beste chefs in de buurt (de gebruikers in de trainingsset) en zegt: "Ik neem 30% van Chef A's stijl, 50% van Chef B's stijl en 20% van Chef C's stijl."
Het Resultaat: Zelfs met heel weinig foto's van jou, kan de AI een stabiele en goede versie van jouw stijl maken door te "mixen" met de stijlen van anderen die al bekend zijn.

Waarom is dit beter?

In tests bleek dat Premier beter werkt dan de huidige methoden:

Het luistert beter: De plaatjes lijken meer op wat jij echt wilt, niet alleen op wat je in tekst hebt gezet.
Het is uniek: Jouw plaatjes zien er echt anders uit dan die van iemand anders.
Het is flexibel: Het werkt zelfs als je maar een paar foto's hebt.

Kortom: Premier is als een persoonlijke assistent die niet luistert naar wat je zegt, maar naar wat je doet (de foto's die je leuk vindt), en die vervolgens een unieke "stijl-geest" voor je maakt die de AI helpt om precies dat te tekenen wat in jouw hart zit.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel text-naar-image generatiemodellen (zoals diffusion modellen) snel vooruitgang hebben geboekt in kwaliteit, worstelen ze nog steeds met het nauwkeurig vangen van de subtiele en genuanceerde voorkeuren van individuele gebruikers.

Bestaande beperkingen: Huidige methoden vertrouwen vaak op multimodale grote taalmodellen (MLLM's) om voorkeuren af te leiden uit afbeeldingen of tekst. Dit leidt echter tot suboptimale personalisatie omdat de afgeleide prompts of latente codes de voorkeuren niet trouw weergeven.
Tokenverdunning: Bestaande technieken die conditionele tokens concateneren met gegenereerde tokens lijden onder het "token dilution"-probleem, waarbij de controle over de generatie verwaterd door de grote hoeveelheid tokens.
Data-schaarste: Voor nieuwe gebruikers met weinig historische data (weinig voorkeursafbeeldingen) leiden directe trainingsmethoden vaak tot overfitting en instabiele resultaten.

Methodologie: Premier

Premier is een nieuw framework dat leerbare gebruikers-embeddings gebruikt om voorkeuren te modelleren, zonder dat expliciete voorkeursbeschrijvingen (tekst) nodig zijn. De methode bestaat uit drie kerncomponenten:

1. Leerbare Gebruikers-Embedding en Voorkeurs-Adapter

In plaats van voorkeuren via een MLLM te vertalen naar tekst, leert het model een leerbare embedding ( $e_u$ ) voor elke gebruiker direct uit hun verzameling voorkeursafbeeldingen.
Een Voorkeurs-Adapter (Preference Adapter) fuseert deze gebruikers-embedding met de invoer-tekstprompt. De adapter gebruikt een cross-attention mechanisme waarbij de tekst-tokens als queries en de gebruikers-embedding als keys/values fungeren.
Dit resulteert in een voorkeursmodulatie-richting ( $\Delta$ ) voor elke tekst-token, die wordt toegevoegd aan de modulatievector in het Multimodal Diffusion Transformer (MM-DiT). Dit zorgt voor fijne, contextbewuste aanpassingen op token-niveau.

2. Twee Typen Modulatoren
Om zowel algemene als specifieke voorkeuren te vangen, gebruikt Premier twee adapters:

Block-shared adapter: Genereert een uniforme modulatie-richting voor alle DiT-blokken.
Block-distinct adapter: Genereert verschillende modulatie-richtingen voor verschillende DiT-blokken, wat zorgt voor meer granulariteit in de generatie.

3. Dispersion Loss (Verspreidingsverlies)
Om te voorkomen dat de adapter te sterk overpast op de tekst-tokens (wat leidt tot generieke afbeeldingen voor alle gebruikers), wordt een dispersion loss geïntroduceerd.

Deze loss (gebaseerd op InfoNCE) dwingt de modulatie-richtingen van verschillende gebruikers verder uit elkaar in de kenmerkenruimte.
Dit zorgt ervoor dat de gegenereerde afbeeldingen uniek zijn voor de specifieke gebruiker, zelfs bij dezelfde tekstprompt.

4. Strategie voor Nieuwe Gebruikers (Cold-start)
Voor nieuwe gebruikers met zeer beperkte data (bijv. slechts een paar afbeeldingen) wordt de embedding niet direct getraind (wat instabiel is). In plaats daarvan wordt de nieuwe gebruikers-embedding voorgesteld als een lineaire combinatie van de embeddings van bestaande gebruikers uit de trainingsset. Alleen de coëfficiënten van deze lineaire combinatie worden geoptimaliseerd, wat zorgt voor een robuustere en stabielere representatie.

Belangrijkste Bijdragen

Learnable User Embeddings: Het introduceren van leerbare embeddings die voorkeuren direct coderen, gekoppeld aan prompt-preferentie modulatie voor contextbewuste aanpassing.
Dispersion Loss: Een nieuwe verliesfunctie die de onderscheidbaarheid tussen gebruikers-embeddings verhoogt, waardoor de generatiemodel beter afgestemd is op individuele stijlen.
Robuuste Generalisatie: Een strategie voor nieuwe gebruikers die lineaire combinaties van bestaande embeddings gebruikt, waardoor effectieve personalisatie mogelijk is met weinig historische data.

Resultaten

De prestaties van Premier zijn geëvalueerd op de PrefBench-dataset en vergeleken met state-of-the-art methoden zoals ViPer, DrUM, InstantStyle en Bagel.

Kwalitatieve Evaluatie: Premier genereert afbeeldingen die visueel het dichtst bij de voorkeursafbeeldingen van de gebruiker liggen (stijl, kleurenpalet, compositie) terwijl ze trouw blijven aan de tekstprompt.
Kwantitatieve Metrieken:
- ViPer Score & Win Rate: Premier behaalt de hoogste scores (0.6889 ViPer Score, 87.6% win rate) en overtreft alle concurrenten significant.
- Tekst-Beeld Consistentie: Hoogste CLIP T2I-score (0.3183), wat aangeeft dat de tekstprompt goed wordt gevolgd.
- Perceptuele Gelijkenis: Laagste LPIPS-score (0.5986), wat betekent dat de gegenereerde afbeeldingen perceptueel het meest lijken op de voorkeursafbeeldingen van de gebruiker.
User Study: In een studie met 40 menselijke experts werd Premier in meer dan 80% van de gevallen verkozen boven de concurrenten als de beste balans tussen voorkeursalignering en tekstvolging.
Ablatie Studies: Het verwijderen van de dispersion loss of de modulatoren leidde tot een significante daling in prestaties, wat de noodzaak van deze componenten bevestigt. Ook bleek de lineaire combinatie-strategie superieur bij korte geschiedenissen (<8 afbeeldingen).

Significantie

Premier markeert een belangrijke verschuiving in personalisatie voor text-naar-image generatie. Door af te zien van de afhankelijkheid van grote multimodale modellen voor het vertalen van voorkeuren naar tekst, en in plaats daarvan te vertrouwen op leerbare embeddings en directe modulatie in de diffusion-architectuur, bereikt het model:

Hogere precisie in het vangen van subtiele, niet-taalgebonden voorkeuren.
Betere schaalbaarheid voor nieuwe gebruikers met weinig data.
Superieure kwaliteit in zowel de artistieke stijl als de tekstuele consistentie.

Deze aanpak biedt een robuustere oplossing voor de uitdaging van "personalized image generation" en stelt modellen in staat om zich beter aan te passen aan de unieke smaak van individuele gebruikers in praktische toepassingen.