Premier: Personalized Preference Modulation with Learnable User Embedding in Text-to-Image Generation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo artista muito talentoso (o modelo de IA), mas ele é um pouco "genérico". Ele sabe desenhar qualquer coisa que você pedir, mas às vezes não consegue capturar o seu estilo pessoal. Você gosta de cores mais vibrantes, ou talvez prefira desenhos com traços mais suaves, ou ainda queira que seus gatos sempre tenham um olhar específico.

O problema é que explicar isso em palavras é difícil. Você pode tentar dizer: "Desenhe um gato, mas com um estilo mais artístico e cores quentes", mas o artista pode não entender exatamente o que você quer dizer com "estilo artístico".

É aqui que entra o Premier, o novo método apresentado neste artigo. Pense nele como um tradutor de "alma" para o artista.

Aqui está como funciona, usando analogias simples:

1. O Problema: "Fale com o Artista" vs. "Mostre ao Artista"

Antes, para personalizar a arte, as pessoas tentavam usar descrições de texto complexas ou pedir para a IA "ler" o que você gostava. Mas é como tentar explicar o sabor de um bolo apenas descrevendo os ingredientes; é difícil capturar a sensação do gosto.

O Premier diz: "Esqueça as palavras complicadas. Apenas mostre ao artista as fotos que você já gostou."

2. A Solução: A "Carteira de Identidade" do Usuário (Embedding)

Quando você mostra ao Premier algumas fotos que você curtiu (digamos, 8 ou 10 fotos de gatos, paisagens ou carros), o sistema não apenas "olha" para elas. Ele cria uma Carteira de Identidade Digital (chamada de embedding aprendível) exclusiva para você.

A Analogia: Imagine que cada pessoa tem uma "impressão digital de estilo". O Premier aprende a sua impressão digital. Ele não precisa saber o que você gosta (se é gato ou cachorro), ele aprende como você gosta (se é realista, se é colorido, se é sombrio).

3. O Mecanismo: O "Diretor de Orquestra" (Modulação)

Agora, quando você pede: "Desenhe um gato em uma cesta", o sistema pega essa frase e a sua "Carteira de Identidade".

Aqui está a parte mágica: O Premier usa um adaptador de preferência.

A Analogia: Pense no texto ("gato em uma cesta") como a partitura de música. O modelo de IA é a orquestra. O seu "estilo pessoal" é o Maestro.
O Maestro (sua Carteira de Identidade) não muda a música inteira, mas ele dá sinais sutis a cada músico (cada palavra da frase) sobre como tocar. Ele diz: "Nesta palavra 'gato', toque com mais suavidade", "Na palavra 'cesta', use mais cores quentes".
Isso permite que a IA entenda o seu pedido de texto, mas o execute com a sua "assinatura" pessoal.

4. O Desafio: Quando você é novo (O "Efeito Frio")

E se você é um usuário novo e só tem duas fotos de preferência? É difícil criar uma "Carteira de Identidade" perfeita com tão pouco material. A IA poderia ficar confusa ou tentar copiar demais (o que chamamos de overfitting).

O Premier resolve isso com um truque inteligente:

A Analogia: Imagine que você é um novo aluno em uma escola de arte. Você não tem seu próprio portfólio completo ainda. Então, o professor diz: "Vamos misturar um pouco do estilo do Aluno A (que gosta de azul) com o estilo do Aluno B (que gosta de linhas retas) para criar um estilo que se pareça com o seu".
O sistema cria o seu estilo como uma mistura linear dos estilos de outras pessoas que ele já conhece bem. Isso garante que, mesmo com poucas fotos, seu estilo seja estável e não "alucine".

5. O Segredo para Não Confundir as Pessoas (Perda de Dispersão)

Um problema comum é que, se a IA não for bem treinada, ela pode acabar fazendo todos os usuários parecerem iguais. O gato do "Usuário A" pode ficar igual ao gato do "Usuário B".

O Premier usa uma técnica chamada Perda de Dispersão.

A Analogia: Imagine que você está em uma festa e todos estão usando o mesmo terno cinza. É difícil saber quem é quem. O Premier coloca um "brilho" diferente em cada pessoa. Ele força o sistema a garantir que a "Carteira de Identidade" do Usuário A seja muito diferente da do Usuário B, como se cada um tivesse uma cor de terno única. Isso garante que o estilo do seu gato seja realmente o seu, e não o de outra pessoa.

Resumo dos Resultados

Os testes mostraram que o Premier é melhor do que os métodos anteriores porque:

Entende melhor o que você quer: As imagens geradas combinam muito mais com o que você curtiu no passado.
Respeita o texto: A imagem ainda obedece ao que você pediu (ex: "gato em uma cesta"), mas com o seu toque pessoal.
Funciona com pouco: Funciona bem mesmo se você tiver poucas fotos de preferência.

Em suma: O Premier é como ter um assistente pessoal que aprende o seu gosto visual apenas olhando para o que você já gostou, e depois usa esse conhecimento para "sussurrar" instruções específicas para a IA, garantindo que cada imagem criada seja uma obra-prima feita sob medida para você.

Each language version is independently generated for its own context, not a direct translation.

Título: Premier: Modulação de Preferência Personalizada com Embedding de Usuário Aprendível em Geração de Imagens Texto-para-Imagem

1. O Problema

A geração de imagens baseada em texto (Text-to-Image) avançou rapidamente, mas ainda enfrenta dificuldades significativas em capturar as preferências sutis e nuances individuais dos usuários.

Limitações das Abordagens Atuais: Métodos existentes frequentemente dependem de Modelos de Linguagem Multimodais (MLLMs) grandes para inferir preferências a partir de imagens ou textos históricos.
- Problema de Tradução: As representações extraídas por MLLMs (estados ocultos ou prompts de texto) raramente refletem fielmente as preferências do usuário, levando a personalização subótima.
- Diluição de Tokens: Em arquiteturas baseadas em Transformers (como MM-DiT), injetar condições via concatenação de tokens pode causar "diluição" de tokens, onde o controle fino é perdido devido ao grande número de tokens de texto e imagem.
- Falta de Generalização: Quando os dados históricos do usuário são escassos (problema de cold-start), treinar embeddings diretamente leva a overfitting e alinhamento instável.

2. Metodologia (Premier)

O Premier propõe um novo framework que representa as preferências do usuário como embeddings aprendíveis e utiliza uma modulação de preferência para integrar essas preferências ao processo de geração, sem a necessidade de descrições textuais de preferência.

Componentes Principais:

Embeddings de Usuário Aprendíveis:
- Em vez de usar MLLMs para extrair preferências, o modelo aprende um vetor de embedding específico para cada usuário ( $e_u$ ) diretamente através da retropropagação da perda de difusão.
- Esses embeddings agregam informações das imagens de preferência históricas do usuário.
Adaptador de Preferência (Preference Adapter) e Modulação:
- O método introduz um adaptador que funde o embedding do usuário com o prompt de texto de entrada.
- Utiliza um mecanismo de atenção cruzada onde os tokens de texto são as queries (Q) e o embedding do usuário são as keys (K) e values (V).
- O adaptador gera uma direção de modulação ( $\Delta$ ) específica para cada token de texto.
- Existem dois tipos de adaptadores:
  - Block-Shared: Gera uma direção de modulação uniforme para todos os blocos DiT (Diffusion Transformer).
  - Block-Distinct: Gera direções de modulação diferentes para cada bloco DiT, permitindo um controle mais granular e profundo.
- A modulação é aplicada diretamente aos vetores de modulação do MM-DiT (antes da normalização de camada adaptativa - AdaLN), evitando a diluição de tokens.
Perda de Dispersão (Dispersion Loss):
- Para evitar que o adaptador se ajuste excessivamente aos tokens de texto (causando imagens similares para usuários diferentes), é introduzida uma perda baseada em InfoNCE.
- Esta perda força os vetores de modulação de diferentes usuários a se separarem no espaço de características, garantindo que as preferências individuais sejam distintas.
Estratégia de Cold-Start (Novos Usuários):
- Para usuários com poucos dados históricos, treinar um embedding do zero é instável.
- O Premier representa novos usuários como uma combinação linear dos embeddings de usuários já treinados no conjunto de dados de treinamento.
- Apenas os coeficientes da combinação linear são otimizados, enquanto os embeddings base e os adaptadores permanecem congelados. Isso garante estabilidade e robustez com poucos dados.

3. Principais Contribuições

Representação via Embedding Aprendível: Substitui a extração complexa via MLLM por embeddings aprendíveis que capturam preferências diretamente no espaço latente do modelo de difusão.
Modulação de Prompt de Preferência: Introduz um mecanismo de modulação token-a-token que permite interações contextuais ricas entre o texto e a preferência do usuário, superando problemas de diluição de tokens.
Perda de Dispersão: Um componente crucial que melhora a discriminabilidade entre diferentes usuários, evitando que o modelo gere estilos genéricos.
Generalização para Cold-Start: Uma estratégia eficaz para novos usuários com poucos dados, utilizando combinações lineares de usuários existentes para obter representações estáveis.

4. Resultados Experimentais

O método foi avaliado no conjunto de dados PrefBench e comparado com estados da arte como ViPer, DrUM, InstantStyle, Bagel e Qwen-Image-Edit.

Métricas Quantitativas:
- ViPer Score: O Premier alcançou a pontuação mais alta (0.6889), indicando o melhor alinhamento com as preferências do usuário.
- Taxa de Vitória (Win Rate): O Premier venceu os baselines em mais de 87% das comparações contra o modelo base Flux.
- Consistência Texto-Imagem (CLIP T2I): O método manteve alta fidelidade ao prompt de texto (0.3183), superando ou empatando com outros métodos.
- Similaridade Perceptual (LPIPS): Obteve o menor LPIPS (0.5986), indicando que as imagens geradas são perceptualmente mais próximas das preferências do usuário do que as dos concorrentes.
Estudo com Usuários Humanos:
- Em um teste A/B com 40 especialistas, o Premier foi preferido consistentemente, demonstrando melhor equilíbrio entre seguir o prompt de texto e capturar o estilo/preferência visual do usuário.
Ablação:
- A remoção da Perda de Dispersão resultou em imagens com pouca variação entre usuários diferentes.
- A remoção dos adaptadores de modulação (Block-Shared ou Block-Distinct) causou queda significativa no desempenho.
- A estratégia de Combinação Linear superou o treinamento direto de embeddings quando o histórico do usuário era limitado (menos de 8 amostras).

5. Significado e Impacto

O trabalho Premier representa um avanço significativo na personalização de modelos de difusão. Ao evitar a dependência de intermediários de linguagem complexos (MLLMs) e focar na modulação direta no espaço latente do modelo gerador, ele oferece:

Eficiência: Elimina a necessidade de inferência pesada de MLLMs durante a geração.
Precisão: Captura nuances visuais que prompts de texto muitas vezes falham em descrever.
Praticidade: Resolve o problema crítico de cold-start, permitindo que novos usuários com poucos exemplos de preferência recebam personalização de alta qualidade imediatamente.

Em resumo, o Premier estabelece um novo paradigma para a geração de imagens personalizada, demonstrando que a modulação de preferências via embeddings aprendíveis e adaptadores é superior às abordagens baseadas em extração de texto ou concatenação simples de tokens.