CLPIPS: A Personalized Metric for AI-Generated Image Similarity

Il paper introduce CLPIPS, una metrica di similarità personalizzata basata su LPIPS che, attraverso un leggero fine-tuning guidato dal giudizio umano, migliora significativamente l'allineamento con le percezioni degli utenti nei flussi di lavoro iterativi di generazione di immagini tramite testo.

Khoi Trinh, Jay Rothenberger, Scott Seidenberger, Dimitrios Diochnos, Anindya Maiti

Pubblicato 2026-04-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un amico molto intelligente, ma un po' rigido, che ti aiuta a disegnare un quadro basandosi sulle tue istruzioni a voce. Tu gli dici: "Disegnami un gatto che sembra quello nella foto". Lui ne crea uno, tu lo guardi e dici: "No, le orecchie sono sbagliate". Lui ne fa un altro. Tu dici: "Ora la coda è troppo lunga". E così via, ciclo dopo ciclo, finché non ottieni il risultato perfetto.

Questo è il mondo dell'Intelligenza Artificiale generativa (come Midjourney o DALL-E), dove si usano "prompt" (istruzioni testuali) per creare immagini.

Il problema? A volte, l'AI non capisce bene cosa intendi tu. E qui entra in gioco il "metro" che usiamo per giudicare se l'immagine è buona o no.

Il Problema: Il Metro che non è d'accordo con te

Fino a poco tempo fa, gli scienziati usavano dei "metri" automatici (chiamati ISM, come LPIPS o CLIP) per dire all'AI: "Ehi, questa immagine è più simile a quella che vuoi tu rispetto a quella precedente!".

Ma c'era un grosso malinteso. Immagina di avere un termometro che misura la temperatura. Per il termometro, 20 gradi è caldo. Per te, che hai appena preso un gelato, 20 gradi sembrano freddi. Il termometro non è sbagliato, ma non è calibrato sul tuo gusto personale.

Nello stesso modo, questi metri automatici guardavano le immagini e dicevano: "Queste due sono simili perché hanno gli stessi pixel blu". Ma tu, guardandole, pensavi: "No, quella è simile perché ha lo stesso stile artistico, anche se i colori sono diversi". Il metro e il tuo cervello non erano d'accordo.

La Soluzione: CLPIPS, il "Sarto su Misura"

Gli autori di questo studio hanno creato qualcosa di nuovo chiamato CLPIPS.

Pensa a CLPIPS non come a un nuovo termometro, ma come a un sarto che prende le misure su di te.

  1. Il punto di partenza: Hanno preso il vecchio metro (LPIPS), che era già abbastanza bravo, ma un po' generico.
  2. L'addestramento: Hanno mostrato a questo metro un gruppo di persone (20 partecipanti) che stavano cercando di ricreare delle immagini. Queste persone hanno detto: "Di queste 10 immagini, la numero 1 è la più simile, la numero 2 è la seconda più simile, e così via".
  3. La magia: Invece di riscrivere tutto il metro da zero, hanno solo "aggiustato le manopole" (i pesi) del metro per farlo pensare esattamente come le persone. Hanno detto al metro: "Dimentica i pixel blu, guarda lo stile e la forma, proprio come fa la gente".

Come hanno fatto? (L'analogia del "Gioco dei 3")

Immagina di giocare a un gioco con tre foto:

  1. La foto Obiettivo (quella che vuoi).
  2. La foto Brava (quella che ti piace di più).
  3. La foto Cattiva (quella che ti piace meno).

Il vecchio metro (LPIPS) a volte diceva: "La foto Cattiva è più simile alla Brava di quanto non sia la Brava all'Obiettivo". Era confuso!
Il nuovo metro (CLPIPS) è stato addestrato con migliaia di questi esempi. Ha imparato a dire: "Ah, ok! Quando la gente dice che la Brava è meglio, devo dare un punteggio più alto alla Brava".

I Risultati: Funziona davvero?

Sì! Hanno fatto una prova e hanno scoperto che:

  • Il vecchio metro (LPIPS) era d'accordo con le persone circa il 43% delle volte nel mettere le immagini in ordine corretto.
  • Il nuovo metro su misura (CLPIPS) è d'accordo con le persone il 52% delle volte.

Sembra una piccola differenza? In questo mondo, è come passare da un giocatore di calcio che tira in porta ogni 3 tentativi a uno che tira ogni 2. È un miglioramento statisticamente significativo. Significa che l'AI ora capisce meglio cosa vuoi tu, perché il suo "metro" è stato calibrato sul tuo modo di vedere le cose.

Perché è importante?

Questo studio ci insegna una cosa fondamentale: non serve creare un nuovo motore da zero per ogni persona. Basta prendere un motore esistente e "affinarlo" con un po' di dati umani.

Immagina che in futuro, mentre chatti con un'AI per creare immagini, lei impari in tempo reale: "Ah, Marco preferisce che i gatti abbiano gli occhi verdi, mentre Giulia preferisce quelli blu". Il sistema si adatterà istantaneamente, diventando un assistente che ti capisce davvero, invece di un robot che segue solo regole rigide.

In sintesi: Hanno preso un metro intelligente ma un po' sordo, gli hanno messo delle cuffie per sentire cosa pensano le persone, e ora il metro ascolta davvero. È un passo avanti verso un'Intelligenza Artificiale che non solo crea, ma capisce il gusto umano.