CLPIPS: A Personalized Metric for AI-Generated Image Similarity

Este artigo apresenta o CLPIPS, uma métrica personalizada derivada do LPIPS que, ao ser ajustada com pesos aprendidos a partir de julgamentos humanos, demonstra uma correlação e concordância superiores com a percepção humana em comparação com métricas existentes, otimizando assim o refinamento iterativo de prompts em fluxos de trabalho de geração de imagens por IA.

Khoi Trinh, Jay Rothenberger, Scott Seidenberger, Dimitrios Diochnos, Anindya Maiti

Publicado 2026-04-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando copiar uma pintura famosa usando apenas uma máquina de escrever. Você escreve uma frase (o "prompt"), a máquina gera uma imagem, você olha, acha que falta algo, e escreve uma nova frase. Você repete isso várias vezes até a imagem ficar perfeita.

O problema é: como a máquina sabe se a imagem está ficando melhor?

Até agora, as máquinas usavam "réguas" automáticas (chamadas métricas de similaridade, como o LPIPS) para medir o quão parecida a nova imagem é com a original. Mas essas réguas eram como um professor de matemática tentando julgar uma obra de arte: elas mediam pixels e cores de forma fria e técnica, mas muitas vezes não entendiam o que você, o humano, achava bonito ou parecido. A máquina podia dizer "está 99% igual", mas para você, parecia completamente diferente.

A Solução: O "CLPIPS" (O Métrico Personalizado)

Os autores deste artigo criaram uma nova régua chamada CLPIPS. Pense nela como um estagiário de arte muito inteligente que aprendeu a julgar imagens não com regras rígidas, mas observando como você julga.

Aqui está como eles fizeram isso, usando uma analogia simples:

1. O Treinamento (A "Escola de Gosto")

Imagine que você tem 20 amigos. Cada um deles recebe uma foto de um cachorro e tenta desenhar o mesmo cachorro várias vezes, tentando ficar cada vez mais parecido. Depois de cada tentativa, eles classificam os desenhos do "mais parecido" para o "menos parecido".

O CLPIPS é como um professor que observa esses amigos. Ele pega a "régua antiga" (LPIPS) e diz: "Olha, quando o amigo A disse que o desenho 3 era melhor que o desenho 5, a régua antiga dizia o contrário. Vamos ajustar a régua para pensar como o amigo A."

Eles não mudaram todo o cérebro da régua (o que seria caro e difícil). Eles apenas ajustaram quão importante é cada detalhe.

  • Antes: A régua antiga podia achar que uma pequena diferença na textura da pele era o mais importante.
  • Depois (CLPIPS): A régua aprendeu que, para os humanos, a forma do nariz ou a cor dos olhos importam muito mais. Ela "baixou o volume" da textura e "aumentou o volume" da forma.

2. O Resultado (A Conversa entre Humanos e Máquinas)

O estudo mostrou que, após esse "treino" rápido com os dados dos humanos:

  • A régua antiga (LPIPS) e os humanos concordavam apenas "mais ou menos" (como dois amigos que às vezes têm opiniões diferentes).
  • A nova régua (CLPIPS) e os humanos concordavam muito mais (como dois amigos que pensam igual).

Eles provaram isso matematicamente, mostrando que a nova régua consegue prever a ordem de preferência das pessoas com muito mais precisão.

Por que isso é importante?

Pense no CLPIPS como um GPS que aprende o seu estilo de direção.

  • Um GPS comum (LPIPS) pode te dizer: "Vire à direita, é a rota mais curta".
  • Um GPS personalizado (CLPIPS) aprende que você prefere evitar ruas de terra, mesmo que sejam mais curtas. Ele ajusta o caminho para o que você considera melhor.

No mundo da Inteligência Artificial, isso significa que, no futuro, quando você estiver criando imagens, a ferramenta poderá dizer: "Ei, essa versão está mais próxima do que você quer do que a anterior" com muito mais confiança, porque ela aprendeu o seu "gosto" específico.

Resumo em uma frase

Os autores criaram um "olho humano artificial" que aprende a julgar imagens observando como as pessoas realmente as classificam, tornando a criação de imagens por IA muito mais precisa e alinhada com o que nós, humanos, realmente vemos e valorizamos.