CLPIPS: A Personalized Metric for AI-Generated Image Similarity

Este artículo presenta CLPIPS, una métrica de similitud personalizada que, mediante un ajuste fino ligero basado en juicios humanos, logra una mejor alineación con las percepciones humanas que las métricas existentes en flujos de trabajo iterativos de generación de imágenes por texto.

Khoi Trinh, Jay Rothenberger, Scott Seidenberger, Dimitrios Diochnos, Anindya Maiti

Publicado 2026-04-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un amigo muy talentoso, un artista digital llamado IA, al que puedes pedirle que dibuje cualquier cosa simplemente describiéndola con palabras. Pero a veces, le pides algo muy específico (como "un gato azul con gafas de sol en la playa") y la IA te devuelve un dibujo que se parece, pero no es exactamente lo que tenías en mente.

Para conseguir el dibujo perfecto, tú y la IA tienen que trabajar en equipo: tú le dices "no, el gato es más gordo" o "las gafas deben ser rojas", y la IA lo intenta de nuevo. Este es el proceso de refinamiento iterativo.

El problema es: ¿Cómo sabe la IA si se está acercando a tu idea o si se está alejando?

Aquí es donde entra el protagonista de este paper: CLPIPS.

El Problema: El "Ojo" de la IA no es el "Ojo" Humano

Antes de CLPIPS, existían herramientas llamadas "métricas" (como una regla digital) que medían qué tan parecido era el dibujo de la IA a tu foto de referencia. Una de las más famosas se llamaba LPIPS.

Imagina que LPIPS es un inspector de arte muy estricto pero un poco torpe.

  • Si tú le muestras dos cuadros, uno con un gato azul y otro con un perro azul, LPIPS podría decir: "¡Están muy parecidos! Ambos tienen mucho azul".
  • Pero tú, como humano, piensas: "¡No! Uno es un gato y el otro un perro, ¡son totalmente diferentes!".

La IA, guiada por este inspector torpe, podría seguir cambiando cosas que no importan (como el tono de azul) y arruinar lo que sí importa (la forma del animal), porque la "regla" le está dando una mala dirección.

La Solución: CLPIPS (El Inspector Personalizado)

Los autores de este estudio (un equipo de la Universidad de Oklahoma) se preguntaron: "¿Qué pasaría si le enseñamos a este inspector a pensar como tú?".

Así crearon CLPIPS.

La analogía perfecta:
Imagina que tienes un entrenador personal para tu IA.

  1. El Entrenador (CLPIPS): No es un robot genérico. Es un entrenador que ha pasado tiempo contigo.
  2. El Entrenamiento: En lugar de enseñarle al entrenador con miles de fotos aleatorias, le mostraron 20 personas reales. A estas personas les dieron una foto de referencia y les pidieron que generaran 10 versiones diferentes. Luego, les dijeron: "Ordena estas 10 fotos de la que más te parece a la original a la que menos".
  3. El Aprendizaje: El entrenador (CLPIPS) observó cómo las personas hacían esa clasificación. Se dio cuenta de que, por ejemplo, a los humanos les importaba más la forma de la nariz que el brillo de los ojos.
  4. El Ajuste: CLPIPS tomó la "regla" original (LPIPS) y ajustó sus tornillos. Le dijo a la IA: "Oye, deja de obsesionarte con la textura de la piel y empieza a mirar más la forma general, porque así es como lo ven los humanos".

¿Qué pasó después? (Los Resultados)

Cuando probaron a este nuevo entrenador personalizado (CLPIPS) contra el antiguo (LPIPS), los resultados fueron claros:

  • El antiguo inspector (LPIPS) seguía confundido. A veces decía que dos fotos eran gemelas cuando los humanos decían que eran muy diferentes.
  • El nuevo entrenador (CLPIPS) entendió mucho mejor lo que querían los humanos. Cuando la IA usaba a CLPIPS para guiarse, sus dibujos se parecían más a lo que la gente realmente quería ver.

Es como si antes la IA estuviera intentando adivinar tu gusto con un sombrero puesto, y ahora le hubieran quitado el sombrero y le hubieran dado lentes de contacto personalizados.

¿Por qué es importante esto?

Este estudio nos enseña algo muy valioso: No necesitamos reinventar la rueda ni crear sistemas gigantes para mejorar la IA.

A veces, solo necesitamos escuchar a los humanos. Incluso con una cantidad pequeña de datos (las opiniones de 20 personas), podemos "afinar" las herramientas de la IA para que se alineen mejor con nuestra percepción.

En resumen:
CLPIPS es como un traductor de gustos. Convierte lo que la IA "cuenta" (números y distancias matemáticas) en lo que los humanos "sienten" (parecido o no parecido). Gracias a esto, en el futuro, cuando pidas a una IA que dibuje algo, podrá aprender de tus correcciones mucho más rápido y con menos frustración, porque finalmente tendrá un "ojo" que ve el mundo como tú lo ves.