GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que la inteligencia artificial que crea imágenes a partir de texto (como DALL-E o Midjourney) es como un chef muy talentoso pero un poco repetitivo.

Si le pides al chef: "Hazme una foto de un coche negro", él te dará un coche negro. Pero si le pides esa misma frase diez veces, es muy probable que te dé diez fotos de coches negros que se ven casi idénticos: todos del mismo ángulo, con el mismo fondo y la misma iluminación.

El problema es que, en la vida real, un "coche negro" puede ser de mil formas diferentes: visto de frente, de lado, bajo la lluvia, en un desierto, en una ciudad futurista, etc. La IA actual tiende a quedarse atascada en una sola de esas opciones, lo que hace que las imágenes sean aburridas y, a veces, refuercen estereotipos (por ejemplo, siempre mostrando a un médico como un hombre blanco).

Aquí es donde entra el trabajo de este paper, llamado GASS. Vamos a explicarlo con una analogía sencilla.

1. El Mapa de la Imaginación (El Espacio Esférico)

Imagina que todas las imágenes que la IA puede crear existen dentro de una gigantesca esfera de cristal (como una bola de nieve mágica).

En el centro de esta esfera hay un punto que representa tu texto: "Coche negro".
Todas las imágenes que la IA genera son puntos dentro de esa esfera.

El problema es que, cuando la IA genera 10 imágenes, esos 10 puntos suelen agruparse muy juntos, como un enjambre de abejas. No exploran todo el espacio disponible.

2. La Gran Idea: Separar lo que el Chef Sabe de lo que le falta

Los autores del paper se dieron cuenta de que la "diversidad" tiene dos tipos de fuentes, y la IA las mezcla todo junto. Ellos decidieron separarlas usando una brújula geométrica:

La Dirección del Texto (Prompt-Dependent): Es la línea que va desde el centro hacia el "Coche negro". Aquí es donde la IA cambia cosas que deben obedecer al texto, como el color del coche o el tipo de vehículo.
La Dirección Oculta (Prompt-Independent): Es una línea perpendicular (en ángulo de 90 grados) a la anterior. Aquí es donde la IA cambia cosas que no pediste, como el fondo (¿es una playa o una ciudad?), la hora del día, o el estilo de la foto.

La analogía: Imagina que estás pintando un cuadro.

La Dirección del Texto es decidir si el cuadro es de un perro o de un gato.
La Dirección Oculta es decidir si el perro está en la nieve, en la playa o en un sofá, y si la luz es de día o de noche.
La IA actual suele pintar al perro siempre en el mismo sofá. GASS le dice: "¡Hey, mueve al perro a la playa y luego a la nieve!".

3. ¿Cómo funciona GASS? (El Método de la "Bola de Nieve Expandida")

El método GASS hace dos cosas mágicas mientras la IA está "pensando" la imagen (un proceso llamado muestreo):

Estirar la esfera: En lugar de dejar que los puntos (las imágenes) se amontonen, GASS empuja suavemente a las imágenes generadas hacia los bordes de la esfera en ambas direcciones (la del texto y la oculta). Es como si tomara un grupo de amigos apretados en una habitación y les dijera: "¡Desparrámense! Ocupen toda la sala".
Corregir el rumbo: La IA a veces se confunde si la empujas demasiado. GASS usa un "GPS" (basado en un sistema llamado CLIP) para asegurarse de que, aunque la imagen sea muy diferente (otro fondo, otro ángulo), siga siendo un "coche negro" y no se convierta en un "gato rosa".

4. El Resultado: ¡Más variedad sin perder calidad!

Gracias a esta técnica, cuando le pides a la IA "un coche negro" 10 veces:

Sin GASS: Obtienes 10 coches negros casi idénticos.
Con GASS: Obtienes un coche negro en la lluvia, otro en el desierto, uno visto desde arriba, otro desde abajo, uno antiguo y otro futurista.

Lo increíble es que no tienen que cambiar el texto para lograr esto. La IA descubre por sí misma nuevas formas de interpretar lo que no le dijiste explícitamente.

¿Por qué es importante?

Creatividad real: Si eres un diseñador, puedes obtener muchas opciones diferentes para elegir sin tener que escribir 50 frases diferentes.
Justicia y Equidad: Al forzar a la IA a explorar más "direcciones ocultas" (como fondos o contextos), evitamos que la IA se quede atrapada en estereotipos. Por ejemplo, si le pides "un líder", la IA podría mostrar a una mujer, a una persona de otra etnia o en diferentes contextos culturales, en lugar de siempre mostrar al mismo estereotipo tradicional.

En resumen:
GASS es como darle a la IA un mapa más grande y una brújula mejor. Le dice: "Ya sé que quieres un coche negro, pero ¡explora todo el mundo posible alrededor de ese coche! Mueve el fondo, cambia la luz, cambia el ángulo, pero mantén el coche negro". El resultado es un mundo de imágenes mucho más rico, variado y creativo.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation" en español.

1. El Problema

A pesar de los avances significativos en la alineación semántica y la fidelidad de las imágenes, los modelos generativos actuales de Texto a Imagen (T2I) sufren de una falta de diversidad cuando se les proporciona un solo prompt fijo.

Limitación actual: Los modelos tienden a generar imágenes muy similares entre sí, lo que restringe la elección del usuario y corre el riesgo de amplificar sesgos sociales al reforzar estereotipos visuales estrechos.
Deficiencia de métodos anteriores: La mayoría de las técnicas existentes para mejorar la diversidad se basan en la maximización de la entropía (hacer que las muestras sean lo más diferentes posible). Sin embargo, estos enfoques ignoran la naturaleza multifacética de la diversidad: no distinguen entre variaciones dependientes del prompt (ej. ángulo de visión, modelo del objeto) y variaciones independientes del prompt (ej. fondos, iluminación, estilo). Además, métricas como el Scendi Score tienen limitaciones en configuraciones de un solo prompt.

2. Metodología: GASS (Muestreo Esférico Consciente de la Geometría)

Los autores proponen un enfoque basado en la geometría dentro del espacio de incrustaciones (embeddings) de CLIP. La metodología se divide en tres componentes principales:

A. Descomposición Geométrica de la Diversidad

El trabajo analiza la diversidad de un lote de imágenes generadas dentro de la hipersfera de CLIP. Se descompone la variación de las incrustaciones de imagen ( $e_i$ ) en dos direcciones ortogonales:

Variación Dependiente del Prompt ( $e_t$ ): Capturada por la proyección sobre el embedding de texto. Representa cambios semánticos alineados con la instrucción (ej. diferentes tipos de coches).
Variación Independiente del Prompt ( $u_{ind}$ ): Capturada por un vector unitario ortogonal identificado ( $u_{ind}$ $u_{in d}$ ). Representa atributos visuales no especificados por el texto (ej. fondos, estilos, iluminación).
- Identificación de $u_{ind}$ : Se utiliza una búsqueda aleatoria en el espacio tangente ortogonal a $e_t$ para encontrar la dirección residual que maximiza la varianza capturada por el lote de imágenes.

B. Medida de Diversidad: Puntuación de Dispersión Esférica (SPP)

Se define una métrica cuantitativa llamada SPP (Spherical Spread Score), que es la suma de las dispersiones geométricas a lo largo de ambos ejes:
$SPP = D_{dep} + D_{ind}$
Donde $D_{dep}$ y $D_{ind}$ son la diferencia entre el máximo y mínimo de las proyecciones de las imágenes en los ejes $e_t$ y $u_{ind}$ respectivamente. Esto permite medir y optimizar explícitamente la diversidad en ambas dimensiones.

C. Algoritmo de Muestreo y Optimización (GASS)

El método interviene en el proceso de inferencia (muestreo) de los modelos T2I congelados (como U-Net o DiT) sin reentrenarlos:

Expansión de Proyección: En cada paso de muestreo, se toman las incrustaciones de imagen estimadas y se les aplica un desplazamiento aleatorio ( $\delta$ ) a lo largo de los ejes $e_t$ y $u_{ind}$ . Esto expande la distribución geométrica de las imágenes en la hipersfera.
Re-normalización: Los vectores perturbados se proyectan de nuevo sobre la hipersfera unitaria para mantener la validez de la representación en CLIP.
Optimización Basada en Gradientes: Dado que CLIP no tiene un decodificador preentrenado, el método utiliza el gradiente del codificador de imágenes de CLIP (congelado) para optimizar la imagen estimada limpia ( $\hat{x}_{0|t}$ ). Se minimiza una pérdida que mide la alineación entre la imagen actual y las incrustaciones objetivo expandidas.
Guía Dinámica: Este proceso guía la trayectoria de muestreo hacia una mayor cobertura geométrica mientras se preserva la fidelidad semántica.

3. Contribuciones Clave

Marco Geométrico de Desenredo: Introducen un marco para cuantificar y separar las fuentes de diversidad dependientes e independientes del prompt dentro del espacio de CLIP, superando las limitaciones de las métricas basadas puramente en entropía.
Método GASS: Proponen un algoritmo de muestreo que expande explícitamente la dispersión geométrica a lo largo de direcciones ortogonales identificadas, permitiendo un control granular sobre qué tipo de diversidad se genera.
Evidencia Empírica: Demuestran que es posible aumentar la diversidad (especialmente en fondos y estilos) sin degradar significativamente la calidad de la imagen o la alineación con el texto, algo difícil de lograr con métodos anteriores.

4. Resultados Experimentales

Los experimentos se realizaron en modelos T2I congelados (Stable Diffusion 2.1, SD3 Medium) y en dos conjuntos de datos: ImageNet y DrawBench.

Rendimiento en Diversidad: GASS supera a los métodos de última generación (como Particle Guidance, CADS, IG, SPELL) en métricas de diversidad como el Vendi Score (VS) y la propia métrica SPP.
Calidad y Alineación: A diferencia de otros métodos que suelen sacrificar calidad por diversidad, GASS mantiene métricas de calidad (ImageReward, FID/Coverage) y alineación (ClipScore) competitivas, e incluso mejora ligeramente en algunos casos.
Análisis Cualitativo: Las imágenes generadas con GASS muestran una mayor variación semántica (posturas, composiciones) y, crucialmente, fondos más detallados y diversos, algo que otros métodos tienden a suavizar o hacer ambiguos.
Control Selectivo: El método permite activar la expansión solo en el eje dependiente del prompt (para variar objetos) o solo en el independiente (para variar fondos), ofreciendo un control fino.

5. Significado e Impacto

Avance Teórico: El trabajo cambia el paradigma de tratar la diversidad como un problema de maximización de entropía a uno de optimización geométrica estructurada en espacios latentes.
Aplicabilidad Práctica: Al ser un método de inferencia que funciona con modelos congelados, es fácil de integrar en flujos de trabajo existentes sin necesidad de reentrenamiento costoso.
Impacto Social: Al mejorar la diversidad de las imágenes generadas (especialmente en atributos independientes del prompt como el contexto y el estilo), el método ayuda a mitigar la amplificación de sesgos sociales y estereotipos visuales, ofreciendo a los usuarios un mayor control creativo y opciones más variadas.

En resumen, GASS presenta una solución elegante y efectiva para el problema de la falta de diversidad en la generación de imágenes, utilizando la geometría del espacio de CLIP para desentrañar y amplificar selectivamente los factores de variación.