Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de difusión (como los que crean imágenes a partir de texto) son como grandes chefs que han aprendido a cocinar comiendo millones de recetas de internet. El problema es que, aunque saben cocinar de todo, a veces no saben exactamente qué le gusta a tu paladar específico. Quieren hacer algo "bonito", pero quizás no es exactamente lo que tú pediste.

Este paper propone una nueva forma de enseñarles a estos chefs a seguir tus gustos sin tener que volver a la escuela culinaria (entrenar de nuevo desde cero).

Aquí tienes la explicación con analogías sencillas:

1. El Problema: El Chef que se "obsesiona"

Antes, para enseñar al chef a hacer lo que tú quieres, se usaba un método llamado DPO (Optimización Directa de Preferencias).

La analogía: Imagina que le muestras al chef 100 fotos de pizzas perfectas (las que te gustan) y 100 de pizzas quemadas (las que odias). El chef intenta aprender de esto.
El fallo: A veces, el chef se obsesiona tanto con las fotos que le muestras que empieza a "alucinar". Si le enseñas demasiado, empieza a hacer pizzas que se parecen a las fotos de ejemplo, pero pierden su sabor original o se vuelven extrañas y repetitivas. Se le llama "sobreajuste" (overfitting). Es como un estudiante que memoriza las respuestas del examen pero no entiende la materia; si le cambian una sola palabra en la pregunta, falla.

2. La Idea Brillante: El "Director de Orquesta" (Guía)

Los autores dicen: "¿Y si en lugar de reentrenar al chef, le damos un director de orquesta que le susurre instrucciones mientras cocina?"

En el mundo de la IA, esto se llama Guía Libre de Clasificador (CFG). Normalmente, se usa para decirle al modelo: "Hazlo más parecido a la palabra 'gato' y menos a 'perro'".

La innovación: Ellos proponen usar ese mismo mecanismo, pero en lugar de guiar con una palabra, guían con tus preferencias.

3. La Solución: PGD (Difusión Guiada por Preferencias)

Imagina que tienes dos versiones del chef:

El Chef Base: El original, que sabe cocinar de todo pero no conoce tus gustos específicos.
El Chef Especialista: Un chef que ha practicado muy poco (solo unas pocas horas) con tus fotos de pizzas favoritas.

¿Cómo funciona PGD?
En lugar de fusionar a los dos chefs en uno nuevo (lo cual es lento y costoso), usas al Chef Especialista solo como un "susurro" o una señal de control mientras el Chef Base cocina.

La magia: El Chef Base hace la pizza. El Chef Especialista le dice: "Oye, en este paso, añade un poco más de queso, como en las fotos que te gustaron".
El resultado: Obtienes una pizza que sabe a la cocina original (no se arruina) pero que tiene el sabor exacto que tú quieres. Además, como el Chef Especialista no se entrena demasiado, no se vuelve "loco" ni se obsesiona.

4. La Mejora: cPGD (Difusión Guiada por Preferencias Contraste)

Esta es la versión "Pro" del método anterior.

La analogía: Imagina que el Chef Especialista no solo sabe qué te gusta, sino que también sabe exactamente qué NO te gusta.
Cómo funciona: Entrenan a dos chefs pequeños:
1. Uno que solo ve las pizzas que te gustan (Positivo).
2. Otro que solo ve las pizzas que odias (Negativo).
El truco: En el momento de cocinar, toman la instrucción del Chef "Positivo" y le restan la instrucción del Chef "Negativo".
- Fórmula mágica: (Lo que te gusta) - (Lo que odias) = La dirección exacta a seguir.
Ventaja: Es como tener un GPS que no solo te dice "ve al norte", sino que también te dice "no vayas al sur". Esto hace que la IA sea mucho más precisa y generalice mejor (funcione bien incluso con recetas nuevas que nunca ha visto).

5. ¿Por qué es mejor que lo anterior?

No necesitas reentrenar todo: Es como ponerle un "filtro" o un "accesorio" a tu cámara existente en lugar de comprar una cámara nueva. Puedes usarlo en cualquier modelo de imagen que ya tengas.
Es flexible: Puedes ajustar la "fuerza" del susurro. Si quieres que el chef siga tus gustos al 100%, subes el volumen. Si quieres que sea más creativo y menos rígido, bajas el volumen.
Evita el desastre: Como no se entrena el modelo completo de nuevo, no pierde su capacidad de crear cosas bonitas ni se vuelve repetitivo.

En resumen

Este paper dice: "No reentrenes al modelo entero para que aprenda tus gustos. En su lugar, entrena un pequeño 'asistente' que sepa qué te gusta y qué no, y úsalo como un control remoto durante la creación de la imagen."

Es una forma más inteligente, rápida y segura de hacer que la Inteligencia Artificial entienda lo que realmente queremos ver, sin romper lo que ya sabe hacer.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Replanteamiento de la Alineación de Preferencias para Modelos de Difusión con Guía Libre de Clasificador

1. El Problema

La alineación de modelos de difusión a gran escala (Text-to-Image) con preferencias humanas matizadas sigue siendo un desafío crítico. Aunque los modelos preentrenados en conjuntos de datos masivos de internet pueden generar imágenes de alta fidelidad, a menudo se desvían de lo que los humanos realmente prefieren en términos de estética y seguimiento de instrucciones.

El enfoque estándar actual, Optimización Directa de Preferencias (DPO) adaptada a difusión (Diffusion-DPO), presenta limitaciones significativas:

Sobreatamiento (Overfitting): Tiende a sobreajustarse a los datos de preferencia, especialmente cuando el conjunto de datos es pequeño.
Generalización deficiente: Muestra brechas de generalización en prompts fuera de la distribución (OOD).
Colapso de modos: Puede sufrir de comportamientos catastróficos donde el modelo pierde diversidad o colapsa a soluciones degeneradas.
Inflexibilidad: Requiere un ajuste fino completo del modelo base, lo que impide la reutilización fácil de módulos de alineación en otros modelos base.

El artículo ilustra este problema mediante un experimento 2D de juguete, donde el DPO falla al intentar separar clusters positivos de negativos sin colapsar la distribución, mientras que un enfoque basado en guía mantiene la estructura global.

2. Metodología Propuesta

Los autores proponen una nueva perspectiva: en lugar de tratar la alineación como un problema de optimización de política (como en DPO), la reformulan como un problema de inferencia con Guía Libre de Clasificador (CFG).

La idea central es tratar el modelo ajustado (fine-tuned) no como el modelo final, sino como una señal de control externa que se combina con el modelo base (prior) durante el tiempo de inferencia. Se presentan dos variantes principales:

A. Difusión Guiada por Preferencias (PGD - Preference-Guided Diffusion)

Concepto: Se toma un modelo base ( $\pi_{ref}$ ) y un modelo ajustado con DPO o SFT ( $\pi_{DPO}$ ).
Mecanismo: Durante la inferencia, se aplica una regla de guía similar a la CFG:
$\nabla \log \pi_{PGD}(x) = \nabla \log \pi_{ref}(x) + w \cdot (\nabla \log \pi_{DPO}(x) - \nabla \log \pi_{ref}(x))$
Donde $w$ es un peso de guía que amplifica la diferencia entre la señal de preferencia y el prior.
Ventaja: Permite utilizar modelos ajustados con muy pocas iteraciones (evitando el sobreajuste) y permite cambiar el modelo base en tiempo de inferencia sin reentrenar el módulo de preferencia.

B. PGD Contrastiva (cPGD - Contrastive PGD)

Inspiración: Se basa en la idea de que el aprendizaje de preferencias puede descomponerse en dos modelos independientes: uno entrenado solo en muestras positivas y otro solo en muestras negativas.
Mecanismo: En lugar de un solo modelo ajustado, se entrenan dos modelos:
1. $\theta_+$ : Entrenado con datos positivos.
2. $\theta_-$ : Entrenado con datos negativos.
Fórmula de Inferencia: Se crea un vector de guía contrastivo restando las predicciones:
$\nabla \log \pi_{cPGD}(x, t) = \nabla \log \pi_{ref}(x, t) + w \cdot (\nabla \log \pi(x, t; \theta_+) - \nabla \log \pi(x, t; \theta_-))$
Interpretación Teórica: Los autores demuestran que esto equivale a una reponderación dinámica de los gradientes de pérdida de DPO. Al separar los componentes positivos y negativos, se mitiga el problema de que la pérdida de DPO empuje tanto a las muestras positivas como a las negativas hacia distribuciones degeneradas (colapso de verosimilitud).

3. Contribuciones Clave

Reformulación de la Alineación: Proponen tratar la alineación de modelos de difusión como un caso especial de inferencia con CFG, alejándose de la optimización directa de la política.
Métodos PGD y cPGD: Introducen dos métodos simples que no requieren reentrenar el modelo base completo, sino que utilizan módulos de ajuste fino ligeros como señales de control.
Mejora de la Generalización: Al separar el aprendizaje de preferencias en componentes positivos y negativos (cPGD) y aplicar la guía en tiempo de inferencia, se logra una mayor robustez y menos sobreajuste.
Módulos Plug-and-Play: Los módulos ajustados son transferibles. Una vez entrenados en un modelo base, pueden usarse para alinear otros modelos base (incluso con arquitecturas diferentes si comparten el espacio latente) simplemente cambiando el prior en la fórmula de inferencia.

4. Resultados Experimentales

Los métodos se evaluaron en Stable Diffusion 1.5 (SD1.5) y Stable Diffusion XL (SDXL) utilizando los conjuntos de datos Pick-a-Pic v2 y HPDv3.

Rendimiento Cuantitativo:
- PGD y cPGD superan consistentemente a las líneas base (DPO, MaPO, NPO, KTO) en métricas de recompensa humana (PickScore, HPSv2, HPSv3, ImageReward).
- Logran mejoras de Pareto: aumentan la puntuación de recompensa humana mientras mantienen o mejoran la diversidad de las muestras y la preservación del prior (medido por FID).
- En la prueba de "Win Rate" (tasa de victoria contra el modelo base), PGD y cPGD alcanzan tasas significativamente más altas (ej. >80% en HPSv3 para SDXL) comparado con DPO (~66-77%).
Robustez:
- cPGD muestra una mayor robustez en conjuntos de datos de alta calidad y variada, demostrando que la descomposición en dos modelos ayuda a la generalización.
- Los métodos funcionan bien incluso con pocos pasos de entrenamiento (500-2000 pasos) para los módulos de guía.
Estudio Humano:
- En una evaluación con humanos, PGD recibió el 45.5% de los votos de preferencia, superando a DPO (29.5%) y a otros métodos.
Eficiencia y Distilación:
- Aunque la inferencia requiere calcular dos modelos (base + guía), los autores muestran que es posible distilar el comportamiento de PGD/cPGD en un solo checkpoint mediante interpolación de pesos o aprendizaje de distilación, manteniendo la mayor parte de las ganancias de rendimiento sin el costo de inferencia múltiple.

5. Significado e Impacto

Este trabajo representa un cambio de paradigma en la alineación de modelos generativos:

Desacoplamiento de Entrenamiento e Inferencia: Separa la tarea de aprender preferencias (entrenamiento ligero de módulos) de la tarea de generar imágenes (inferencia con guía). Esto reduce el riesgo de sobreajuste y permite una mayor flexibilidad.
Solución al Colapso de Modos: La perspectiva contrastiva (cPGD) ofrece una solución teórica y práctica al problema de inestabilidad y colapso observado en DPO, al tratar explícitamente las fuerzas de "repulsión" de las muestras negativas.
Escalabilidad: La naturaleza "plug-and-play" sugiere que se pueden crear bibliotecas de módulos de preferencia que funcionen sobre múltiples modelos base, facilitando la personalización y alineación sin necesidad de costosos procesos de fine-tuning completo para cada nuevo modelo.

En resumen, el artículo demuestra que la alineación de preferencias puede lograrse de manera más eficiente, robusta y controlable mediante la aplicación de principios de guía (CFG) en tiempo de inferencia, en lugar de depender exclusivamente de la optimización de la política durante el entrenamiento.

Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

1. El Problema: El Chef que se "obsesiona"

2. La Idea Brillante: El "Director de Orquesta" (Guía)

3. La Solución: PGD (Difusión Guiada por Preferencias)

4. La Mejora: cPGD (Difusión Guiada por Preferencias Contraste)

5. ¿Por qué es mejor que lo anterior?

En resumen

Resumen Técnico: Replanteamiento de la Alineación de Preferencias para Modelos de Difusión con Guía Libre de Clasificador

1. El Problema

2. Metodología Propuesta

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation