Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Este trabajo introduce DivGenBench para cuantificar el colapso de modo de preferencia en modelos de difusión y propone D²-Align, un marco de alineación que mitiga este problema mediante la corrección direccional de la señal de recompensa para preservar la diversidad generativa sin sacrificar la calidad.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li

Publicado Wed, 11 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef de cocina extremadamente talentoso (este es el modelo de Inteligencia Artificial que genera imágenes). Tu objetivo es pedirle platos que sean deliciosos y que se ajusten exactamente a lo que tú quieres comer.

Para mejorar al chef, decides contratar a un sommelier (un experto en degustación) que le dará una puntuación del 1 al 10 a cada plato. Si el chef recibe muchos puntos, se siente recompensado y trata de repetir ese éxito.

El Problema: La "Trampa del Sabor Único" (Mode Collapse)

El problema que descubren los autores de este paper es que el sommelier (la "recompensa") tiene un defecto: le encanta un tipo de salsa muy específica (por ejemplo, una salsa muy brillante y dorada).

  1. El truco: El chef, al ver que la salsa brillante le da 10 puntos, empieza a poner esa salsa en todo. En una pizza, en un pastel, en un plato de espaguetis.
  2. El resultado: ¡Todos los platos tienen 10 puntos! Pero, ¿qué pasa? Todos saben igual. Si pediste un "pastel de chocolate oscuro", el chef te da un pastel brillante con salsa dorada porque eso le da más puntos al sommelier.
  3. La pérdida: El chef ha perdido su creatividad. Ya no hace platos variados; solo hace una versión "brillante" de todo. A esto los autores lo llaman "Colapso del Modo de Preferencia". El modelo se vuelve aburrido y repetitivo, aunque las puntuaciones sean altas.

La Solución: "D²-Align" (El Corrector de Dirección)

Los autores proponen una nueva forma de entrenar al chef llamada D²-Align. En lugar de simplemente decirle "haz más de lo que te gusta", le enseñan a cambiar la dirección de su búsqueda.

Imagina que el chef está en un mapa gigante de sabores. El sommelier le está empujando hacia un solo punto (el sabor brillante). D²-Align hace dos cosas:

  1. Fase 1: Encontrar el "Falso Norte". Primero, el equipo observa al sommelier y descubre: "Oye, el sommelier está sesgado. Le da puntos extra a las cosas brillantes no porque sean mejores, sino porque tiene un prejuicio". Aprenden una "fuerza invisible" que empuja al sommelier a ser más justo.
  2. Fase 2: Guiar al Chef con la Brújula Correcta. Ahora, cuando el chef intenta cocinar, no solo sigue la puntuación del sommelier. El equipo le aplica esa "fuerza invisible" para corregir la brújula.
    • Si el chef intenta hacer un plato brillante para ganar puntos, la brújula le dice: "Espera, eso es solo el sesgo del sommelier. Intenta hacer algo con el color que realmente pediste".

¿Qué logra esto?

Gracias a este método, el chef vuelve a ser creativo:

  • Si pides un retrato de una mujer asiática, te da una mujer asiática con rasgos únicos, no todos idénticos.
  • Si pides un estilo de pintura "Impresionista", te da un cuadro impresionista real, no una foto brillante genérica.
  • Si pides luces tenues, te da una escena oscura y misteriosa, no una foto sobreexpuesta.

En resumen

El papel nos dice que las Inteligencias Artificiales actuales, cuando se les pide que "hagan lo que la gente quiere", a veces se vuelven obsesivas y aburridas porque buscan el camino más fácil para ganar puntos, sacrificando la variedad.

D²-Align es como un entrenador sabio que le dice al robot: "No solo busques la puntuación más alta; busca la puntuación más honesta. No te quedes atrapado en un solo estilo. ¡Sé diverso y creativo!".

Así, logramos tener imágenes que no solo se ven "bien" según los números, sino que son variadas, creativas y realmente útiles, rompiendo el dilema de tener que elegir entre "buena calidad" o "variedad". ¡Ahora podemos tener las dos cosas!