Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Este artículo identifica y explica la etapa de corrupción en el ajuste fino de pocos ejemplos de modelos de difusión, proponiendo el uso de redes neuronales bayesianas para mitigar este fenómeno y mejorar la fidelidad, calidad y diversidad de las imágenes generadas sin incurrir en costos adicionales de inferencia.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un artista genial llamado "Difusión" (Diffusion). Este artista ha pasado años viendo millones de cuadros, fotos y pinturas. Por eso, sabe pintar de todo: desde gatos voladores hasta paisajes futuristas. Es un maestro.

Pero, ¿qué pasa si quieres que este artista aprenda a pintar solo a tu perro, "Firulais", y solo tienes tres fotos de él para enseñarle?

Aquí es donde entra este paper, que cuenta una historia muy interesante sobre lo que sucede cuando intentamos enseñarle al artista con tan poca información.

1. El Problema: La "Fase de Corrupción" (El momento en que todo se pone feo)

Normalmente, cuando entrenas a una IA con pocas fotos, esperas que mejore poco a poco. Pero los autores descubrieron algo extraño y sorprendente:

  1. Al principio: ¡Funciona genial! El artista empieza a entender quién es Firulais. Las fotos salen bonitas.
  2. El momento extraño (La Corrupción): De repente, las fotos empiezan a salir mal. Aparecen manchas extrañas, ruido, como si el artista hubiera bebido demasiado café y empezara a alucinar. Las imágenes pierden calidad y se ven "sucias".
  3. El final: Luego, el artista se recupera, pero se vuelve un obseso. Ya no pinta a Firulais en diferentes situaciones; solo copia exactamente las tres fotos que le diste. Si le pides "Firulais durmiendo", te da la foto exacta de "Firulais despierto". Ha perdido su creatividad y se ha quedado "atascado".

Los autores llaman a este momento feo y ruidoso la "Fase de Corrupción".

2. ¿Por qué pasa esto? (La analogía del mapa)

Imagina que el conocimiento del artista es un mapa gigante de todo el mundo.

  • El modelo original: Tiene el mapa completo del planeta. Sabe dónde está París, Tokio y tu casa.
  • El entrenamiento con pocas fotos: Cuando le das solo 3 fotos de Firulais, el artista intenta redibujar el mapa, pero borra todo lo demás y solo deja un punto muy pequeño donde está Firulais.

El problema: Como el mapa es tan pequeño y estrecho, cuando el artista intenta pintar algo nuevo (por ejemplo, "Firulais bajo la lluvia"), se pierde. Como no tiene un mapa amplio para guiarse, empieza a inventar cosas al azar (esas manchas ruidosas o "corrupción").

Es como si un chef que solo ha cocinado un tipo de pasta intentara hacer una pizza. Al no tener ingredientes variados en su "mapa" de cocina, la pizza sale quemada y con forma de pasta.

3. La Solución: Las Redes Neuronales Bayesianas (BNNs)

Para arreglar esto, los autores proponen usar una técnica llamada Redes Neuronales Bayesianas (BNNs).

La analogía de la duda saludable:

  • El modelo normal: Es como un estudiante que cree que sabe la respuesta exacta al 100%. Si le das 3 fotos, cree que "Firulais es exactamente así" y no se permite imaginar nada más.
  • El modelo con BNNs: Es como un estudiante que dice: "Bueno, creo que Firulais es así, pero también podría ser un poco diferente, o tener el pelo un poco más largo, o estar en otro lugar".

Las BNNs le dicen al modelo: "No seas tan seguro de ti mismo".

En lugar de aprender un punto fijo en el mapa, el modelo con BNNs aprende un área un poco más grande. Le permite tener "dudas" o variaciones. Esto hace que, cuando intenta pintar algo nuevo, no se pierda en el caos (la corrupción), porque tiene un mapa un poco más amplio para guiarse.

4. ¿Qué logran con esto?

Al aplicar esta "duda saludable" (BNNs):

  1. Desaparecen las manchas: La "Fase de Corrupción" se reduce drásticamente. Las imágenes no salen ruidosas.
  2. Más variedad: El artista puede pintar a Firulais durmiendo, corriendo o con un sombrero, y no solo copiar las fotos originales.
  3. Calidad: Las imágenes salen más bonitas y realistas.

En resumen

Este paper descubre que cuando enseñamos a una IA con muy pocas fotos, a veces se vuelve loca y hace imágenes feas antes de volverse aburrida. Para arreglarlo, usan una técnica que le enseña a la IA a no ser tan rígida, permitiéndole imaginar un poco más allá de las pocas fotos que tiene. Es como darle al artista un mapa un poco más grande para que no se pierda, logrando resultados más creativos y de mejor calidad.

¡Y lo mejor de todo! Esto funciona con cualquier método de entrenamiento actual y no hace que la IA sea más lenta al momento de crear las imágenes.