Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

El artículo presenta ViPO, una variante de la Optimización de Política de Preferencia Visual que mejora el entrenamiento de modelos generativos al transformar las recompensas escalares en mapas de ventaja a nivel de píxel, permitiendo así una alineación más precisa con las preferencias humanas y una corrección efectiva de artefactos locales en imágenes y videos.

Ziqi Ni, Yuanzhi Liang, Rui Li, Yi Zhou, Haibin Huang, Chi Zhang, Xuelong Li

Publicado 2026-02-25
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás enseñando a un artista robot a pintar cuadros o a crear videos. Hasta ahora, cuando el robot hacía algo "bien" o "mal", el profesor (el sistema de aprendizaje) le daba una única calificación global: un solo número, como un "8.5" o un "4".

El problema de este método antiguo es que es demasiado general. Si el robot pinta un paisaje hermoso pero comete un error tonto en un árbol pequeño, el sistema le dice: "Buen trabajo, pero no perfecto". El robot no sabe dónde falló exactamente. ¿Debería arreglar el árbol? ¿O quizás el error estaba en el cielo? Al recibir solo una nota global, el robot intenta arreglar todo a la vez, a veces estropeando partes que ya estaban bien.

Los autores de este paper proponen una nueva forma de enseñar llamada ViPO (Optimización de Política de Preferencia Visual). Aquí te explico cómo funciona con analogías sencillas:

1. El Problema: La "Nota Global" vs. El "Mapa de Tesoros"

  • El método antiguo (GRPO): Es como si un profesor de arte mirara un cuadro y dijera: "Tiene un 7 de nota". El artista robot no sabe si el 7 es porque el cielo está feo o porque los pies del personaje están mal dibujados. Intenta cambiar todo un poco, lo que a veces crea más confusión.
  • El método nuevo (ViPO): En lugar de una sola nota, ViPO le entrega al robot un mapa de calor. Este mapa le dice: "¡Oye, el cielo está genial, déjalo así! Pero aquí, en la mano del personaje, hay un error grave, ¡fíjate solo ahí!".

2. La Magia: El "Ojo Humano" Artificial

Para crear este mapa, ViPO usa un módulo especial llamado Módulo de Estructuración Perceptiva (PSM).

  • La analogía: Imagina que el robot tiene un "gafas de realidad aumentada" entrenadas con miles de fotos de humanos. Cuando el robot genera una imagen, estas gafas escanean la imagen y dicen: "Aquí hay un gato, a los humanos les gusta mucho, así que es importante. Aquí hay un fondo borroso, a los humanos no les importa tanto".
  • El sistema crea un mapa que destaca las zonas "importantes" (donde los humanos miran) y atenúa las zonas "aburridas" (fondos o espacios vacíos).

3. Cómo aprende el robot: El "Foco de Luz"

Con ViPO, el proceso de aprendizaje cambia radicalmente:

  • Antes: El robot recibía una luz de flash blanca que iluminaba todo el cuadro por igual. Si algo estaba mal, intentaba arreglarlo todo, a veces rompiendo lo que ya funcionaba.
  • Ahora: El robot recibe un foco de luz direccional. Si hay un error en la cara de un personaje, el foco se ilumina solo en la cara. El robot sabe exactamente dónde concentrar sus esfuerzos.
    • Si el robot pinta un video de un caballo corriendo, ViPO le dice: "Mira, las patas del caballo están un poco extrañas, arregla solo eso. El fondo de las montañas está perfecto, no lo toques".

4. ¿Por qué es mejor?

  • Evita el caos: Al no intentar arreglar todo a la vez, el robot no comete errores tontos (como duplicar una pierna o poner una nariz en la frente de alguien).
  • Es más rápido y eficiente: Como el robot sabe exactamente dónde mirar, aprende más rápido y con menos ensayos.
  • Funciona con cualquier estilo: No importa si el robot pinta fotos realistas, dibujos animados o videos de acción; el "mapa de calor" se adapta a lo que los humanos encuentran visualmente atractivo.

En resumen

Este paper presenta una nueva forma de enseñar a las IAs a crear imágenes y videos. En lugar de darles una "nota global" que confunde al robot, les dan un mapa de instrucciones detallado que les dice exactamente qué partes de la imagen son importantes para los humanos y cuáles no.

Es como pasar de decirle a un estudiante: "Tu examen fue regular" a decirle: "Tu ortografía es perfecta, pero en la pregunta 3 olvidaste el signo de interrogación. Arregla solo eso". El resultado son imágenes y videos mucho más bonitos, realistas y coherentes.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →