EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

El artículo presenta EditReward, un modelo de recompensa de código abierto alineado con preferencias humanas y entrenado en un nuevo conjunto de datos de más de 200.000 pares, que supera a los modelos existentes en benchmarks de edición de imágenes y permite la selección de datos de alta calidad para entrenar modelos como Step1X-Edit.

Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que el mundo de la edición de imágenes con inteligencia artificial es como un taller de pintura gigante y caótico.

Hasta hace poco, solo unos pocos "maestros" (modelos de pago como los de OpenAI o Google) podían pintar cuadros perfectos siguiendo instrucciones simples como "pinta el cielo de azul" o "cambia el perro por un gato". Los artistas de código abierto (los que cualquiera puede usar gratis) intentaban imitarlos, pero sus cuadros salían a menudo desordenados, con colores raros o sin seguir las instrucciones.

¿Por qué? Porque les faltaba un juez experto que les dijera: "Oye, esto no está bien, vuelve a intentarlo".

Aquí es donde entra en escena el EDITREWARD, la nueva estrella de este papel. Vamos a desglosarlo con analogías sencillas:

1. El Problema: El Juez Ciego

Antes, los modelos de código abierto usaban "jueces" muy básicos:

  • El Juez Perceptual: Miraba si la imagen se veía borrosa o nítida, pero no entendía si el perro era realmente un gato.
  • El Juez de Palabras: Leía la instrucción y miraba la imagen, pero a veces se confundía con los detalles artísticos.
  • El Juez IA Genérico: Era un robot muy inteligente, pero no estaba entrenado específicamente para ser un crítico de arte de edición.

El resultado era que los modelos aprendían de datos "sucios" (imágenes mal editadas) porque no tenían un buen sistema para filtrar lo bueno de lo malo.

2. La Solución: EDITREWARD (El Juez Maestro)

Los autores crearon EDITREWARD, que es como un panel de críticos de arte humanos expertos convertidos en un super-robot.

  • La Escuela (EDITREWARD-DATA): Antes de crear al robot, los autores contrataron a expertos humanos para que calificaran más de 200,000 intentos de edición. Imagina que tienes 200,000 bocetos y pides a 7 artistas diferentes que intenten editar la misma foto. Luego, los expertos miran cada intento y le ponen dos notas:

    1. ¿Siguió las instrucciones? (¿Puso el gato donde pediste?).
    2. ¿Se ve bien? (¿El gato tiene patas reales o parece un monstruo?).

    Esto creó un "libro de respuestas" gigante y de altísima calidad.

  • El Entrenamiento (El Modelo): Con ese libro de respuestas, entrenaron a EDITREWARD. Ahora, este modelo puede ver una imagen editada y decir: "Esta sigue la instrucción al 100% y se ve genial, ¡nota 10!" o "Esta cambió el fondo cuando no debía, ¡nota 2!".

3. El Superpoder: El Filtro de Calidad

La parte más genial es cómo usaron a este "Juez Maestro". Tienen un montón de datos viejos y desordenados (como una pila de 46,000 fotos editadas por un robot novato).

En lugar de usar todas esas fotos para entrenar a un nuevo modelo (lo cual sería como intentar aprender a cocinar comiendo comida enlatada de mala calidad), usaron a EDITREWARD para filtrar la pila.

  • EDITREWARD miró las 46,000 fotos.
  • Seleccionó solo las 20,000 mejores (las que realmente seguían las instrucciones y se veían bien).
  • Entrenaron un nuevo modelo (Step1X-Edit) solo con esas 20,000 fotos de alta calidad.

El resultado: El nuevo modelo, entrenado con menos datos pero de mejor calidad, ¡pintó cuadros mucho mejores que el modelo entrenado con las 46,000 fotos sucias! Es como decir: "Es mejor leer 20 libros de arte perfectos que 100 libros con páginas arrancadas y manchas de café".

4. ¿Por qué es importante esto?

  • Para el mundo abierto: Ahora, los modelos gratuitos pueden alcanzar la calidad de los modelos de pago (como GPT-Image-1) si usan este sistema de "Juez Maestro".
  • Para el futuro: EDITREWARD es una herramienta que cualquiera puede usar para crear sus propios conjuntos de datos de alta calidad. Ya no necesitamos adivinar qué datos son buenos; tenemos un juez que nos lo dice.

En resumen

Imagina que quieres aprender a tocar el piano.

  • Antes: Practicabas tocando canciones que sonaban mal porque tu profesor (el modelo de recompensa) no sabía distinguir una nota correcta de una falsa.
  • Ahora (con EDITREWARD): Tienes un profesor que es un maestro de música con oído absoluto. Te escucha, te dice exactamente qué nota estaba mal, y te selecciona las partituras perfectas para practicar. Gracias a él, aprendes a tocar mucho más rápido y mejor.

Este trabajo es como regalarle a toda la comunidad de código abierto ese "oído absoluto" para que puedan crear imágenes increíbles siguiendo cualquier instrucción que se te ocurra.