EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que el mundo de la edición de imágenes con inteligencia artificial es como un taller de pintura gigante y caótico.

Hasta hace poco, solo unos pocos "maestros" (modelos de pago como los de OpenAI o Google) podían pintar cuadros perfectos siguiendo instrucciones simples como "pinta el cielo de azul" o "cambia el perro por un gato". Los artistas de código abierto (los que cualquiera puede usar gratis) intentaban imitarlos, pero sus cuadros salían a menudo desordenados, con colores raros o sin seguir las instrucciones.

¿Por qué? Porque les faltaba un juez experto que les dijera: "Oye, esto no está bien, vuelve a intentarlo".

Aquí es donde entra en escena el EDITREWARD, la nueva estrella de este papel. Vamos a desglosarlo con analogías sencillas:

1. El Problema: El Juez Ciego

Antes, los modelos de código abierto usaban "jueces" muy básicos:

El Juez Perceptual: Miraba si la imagen se veía borrosa o nítida, pero no entendía si el perro era realmente un gato.
El Juez de Palabras: Leía la instrucción y miraba la imagen, pero a veces se confundía con los detalles artísticos.
El Juez IA Genérico: Era un robot muy inteligente, pero no estaba entrenado específicamente para ser un crítico de arte de edición.

El resultado era que los modelos aprendían de datos "sucios" (imágenes mal editadas) porque no tenían un buen sistema para filtrar lo bueno de lo malo.

2. La Solución: EDITREWARD (El Juez Maestro)

Los autores crearon EDITREWARD, que es como un panel de críticos de arte humanos expertos convertidos en un super-robot.

La Escuela (EDITREWARD-DATA): Antes de crear al robot, los autores contrataron a expertos humanos para que calificaran más de 200,000 intentos de edición. Imagina que tienes 200,000 bocetos y pides a 7 artistas diferentes que intenten editar la misma foto. Luego, los expertos miran cada intento y le ponen dos notas:
1. ¿Siguió las instrucciones? (¿Puso el gato donde pediste?).
2. ¿Se ve bien? (¿El gato tiene patas reales o parece un monstruo?).
Esto creó un "libro de respuestas" gigante y de altísima calidad.
El Entrenamiento (El Modelo): Con ese libro de respuestas, entrenaron a EDITREWARD. Ahora, este modelo puede ver una imagen editada y decir: "Esta sigue la instrucción al 100% y se ve genial, ¡nota 10!" o "Esta cambió el fondo cuando no debía, ¡nota 2!".

3. El Superpoder: El Filtro de Calidad

La parte más genial es cómo usaron a este "Juez Maestro". Tienen un montón de datos viejos y desordenados (como una pila de 46,000 fotos editadas por un robot novato).

En lugar de usar todas esas fotos para entrenar a un nuevo modelo (lo cual sería como intentar aprender a cocinar comiendo comida enlatada de mala calidad), usaron a EDITREWARD para filtrar la pila.

EDITREWARD miró las 46,000 fotos.
Seleccionó solo las 20,000 mejores (las que realmente seguían las instrucciones y se veían bien).
Entrenaron un nuevo modelo (Step1X-Edit) solo con esas 20,000 fotos de alta calidad.

El resultado: El nuevo modelo, entrenado con menos datos pero de mejor calidad, ¡pintó cuadros mucho mejores que el modelo entrenado con las 46,000 fotos sucias! Es como decir: "Es mejor leer 20 libros de arte perfectos que 100 libros con páginas arrancadas y manchas de café".

4. ¿Por qué es importante esto?

Para el mundo abierto: Ahora, los modelos gratuitos pueden alcanzar la calidad de los modelos de pago (como GPT-Image-1) si usan este sistema de "Juez Maestro".
Para el futuro: EDITREWARD es una herramienta que cualquiera puede usar para crear sus propios conjuntos de datos de alta calidad. Ya no necesitamos adivinar qué datos son buenos; tenemos un juez que nos lo dice.

En resumen

Imagina que quieres aprender a tocar el piano.

Antes: Practicabas tocando canciones que sonaban mal porque tu profesor (el modelo de recompensa) no sabía distinguir una nota correcta de una falsa.
Ahora (con EDITREWARD): Tienes un profesor que es un maestro de música con oído absoluto. Te escucha, te dice exactamente qué nota estaba mal, y te selecciona las partituras perfectas para practicar. Gracias a él, aprendes a tocar mucho más rápido y mejor.

Este trabajo es como regalarle a toda la comunidad de código abierto ese "oído absoluto" para que puedan crear imágenes increíbles siguiendo cualquier instrucción que se te ocurra.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "EDITREWARD: A HUMAN-ALIGNED REWARD MODEL FOR INSTRUCTION-GUIDED IMAGE EDITING", presentado en ICLR 2026.

1. El Problema

A pesar de los avances significativos en la edición de imágenes guiada por instrucciones de lenguaje natural (realizados por modelos propietarios como GPT-Image-1 o Seedream), los modelos de código abierto siguen rezagados. La principal cuello de botella es la falta de un modelo de recompensa (reward model) fiable capaz de escalar datos sintéticos de alta calidad.

Los métodos de recompensa actuales presentan deficiencias críticas:

Métricas perceptuales (ej. LPIPS): No capturan la alineación semántica con las instrucciones del usuario.
Métricas de características (ej. CLIP): Fallan al capturar la semántica específica de la edición.
VLMs como jueces (VLM-as-judge): Los modelos de lenguaje-visión generales no están optimizados para tareas de recompensa en edición, mostrando una alineación débil con las preferencias humanas.
Conjuntos de datos existentes: Sufren de ruido, anotaciones de crowdsourcing inconsistentes o etiquetas pseudo-generadas por modelos cerrados, lo que introduce sesgos y baja calidad.

2. Metodología

El equipo propone una solución integral compuesta por tres pilares: un nuevo conjunto de datos, un modelo de recompensa entrenado y un nuevo benchmark.

A. Construcción de EDITREWARD-DATA

Escala y Origen: Un conjunto de datos de preferencias a gran escala con 200,000 pares anotados manualmente.
Fuente de Datos: Se recopilaron 9,557 pares de instrucción-imagen de seis benchmarks existentes (GEdit-Bench, MagicBrush, EmuEdit, etc.).
Generación de Candidatos: Para cada instrucción, se generaron 12 imágenes candidatas utilizando seis modelos de vanguardia (Step1X-Edit, Flux-Kontext, Qwen-Image-Edit, BAGEL, Ovis-U1, OmniGen2).
Anotación Humana: Seis expertos anotaron 7 candidatos por instrucción utilizando una rúbrica multidimensional en una escala Likert de 4 puntos:
1. Seguimiento de Instrucciones (Instruction Following - IF): Precisión semántica, completitud y ausencia de cambios no solicitados.
2. Calidad Visual (Visual Quality - VQ): Plausibilidad física, ausencia de artefactos y estética.
Control de Calidad: Se utilizó el coeficiente alfa de Krippendorff para validar la consistencia inter-anotadores (IAA), confirmando que la dimensión de Calidad Visual es inherentemente más subjetiva que el Seguimiento de Instrucciones.

B. Arquitectura del Modelo EDITREWARD

Backbone: Utiliza Modelos de Lenguaje-Visión (VLM) como base, específicamente Qwen2.5-VL-7B y MiMo-VL-7B.
Cabeza de Recompensa (Reward Head): En lugar de un puntaje escalar único, el modelo emplea un enfoque de Aprendizaje Multitarea (MTL) con cabezas separadas para predecir distribuciones gaussianas ( $\mu, \sigma^2$ ) independientes para cada dimensión (IF y VQ). Esto captura la incertidumbre inherente en las anotaciones humanas.
Función de Pérdida: Se propone una Pérdida de Ranking Consciente de la Incertidumbre Multidimensional. Agrega los puntajes medios predichos (usando estrategias como promedio balanceado, mínimo pesimista o suma directa) y optimiza la probabilidad de preferencia basándose en la distribución de recompensas.
Estrategia de Desentrelazado de Empates: Para pares empatados en la puntuación global, el modelo descompone el empate en dos muestras de entrenamiento con etiquetas opuestas basadas en las ventajas dimensionales (ej. Imagen A gana en IF, Imagen B gana en VQ), forzando al modelo a aprender compensaciones matizadas.

C. EDITREWARD-BENCH

Un nuevo benchmark diseñado para evaluar la consistencia de ranking en escenarios más difíciles.
Incluye tareas de preferencia multi-vía (ternarias y cuaternarias), donde el modelo debe predecir correctamente todas las relaciones de pares dentro de un grupo de candidatos, no solo comparaciones binarias.

3. Contribuciones Clave

EDITREWARD-DATA: El conjunto de datos de preferencias más grande y de mayor calidad para edición de imágenes, caracterizado por anotaciones expertas rigurosas y supervisión multidimensional.
EDITREWARD: Un modelo de recompensa basado en VLM que demuestra una alineación superior con las preferencias humanas, superando a modelos propietarios y de código abierto existentes.
EDITREWARD-BENCH: Un nuevo estándar de evaluación que desafía a los modelos con tareas de ranking multi-candidato, revelando limitaciones no detectadas por benchmarks tradicionales.
Validación de Curación de Datos: Demostración de que EDITREWARD puede filtrar conjuntos de datos ruidosos para mejorar el entrenamiento de modelos generativos.

4. Resultados Experimentales

Rendimiento en Benchmarks Públicos:
- GenAI-Bench: EDITREWARD (MiMo-VL) alcanzó 65.72%, superando a GPT-5 (59.61%) y ADIEE (59.96%).
- AURORA-Bench: Logró 63.62%, superando significativamente a OpenAI-GPT-4o (50.81%).
- ImagenHub: Obtuvo una correlación de Spearman de 35.20, compitiendo con los mejores sistemas propietarios.
Mejora en Modelos Generativos (Aplicación Práctica):
- Se utilizó EDITREWARD para seleccionar el subconjunto superior de 20K ejemplos del conjunto de datos ruidoso ShareGPT-4o-Image.
- Al afinar el modelo Step1X-Edit con este subconjunto curado, el puntaje global en GEdit-Bench aumentó de 6.7/10 (entrenado en el conjunto completo de 46K) a 7.1/10.
- Esto igualó el rendimiento de Step1X-Edit con modelos propietarios de alto nivel como Doubao-Edit, demostrando que la calidad de los datos es más crítica que la cantidad.
Generalización Fuera de Distribución (OOD): El modelo mostró un rendimiento comparable a GPT-4o en tareas de OCR y transferencia de estilo, siendo una alternativa de código abierto y más económica.

5. Significancia e Impacto

Este trabajo aborda una barrera fundamental en la investigación de código abierto para la edición de imágenes: la falta de señales de recompensa fiables.

Cierre de la Brecha: Proporciona las herramientas (datos, modelo y benchmark) necesarias para que la comunidad de código abierto pueda alcanzar el estado del arte de los modelos propietarios.
Paradigma de Entrenamiento: Establece que el uso de modelos de recompensa alineados con humanos para curar datos sintéticos es más efectivo que entrenar con grandes volúmenes de datos ruidosos.
Transparencia y Ética: El equipo libera todos los recursos bajo licencia CC-BY-NC-SA 4.0, fomentando la investigación transparente sobre la seguridad y los sesgos en la edición de imágenes, mientras implementa filtros para evitar el uso malicioso (deepfakes).

En resumen, EDITREWARD no es solo un modelo de evaluación, sino un motor para la generación de datos de alta calidad que impulsa el desarrollo de la próxima generación de editores de imágenes inteligentes.