SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el edición de imágenes con Inteligencia Artificial es como tener un asistente de arte muy talentoso, pero un poco despistado. Le pides que cambie la camisa de una persona por una de seda, y él lo hace, pero por error también cambia el color de su piel o borra el fondo.

El problema es: ¿Cómo le decimos al asistente que hizo un buen trabajo sin arruinar lo demás?

Aquí es donde entra este nuevo estudio, llamado SpatialReward. Vamos a explicarlo con una analogía sencilla.

1. El Problema: "El Colapso de la Atención" (El Asistente Soñador)

Imagina que le das una foto original y una foto editada a un juez (la IA actual) para que diga si el cambio fue bueno.

La IA actual (EditScore, GPT-4, etc.) actúa como un soñador despistado. Mira la foto editada, ve que la camisa es de seda, y dice: "¡Genial! ¡Perfecto!".
El error: Se olvida de mirar la foto original. No se da cuenta de que, al poner la camisa de seda, el asistente también borró el reloj de la muñeca o cambió la expresión de la cara.
La metáfora: Es como si un crítico de cine viera solo la escena final de una película y dijera "¡Qué final más bonito!", sin darse cuenta de que en la escena anterior el héroe se había caído por un precipicio. A esto los autores le llaman "Colapso de la Atención". La IA deja de comparar la "antes" y la "después" y solo alaba lo que ve.

2. La Solución: SpatialReward (El Inspector con Lupa y Regla)

Los autores crearon un nuevo juez llamado SpatialReward. En lugar de ser un soñador, este es un inspector de obras muy estricto.

La analogía: Imagina que SpatialReward es un arquitecto que tiene una regla y una lupa.
1. Paso 1 (La Regla): Antes de opinar, el inspector dibuja un recuadro (un "bounding box") exactamente donde se pidió el cambio (por ejemplo, alrededor de la camisa).
2. Paso 2 (La Lupa): Luego, mira dentro de ese recuadro en la foto original y en la nueva. Compara píxel por píxel. "¿La camisa es seda? Sí. ¿El reloj sigue ahí? Sí. ¿La cara cambió? ¡No! ¡Error!".
3. Paso 3 (El Veredicto): Solo da una puntuación alta si todo lo que está dentro del recuadro está bien Y todo lo que está fuera del recuadro no ha cambiado.

Esta técnica se llama "Pensar con Cajas" (Think-with-Boxes). Obliga a la IA a dejar de soñar y empezar a medir y comparar de verdad.

3. ¿Por qué es importante? (El Entrenamiento del Asistente)

El papel explica que usan este nuevo juez para entrenar a los modelos de edición (como un entrenador de fútbol).

Antes: Si el entrenador (la IA antigua) le decía al jugador "¡Buen gol!", aunque el jugador hubiera empujado al árbitro, el jugador seguía haciendo lo mismo (empujar al árbitro).
Ahora: Con SpatialReward, el entrenador es muy preciso. Si el jugador mete gol pero empuja al árbitro, el entrenador dice: "¡Buen gol, pero restamos puntos por empujar al árbitro!".
Resultado: El jugador (el modelo de IA) aprende a hacer exactamente lo que se le pide, sin tocar nada más.

4. Los Resultados (El Campeón)

Los autores probaron a su nuevo inspector contra los mejores jueces del mundo (incluyendo modelos de pago como GPT-4.1 y Gemini).

En pruebas de lógica: SpatialReward ganó a todos, detectando errores sutiles que los otros ignoraban.
En entrenamiento: Cuando usaron a SpatialReward para entrenar a un modelo llamado OmniGen2, este modelo mejoró el doble que cuando lo entrenaron con los jueces anteriores.

En resumen

Este paper nos dice que para que la IA edite fotos como un humano experto, no basta con que "vea" la imagen final. Necesita tener sentido espacial: saber dónde mirar, qué comparar y qué no tocar.

SpatialReward es simplemente enseñarle a la IA a usar una regla y una lupa en lugar de cerrar los ojos y soñar. ¡Y eso hace que las ediciones sean mucho más precisas y menos "alucinatorias"!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning", estructurado según los puntos solicitados:

1. El Problema: La Brecha de Percepción y el "Colapso de Atención"

El aprendizaje por refuerzo en línea (Online RL) ofrece un gran potencial para el edición de imágenes complejas, pero su implementación se ve frenada por la falta de señales de recompensa fiables y de alta granularidad.

La Brecha de Percepción: Los evaluadores actuales (modelos de lenguaje multimodal o MLLM) sufren de una desconexión crítica al evaluar imágenes editadas. A menudo fallan en comparar rigurosamente la imagen original con la editada.
Colapso de Atención (Attention Collapse): Este es el fenómeno central identificado por los autores. Los modelos tienden a ignorar el contexto de la imagen original (fuente) y se concentran ciegamente en la imagen editada, tratando la tarea como una evaluación de una sola imagen. Esto lleva a:
- Fallos en detectar inconsistencias sutiles (ej. cambios no deseados en el fondo o estilo).
- Puntuaciones mal calibradas que no reflejan la preferencia humana.
- Alucinaciones donde el modelo aprueba ediciones que han destruido la identidad de la fuente.
Limitaciones de los métodos actuales:
- Recompensas por pares: Son computacionalmente costosas ( $O(N^2)$ ) y no proporcionan señales escalares absolutas necesarias para el RL en línea.
- Modelos discriminativos puntuales: Carecen de un camino de razonamiento explícito y dependen de etiquetas humanas costosas.
- Métodos generativos ("MLLM-as-a-judge"): Aunque prometedores, carecen de una guía espacial explícita, lo que perpetúa el colapso de atención incluso en modelos avanzados como GPT-5.

2. Metodología: SpatialReward y Razonamiento Espacial Explícito

Los autores proponen SpatialReward, un modelo de recompensa que integra un razonamiento espacial explícito para forzar una verificación precisa a nivel de píxel.

Arquitectura "Think-with-Boxes" (Pensar con Cajas)

El núcleo de la metodología es un mecanismo que obliga al modelo a localizar las regiones editadas antes de juzgarlas, rompiendo el colapso de atención:

Localización: El modelo primero predice coordenadas de cuadros delimitadores (bounding boxes) para los objetos editados.
Verificación Anclada: Utiliza tokens intercalados (ej. <|bbox_id|>) para anclar el razonamiento textual a esas regiones específicas. Esto obliga al modelo a "mirar hacia atrás" a los píxeles reales de la imagen original y editada en esas zonas.
Evaluación Global: Un token especial <|global|> asegura un escaneo del contexto general para verificar la coherencia global y la preservación de áreas no editadas.
Salida Estructurada: El modelo genera una tupla $(B, T, s)$ : coordenadas espaciales ( $B$ ), razonamiento textual ( $T$ ) y puntuaciones escalares ( $s$ ).

Pipeline de Datos (Spatial-Prior-Guided)

Para entrenar este modelo, construyeron SPATIALREWARD-260K, un conjunto de datos de alta calidad:

Fase 1 (Grounding): Uso de un VLM robusto (Qwen-3-VL) para generar las coordenadas espaciales.
Fase 2 (Razonamiento): Enrutamiento experto (Gemini-2.5-Pro para rostros, GPT-5 para objetos generales) para generar justificaciones y puntuaciones.
Fase 3 (Verificación): Un proceso de alineación donde se verifica que el razonamiento sea consistente con las cajas delimitadoras, descartando alucinaciones.

Estrategia de Entrenamiento

SFT (Fine-Tuning Supervisado): Entrenamiento inicial en el conjunto de datos 260k para aprender el formato estructurado y el razonamiento espacial.
RL Online (GRPO): Uso de Group Relative Policy Optimization (GRPO) en un subconjunto de 7k ejemplos difíciles. Se utiliza un supervisor en línea (Gemini-3.0-Flash) para generar señales de consistencia, penalizando el razonamiento no fundamentado y estabilizando la distribución del modelo.

3. Contribuciones Clave

Identificación del Problema: Demostraron que la falta de anclajes espaciales causa "Colapso de Atención" en evaluadores de edición de imágenes, y que el razonamiento espacial explícito es esencial para solucionarlo.
SpatialReward: El primer marco que integra razonamiento espacial explícito en la evaluación generativa puntual para edición de imágenes.
SPATIALREWARD-260K: Un dataset masivo y curado con trazas de razonamiento espacial de alta calidad.
MultiEditReward-Bench (MER-Bench): Un nuevo benchmark diseñado para desafiar la percepción espacial con tareas de edición complejas y multi-región (15 sub-tareas, 600 grupos de evaluación).
Validación en RL: Demostración de que SpatialReward actúa como una señal de recompensa robusta para mejorar modelos generativos mediante RL en línea.

4. Resultados

Los experimentos muestran un rendimiento superior en múltiples frentes:

Benchmarks de Recompensa:
- En EditReward-Bench, SpatialReward (8B) supera a la línea base generativa (EditScore-8B) en un +11.3% y a los evaluadores discriminativos líderes.
- En MMRB2, mejora un +9.1% sobre la línea base.
- En MER-Bench (tareas complejas), alcanza un 48.3% de precisión, superando a EditScore (35.0%) y compitiendo con modelos propietarios como Gemini-3.0-Flash. Es particularmente robusto en escenarios de 4 pares de comparación, donde otros modelos colapsan.
Análisis de Atención: La métrica de "Brecha de Entropía" (Entropy Gap) muestra que SpatialReward reduce drásticamente el colapso de atención (de 3.48 en la línea base a 1.16 en su modelo), manteniendo una alta conciencia de la imagen fuente.
Impacto en RL (OmniGen2):
- Al usar SpatialReward para entrenar OmniGen2 mediante Flow-GRPO, se logra un aumento de +0.90 en la puntuación de GEdit-Bench.
- Esto supera al modelo discriminativo más fuerte (+0.77) y duplica la mejora obtenida usando GPT-4.1 como recompensa (+0.45).
- Calidad Visual: Las ediciones resultantes preservan mejor la consistencia de la fuente y evitan el "desplazamiento de contenido" (content drift) que sufren los modelos entrenados con recompensas sin anclaje espacial.
Eficiencia: A pesar de ser un modelo generativo, SpatialReward es un 1.5x más rápido que los modelos discriminativos en inferencia en línea gracias a la optimización con vLLM y el uso de caché de prefijos.

5. Significado e Impacto

Este trabajo establece un nuevo paradigma para la evaluación y alineación en la edición de imágenes generativa:

Necesidad de Espacialidad: Demuestra que el razonamiento puramente semántico es insuficiente para la edición de imágenes; el anclaje espacial explícito es un requisito indispensable para una evaluación fiable.
Viabilidad del RL en Línea: Proporciona la señal de recompensa necesaria para que el RL en línea funcione eficazmente en tareas de edición, permitiendo a los modelos explorar distribuciones fuera de los datos de entrenamiento sin perder la coherencia con la imagen original.
Escalabilidad: Al utilizar un enfoque de razonamiento estructurado y datos sintetizados de alta calidad, ofrece una ruta escalable para crear evaluadores que superen a los modelos propietarios cerrados en tareas específicas de edición.

En resumen, SpatialReward cierra la brecha entre la percepción del modelo y la realidad visual mediante el "pensamiento con cajas", logrando una alineación superior con las preferencias humanas y habilitando la próxima generación de editores de imágenes impulsados por RL.